【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集

あるURLのソースの文字コードを判定してUnicodeに変換する
メソッドや方法はありませんか?
URLによってshiftJISでかかれていたり、EUC-JP
で書かれているページがあるのでそれを
判定してUnicodeに変換して出力する方法が欲しいのです。
現在は
InputStreamReader isr = new InputStreamReader(is,"EUC-JP");
コンストラクタを用いてコード変換を行っています。
お願いします。

A 回答 (2件)

iso-2022-jp、Shift_JIS、EUC-JP の三つだけ判定できればいいのなら、InputStreamReader のコンストラクタに渡すエンコーディングに "JISAutoDetect" を指定すれば大概うまく読み込んでくれますけど。

    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2004/11/12 22:15

根本的にEUCかSJISかを判定することは難しいです。


とりあえず一旦すべての文字列をバイト配列
に読み込み、出現度からsjisかeucかを判定する
方法がありますが、確実ではありません。

もしソースの中にタグの<meta charset=があるなら
それが指標になります。
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2004/11/12 22:14

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報