文字コードの検出が正しいかを検証する方法

解決済

質問者：jun888
質問日時：2011/07/24 03:28
回答数：3件

PHPの mb_detect_encoding 関数を使っているのですが、
文字エンコーディングの検出が間違っていないかを検証する為に、
以下のように、検出された文字コードに戻し、元の文字列と一致するかで、
検出された文字エンコーディングが正しかったか確認しています。

$str = file_get_contents ( $url );

$moji_code = mb_detect_encoding ( $str , "ASCII,JIS,UTF-8,eucJP-win,SJIS-win" );

$str_after = mb_convert_encoding ( $str , 'UTF-8' , $moji_code );

if ( $str !== mb_convert_encoding ( $str_after , $moji_code , 'UTF-8' ) ) {
　　　　//文字化けしている可能性あり
}

これで、完璧でしょうか？

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.3ベストアンサー

回答者： yambejp
回答日時：2011/07/27 12:59

>他に何か良い方法はありませんでしょうか？

#1で書いたとおり、文字コードを「完璧」に自動判別することは100％不可能です。
ある程度でよければご提示の方法で使用に耐えうる範囲だと思います。

- 0
- 件

通報する

No.2

回答者： kmee
回答日時：2011/07/26 00:08

文字コードの変換は、逆変換すると元に戻ることが多いです。

コードA (エンコードa)
　↓エンコードa→UTF-8変換
コード B(UTF-8)
　↓UTF-8→エンコードa変換
コードA (エンコードa)

ところが、これは、エンコードが違っていてもだいたい成り立ちます。

コードA (エンコードaだけどエンコードbと判定された)
　↓エンコードb→UTF-8変換
コード C (UTF-8)
　↓UTF-8→エンコードb変換
コードA (エンコードa)

と、判定に失敗しても前後が同じになるケースが無いわけでもありません。

また、対応する文字が無かったり、1対多対応で変換/逆変換で文字が変わったりがあるので、正しく判定されても違う文字になることもあります。

この回答への補足

ご回答ありがとうございます。

他に何か良い方法はありませんでしょうか？

補足日時：2011/07/26 21:34

通報する

- 0
- 件

通報する

No.1

回答者： yambejp
回答日時：2011/07/25 10:36

＞完璧でしょうか？

mb_detect_encoding()自体の信頼性の問題なのでどこまで行っても
完璧はありえません。
ある程度確率は高いですがしょせん「たぶんこうじゃね？」という
あてずっぽでしかないということです。
文字コードの判定については昔から、「美乳処理」などいろいろ
工夫されてきていますが、テキストファイルはどこまでいっても
テキストファイルなので決め手に掛けます。
かといってBOMで処理するのはHTTPのヘッダ処理の兼ね合いから
敬遠される場合が多いようです。