encoding="UTF-16" ってUTF-16で書かれても。

Question

以前からずっと疑問だったのですが。。。
　XML宣言の中に、エンコーディングを記述するところがありますが、その宣言文字列自体をそのエンコーディングで記述するというのはおかしくないでしょうか。
　たとえば、UTF-16だったら、

encoding="UTF-16"

と書くわけですが、これ自体がUTF-16で書かれているわけですよね？　UTF-16で書かれているとわかっていたら宣言する必要はないし、宣言読まないとわからないんだったら、この宣言自体も読めないはずです。
　今実際に、UTF-16で書かれていて、エンコーディング宣言もしているXML文書をあるソフトで読もうとしているのですが、１バイト目を読んだところで「Unexpected character. position = 0 」と出力されてエラーになります。
　強制的にUTF-16で読ませる昨日もあるので、そうすればエラーは起こりませんが、それじゃエンコーディング宣言の存在自体に意味がないのでは？ これは、最初の時点で読めないこと自体がこのソフトの不具合なのでしょうか？
　これってどういうことなんでしょう。解決できるんでしょうか。

mizuhashi_j · Accepted Answer

参考書の受け売りでスイマセン。O'Reilly から出ている "XML in a nutshell" というリファレンス本に、XML パーサのエンコーディング想定処理についての記述がありました。以下、拙訳ですが、当該部分の引用です。
-- * -- * --
(略) XML パーサは、文書の最初の数バイトからその文字セットの想定を試みるだろう。パーサによる基本的なチェックは以下の処理を含む：

・もし最初の２バイトが #xFEFF の場合、パーサはそのバイト列をユニコードのバイトオーダーマーク(BOM)と認識するであろう。そして、その文章はビッグエンディアンのユニコードの UCS-2 (訳注; UTF-16)で記述されていると想定される。その知識に基づいて、残りの文章を読み進める。

・もし最初の２バイトが #xFFFE の場合、パーサはそのバイト列をユニコードのバイトオーダーマーク(BOM)と認識するであろう。そして、その文章はリトルエンディアンのユニコードの UCS-2 (訳注; UTF-16)で記述されていると想定される。その知識に基づいて、残りの文章を読み進める。

・もし最初の４バイトが #x3C3F786D の場合、つまりこれは ASCII 文字の "<?xml" だが、その場合そのファイルは ASCII 文字の上位セットで記述されていると想定される。特にユニコードの UTF-8 で記述されていると仮定するかもしれない。仮にそれが間違いだったとしても、この情報は、どの文字セットを実際に使っているかの宣言に辿り着く迄は、残りの文章を読み進める上では十分と言えよう。
-- * -- * --

他にも、XML パーサは UTF-8 と UTF-16 には対応していなければならないような記述もありますので、上記のような UTF-16 を前提とした処理も必要なのではないでしょうか。

参考URL：http://www.oreilly.com/catalog/xmlnut3/

UKY · Answer

> そのXMLのエンコーディングが「必ずasciiで記述されている」別のファイルを用意するような仕様にするとか

うーん、それだったら最初から「XML は UTF-8/16 でしか書いてはいけない」って決めちゃったほうが楽ですよね。実際、仕様策定者たちも本音としてはそうしたかったんじゃないでしょうか。
でもさすがに UTF-8/16 だけっていうわけには行かないから、「UTF-8/16 は必ず対応し、他のエンコーディングは各プロセッサが任意に対応する」という仕様に落ち着いたと。

chie65536 · Answer

＞と思ったのですが、考えてみたらエンコーディングを指定して
＞読ませれば読めるので、先頭のバイトオーダーマークについて
＞はきちんと解釈しているようです。

憶測のみで申し訳ありませんが、そうとも限りません。
「エンコーディングを指定された時は、指定のフォーマットでのデコードを試み、デコードされた文字のみ読み込む」と言う処理をする筈です。

ですので「先頭のバイトオーダーマークを無視して読み込んでいる」と言う可能性があります。

たぶん、該当ソフトは「リトルエディアンとビックエディアンの両方でコード変換を試してみて、上手く行った方で、リトルかビックかエディアンを決めている」と言う事をしているのでしょう。

で、ファイルの先頭のバイトオーダーマークは ff fe と fe ff の片方だけを正常と判定し、もう片方をエラーにしちゃってる可能性が高いです。

つまり「バイトオーダーマーク」を「UTF-16ファイル固有の固定のマーク」と勘違いしちゃってる、のではないかと。

mizuhashi_j · Answer

ちょっと補足です。XMLパーサは、ASCIIの上位セットとUTF-16は対応する必要がありそうですが、それ以外の文字セットに対応していけないワケではなく、先ほどの例のように文字セット毎の判定処理が必要になる、というだけかと思ってます。

件の本でも「(例えば)EBCDIC や UCS-4 を理解できるパーサは、同様のヒューリスティックなエンコーディング判定処理が必要になる」という記述があります。

いずれにせよ、annyGrace さんの疑問についてはパーサにて UTF-16 を想定した BOM 周辺処理(実際は BOM がない場合でも UTF-16 かどうか判定可能でないとまずそうですが)が必要ではないかと思います。

UKY · Answer

まあたしかに、おっしゃるとおりですね。
UTF-8 や Shift_JIS のように ASCII と互換性のあるエンコーディングなら XML 宣言を見てから判断するということもできますが、UTF-16 だとそういうわけには行きませんね。

UTF-16 であることを示す記述を UTF-16 でエンコードした状態で読み込ませても意味がないというのはもっともですが、これは UTF-16 に限らずどのエンコーディングを使った場合にも言えることで、それは XML 文書がもともとテキストファイルである以上どうしようもないことです。

ただ、エンコーディングを判別するための手がかりとしては、XML 宣言は決して無駄ではないと思います。とりあえず XML 宣言の部分だけでも読み込めれば後は何とかなるんですから。

ところで、ソフトで読み込めないのはたぶんそのソフトに不具合があるか、ソフトのエンコーディング判別機能があまり賢くないからだと思います。

chie65536 · Answer

宣言自体が何で書かれているにせよ「宣言がある」と言うのが重要です。

例えば「『あいうえお』をUTF-16にエンコードしたバイト列」と「画像データの先頭数バイト」が偶然に一致してしまった場合を考えて下さい。

もし「宣言」が無ければ「UTF-16にエンコードしたバイト列」なのか「画像データの先頭数バイト」なのか、判断する事が出来ません。なぜなら、どちらも「あいうえお」を示す文字列と同じデータ列な訳ですから。

その為、宣言自体が何で書かれているにせよ「宣言されている事が重要」なのです。

それと、最初の１バイト目を読んでエラーになるソフトの件ですが、たぶん、ソフト側の不具合です。

UTF-16のエンコードでは「16ビットデータのバイト並び」がリトルエディアンとビックエディアンの２種類あります（上位バイトと下位バイトのどちらが先に来るか、で２種）

そこで、データがリトルエディアンなのかビックエディアンなのか判断する為、ファイルの先頭１バイトに「バイトオーダーマーク」を入れて、エディアンがどちらか判断出来るようになっています。

あくまで予想ですが、不具合が出ているソフトは「先頭にバイトオーダーマークがあった時の事」を考慮していないのでしょう。

このソフトがエラーを起こすのは「宣言の有無」は無関係で、単純に「２つある形式のうち、１つの形式でしか読めない。もう１つの形式をサポートしてない。つまり、ソフト開発者がUTF-16を良く判ってない」だけなのでしょう。

ソフトの開発元に「UTF-16のリトルエディアンとビックエディアンのうち片方しか読めない不具合がある。両方のUTF-16を読めるように修正してくれ」と不具合報告、修正要望を出してみては如何でしょう？

TT414 · Answer

>これ自体がUTF-16で書かれているわけですよね？

違いますよ
encoding="UTF-16"
この部分はASCIIで書かれています。

encoding="UTF-16" ってUTF-16で書かれても。

参考書の受け売りでスイマセン。

この回答への補足

> そのXMLのエンコーディングが「必ずasciiで記述されている」別のファイルを用意するような仕様にするとか

＞と思ったのですが、考えてみたらエンコーディングを指定して

ちょっと補足です。

まあたしかに、おっしゃるとおりですね。

この回答への補足

宣言自体が何で書かれているにせよ「宣言がある」と言うのが重要です。

この回答への補足

>これ自体がUTF-16で書かれているわけですよね？

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング