UTF-8とUnicodeの互換性

解決済

質問者：mtsed
質問日時：2006/09/17 16:46
回答数：3件

Windowsで使用されているUnicodeはUTF-16と理解しているのですが、
UTF-16→UTF-8は変換できると思いますが、
UTF-8→UTF-16の変換は一意に変換されるものなのでしょうか？

UTF-16は２バイトなので65,535文字が上限になり、
一方UTF-8は１～６バイトで、実質データ部は最大４バイトなので
表現できる文字数が違うので「UTF-8→UTF-16」の完全変換は無理なのでは？と思っています。

ご存知の方すみませんがどうぞご教授ください。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： tabide
回答日時：2006/09/17 18:30

まず「1文字が2バイト（16ビット）幅固定」というのは、UTF-16ではなくUCS-2のことです。

UCS-2はコードエリア0000～FFFFの65536文字分のみを表現できる、ある意味Unicodeのサブセットです。
UTF-16とは、サロゲートペアという仕組みを導入することで、UCS-2との互換を保ったまま、000000～10FFFF（D800～DFFFはサロゲートペア用のため除外）の1112064文字分を表現できるようにしたもので、正確には16/32ビット幅のマルチバイト文字コードです。
今日、普通にUnicodeといえばUTF-16形式を指しますが、初期版ではUCS-2でした。

UTF-8は、確かに理論上は00000000～7FFFFFFFまで表現可能ですが、Unicodeで実際にコードエリアとして定義されているのは10FFFFまで（しかもその中身はスカスカで、エリアがこれ以上拡張される可能性はまずない）なので、UTF-8とUTF-16の一意相互変換は全く問題ないとお考え頂いて結構です。

- 1
- 件

通報する

この回答へのお礼

ありがとうございます。
よくわかりました。
UCS-2とUTF-16の違いを理解していませんでした。

通報する

お礼日時：2006/09/18 23:00

No.3

回答者： kabaokaba
回答日時：2006/09/18 14:17

そもそも「文字セット」と「符号化」を

ごっちゃにしてるのが混乱の原因でしょう．

UNICODEが規定している「文字」を
コンピュータ上ではどのように表現させるかが
「符号化」であり
符号化には UTF-8 とか UTF-16 があるということです．
したがって，
元は同じものを違った表現で表してるだけです．

表現につかえるバイト数がいくら多くたって
それを全部使うわけではありません．
実際は「すかすか」なのはNo.2さんの
おっしゃるとおりです．
すかすかにすることで「誤解のない表現」を
実現できます．

そもそもSJIS/EUC/JISとかだって
大雑把には二バイトですので 65536 文字ですが，
65536文字もありません．
「すかすかで誤解のない表現」というのは
符号化ではよくあります。。

＃相互互換で問題になるのは
＃JIS X 0208とかとUNICODEの方ですな

- 0
- 件

通報する

この回答へのお礼

ありがとうございます。
どうやら文字セットと符号化をごっちゃにしていてました。
すかすかということでありがとうございました。

通報する

お礼日時：2006/09/18 23:01

No.1

回答者： PROMETHEUS
回答日時：2006/09/17 17:32

　普通に考えれば UTF-16は 65535文字しか使えないのですが、それに気付いた偉い人はサロゲートペア

という仕組みを作り出して回避しました。

　これは 0xd800～0xdbffを上位、0xdc00～0xdfffを下位とした２つの 16bitをサロゲートとし、この組み合わせで 1024x1024文字分を作り出しました。

　なので現状は 65536 - 2048 + 1024 x 1024 = 1112064文字が UTF-16で理論上表現可能な文字数となります。

参考URL：http://www.wdic.org/w/WDIC/%E3%82%B5%E3%83%AD%E3 …