UTF-8とASCIIコードにおける互換性について

Question

UTF-8とASCIIはそのASCIIコードの範囲のおいて
互換性を持ちます。（と、書籍や多種な文献にはそういった記述があります）

たとえば【A】という文字をUTF-8で符号化した際は【41】（１６進数で)
さらにASCIIコードでも【41】という値がAという文字に割り当てられています。
確かに、一件互換しているようにみえますが、UTF-8っていうことは最終的には
Unicode上のコードポイントの値・・・つまり0x0041という値に復元？（というのでしょうか）するわけですよね？
でそのUnicodeの文字集合上から復元したコードポイントに対応する文字を参照しAという文字をみつけてくると・・・。
これって【A】という文字をUTF-8で符号化した歳のバイト列はASCIIと一致しているけれど
結局Unicodeコードポイントに直した場合【00】という上位バイトが無駄にくっついてきて【0x0041】となり
互換性がなくなるのではとおもったのですが・・・。

これはどういう意味の互換性なのでしょうか？
識者の方ご教授ください。
お願い致します。

notnot · Accepted Answer

No1,3,6です。

＞とあった時、おそらくどの言語でもそうだと思うのですが、スクリプトファイル内の特定の文字列はそれぞれ個別にエンコーディング情報を持つと思います。（※言語によっては持たいない？）

持たないのが普通です。
文字列個別にエンコード情報を持つのは、メジャーな言語だとRubyくらい？
他の言語では、プログラム中では１つのプログラム中では一種類のエンコードしか扱えません。もしくは、言語は全くエンコードを関知せず、すべてプログラマが管理するか。

最初の疑問に戻って、
「UTF-8とASCIIはそのASCIIコードの範囲において互換性を持ちます。」
というのは、
「ASCIIコードの範囲の文字を、ASCIIでエンコードしても、UTF-8でエンコードしても、全く同じ値になる」という意味であり、それ以上でも以下でも無いです。
別の言い方をすると、ASCIIコードの範囲の文字しか含まれないファイルであれば、そのファイルのエンコードがASCIIだとかUTF-8だとか、さらに(バックすらスラッシュ等)一部の記号を除けばSHIFT_JISだとかeuc-jpだとかいうのも区別できないというか同じです。

salsberry · Answer

元々の疑問である互換性については、このように見てみたら分かりますか？

(A) ASCIIで書かれたテキストファイルを、UTF-8として読み込む場合
テキストファイルの中の'A'(0x41)はUTF-8でも同様に'A'に対応するので、問題は発生しません。
たとえばコンピュータの内部表現としてUTF-16を使っている場合は、ファイルを読み込んだ後に1バイトの0x41→2バイトの0x0041に内部的に変換された上で処理が実行されるでしょう。その際、元のファイルで'A'を表していた文字は内部表現でもやはり'A'を表すものとして処理されます。そういう意味で互換性があります。

(B) UTF-8で書かれたテキストファイルを、ASCIIしか理解しないソフトウェアで読み込む場合
ASCIIに含まれる文字だけがそのテキストファイルに書かれているのであれば、ASCIIしか理解しないソフトウェアで読み込んでも問題は発生せず、互換性があります。
一方、UTF-16で"ABC"と書かれたテキストファイルを同じソフトウェアで読み込んだら、余計な0x00のバイトが入るために"ABC"という文字列だと解釈してもらえず、つまり互換性がありません。
漢字などを含むUTF-8のテキストファイルを同じソフトウェアで読み込んだら当然問題が発生しますが、「ASCIIに含まれないコードを読み込んだらその部分を無視する」という作りになっていれば、最低限ASCIIの範囲で書かれた部分だけは元の内容のとおりに読み込んで処理できます。

Yune-Kichi · Answer

> （※これが気になってますが、符号化されたバイト列を再度文字集合の文字に
> 戻す場合の表現・いいまわしって復号化というような言い方をするのでしょうか
> ？）

「符号化文字集合」とその元になった「文字集合」は一対一で対応します。
なので，厳密に取り扱う場合を除くと，「符号化文字集合」は「文字集合」と同一視しています。

さて，厳密に取り扱った場合ですが，
「文字集合」の各文字に対して『値を与える』行為を『符号化』と呼んでいます。
なので，「符号化文字集合」の各々の値は，文字そのものを指します。
「符号化文字集合」→「文字集合」の対応付けを辿る行為を表現するなら，
『値に対応付いた文字』
とか
『値にある文字』
とかになると思います。

> このhoge(0x0041)っていう変数をpack()やGetString()などを用いてASCIIコードとして
> Aという文字に復元することはできないけれども、

UTF-16は「エンコーディング」です。
UTF-16という「エンコーディング」をUS-ASCIIという「符号化文字集合」を用いて利用するのであれば，
0x0041はUS-ASCIIの4/1の文字，つまりはAを意味します。

> ASCIIの場合、ASCII文字集合上のコードポイントと符号化した際のバイト値は同一なのですね。

同一です。

> 特定の文字列はそれぞれ個別にエンコーディング情報を持つと思います。（※言語によっては持たいない？）

内部表現としてエンコーディング情報を持つ物はあると思います。
あくまで内部表現であって，文字列の必須情報ではありません。
処理上，その表現が必要だから持っている，というものです。

本質的に，文字はエンコーディング情報を持つ物ではありません。
「あ」は「あ」だし，「A」は「A」です。
あくまで(符号化されていない)「文字集合」に属します。
コンピューターで取り扱うためには番号を振らないといけないので，「符号化文字集合」ができ，
その振られた番号をどう取り扱うかを決めないとコンピューターで使えないので「エンコーディング」ができています。

> UTF-8のアスキー範囲内の文字はUS-ASCIIと同じ符号化を行なっているという

UTF-8自体は，既存のシステムで動作することを念頭に作られたところがあります。
システムの大多数は，少なくともコマンドはUS-ASCIIの範囲で受け付けるため，
そのシステムを障害無く動かせる，という作りになっています。
# EUC-JPなども似た発想があります。あれはISO 2022に則った作りではありますが。

notnot · Answer

No1,3です。

No3の補足について。

「文字→文字コード」の変換をunpack、その逆をpackと表現しているのであれば、その通りです。

Yune-Kichi · Answer

えーっと，「符号化文字集合」と「エンコーディング」の関係がわかっていないのでしょう。
# 規格によって言葉が色々異なるのですが……。

まず，「文字集合」が存在します。
Unicodeなどの他に，常用漢字表なども「文字集合」です。
数値が振られていないため，コンピューターで取り扱う上では「文字集合」は現実的には使われませんが。

そして，「文字集合」に数値を振った物が「符号化文字集合」です。
Unicode, JIS X 0208やUS-ASCIIは「符号化文字集合」です。
Unicodeのコードポイントとは，この「符号化文字集合」に振られた数値のことになります。
JIS X 0208では区点値です。

「エンコーディング」は「符号化文字集合」をどのようにコンピューター上で取り扱うか，という取り決めです。
UTF-16, UTF-8，Shift_JISやUS-ASCIIは「エンコーディング」です。
US-ASCIIは「符号化文字集合」であり「エンコーディング」でもあります。
で，「符号化文字集合」にISO/IEC 10646-1 (≒Unicode) で，「エンコーディング」はShift_JISということもよくあります。
# HTML 4.01のShift_JIS文書など。HTML 4.01は文字集合がISO/IEC 10646-1と規定されています。

> UTF-8とASCIIはそのASCIIコードの範囲のおいて互換性を持ちます。
というのは，「エンコーディング」の取り決めの話です。
Unicodeが文字集合である場合，U+0000 - U+007Fの範囲はUS-ASCII/UTF-8ともに0x00 - 0x7Fに符号化されます。

Gotthold · Answer

だからなんで
> というUnicode上の文字集合に復帰させると思います。
こんなことをするの？
UTF-8とASCIIに互換性があるというのは「符号化した結果」の話なのに
符号化する前に話を戻すのはナンセンスです。

notnot · Answer

No1です。

コードポイントを求めた時点ですでにUTF-8では無くなっていますけど。
英字の A を、0x41 というコードで表現すると言う意味でUS-ASCIIもUTF-8も同じです。

Gotthold · Answer

> 結局Unicodeコードポイントに直した場合【00】という上位バイトが無駄にくっついてきて【0x0041】となり
上位に00をつけた時点でUTF-8じゃないよね。
あなたはUTF-8じゃないものとASCIIコードを比較して互換性がないと言っているだけ。

notnot · Answer

Aを0x0041で表現するのはUTF-16であり、UTF-8ではありませんので、関係ありません。
ユニコードの A (U+0041) を 0x41 として表現するのがUTF-8です。
ユニコードの A (U+0041) は ASCIIの A (0x41) と同じ文字であると定義されていて、UTF-8ではそれが同じコードで表現されているというのが互換性です。

＞UTF-8っていうことは最終的にはUnicode上のコードポイントの値・・・つまり0x0041という値に復元？（というのでしょうか）するわけですよね？

このあたりが意味不明の文になってしまっています。「最終的」とは？
もしかして、画面表示のためにフォントファイルの中からAに相当するフォントデータを探してくるということを言ってますか？それは実装依存でしょうね。

UTF-8とASCIIコードにおける互換性について

No1,3,6です。

元々の疑問である互換性については、このように見てみたら分かりますか？

この回答への補足

> （※これが気になってますが、符号化されたバイト列を再度文字集合の文字に

No1,3です。

この回答への補足

えーっと，「符号化文字集合」と「エンコーディング」の関係がわかっていないのでしょう。

この回答への補足

だからなんで

No1です。

この回答への補足

> 結局Unicodeコードポイントに直した場合【00】という上位バイトが無駄にくっついてきて【0x0041】となり

この回答への補足

Aを0x0041で表現するのはUTF-16であり、UTF-8ではありませんので、関係ありません。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング