性格悪い人が優勝

UTF8コードで1バイトの文字が2バイトで表現されているのですが・・・・?

とタイトルの通りデータに
 
 UTF-8のデータを扱っていて
 16進表記で『0xC341』と
 データが入ってきました。

0xC3…11000011
 0x41…01000001

UTF-8の仕様で2バイト目の文字は先頭ビットが
10 から始まる仕様となっていると思いますが
 2バイト目の先頭ビットが 0 の場合はUTF-8コードが
 壊れていると判定してもいいんですか?
 
 それとも、2バイトの先頭ビットが0の場合
 次のバイトを1バイト文字とし変換してあげて
 0x41 → A として変換するなどといった
 特殊な仕様が隠れていたりするのでしょうか?

 
 今のところ壊れていると判断しているのですが、
 UTF-8ではないコードだったりする可能性もあるかな?
 っと思い質問いたしました。

 少し不安だったので、しっていましたら、教えてください。
                         以上
 

検索ワード
UTF-8
2バイト目
1バイト文字

A 回答 (1件)

なんかいろいろあるらしい


http://homepage1.nifty.com/nomenclator/unicode/u …
    • good
    • 0
この回答へのお礼

回答ありがとうございました。
返事が遅れてしまって申し訳ありません
質問内容なのですが、UTF8コード以外にも違うコードが入っていたみたいでうまくいってませんでした。

また、参考URL読ませてもらいました大変参考になりました。

お礼日時:2009/08/21 10:38

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!