UTF8の文字

解決済

質問者：minidx
質問日時：2007/08/15 15:18
回答数：2件

１文字のＵＴＦ８の長さは、１～６桁がありますが、
下記のような、３文字以上の場合の処理はどうしたほうがいいですか。
※sInputは、unsigned short
if ( (*pInput < 0) && *(pInput+1) )
{
sInput = ((byte)(*(pInput++)))<<8; // ２桁
sInput |= (byte)(*(pInput++));
}else{
sInput = (byte)(*(pInput++)); // １桁
}

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： Tacosan
回答日時：2007/08/15 17:35

UTF8 のエンコーディングがわかっていれば問題ない, はずなんだけど.... これ, いきなり 2バイトのときから間違っているんじゃないかな?

各コードポイントのバイトは先頭バイトで決まり,
0??? ???? ⇒ 1バイト (7ビット)
110? ???? ⇒ 2バイト (11ビット)
1110 ???? ⇒ 3バイト (16ビット)
1111 0??? ⇒ 4バイト (21ビット)
1111 10?? ⇒ 5バイト (26ビット)
1111 110? ⇒ 6バイト (31ビット)
(2バイト目以降は全て 10?? ???? の形)
だったはず.
だから, 例えば
if (*(byte *)pInput & 0x80 == 0) {
sInput = *(byte *)pInput;
} else if (*(byte *)pInput & 0xe0 == 0xc0) {
sInput = ((*(byte *)pInput & 0x1f) << 6) + (*(byte *)(pInput + 1) & 0x3f);
} else if (*(byte *)pInput & 0xf0 == 0xe0) {
sInput = ((*(byte *)pInput & 0x0f) << 12) + ((*(byte *)(pInput + 1) & 0x3f) << 6) + (*(byte *)(pInput + 2) & 0x3f);
}
などとやればいいんじゃないかな. あ, インクリメントなんかは適当に処理してね.
ついでだけど, この辺の処理は全部 unsigned にした方が簡単だし, 特別な事情がない限り short は使わないと思う.