UTF8からUnicode(コードポイント)へ変換

解決済

質問者：mrs646
質問日時：2013/07/27 18:53
回答数：2件

UTF-8の文字コードをUnicode（コードポイント）へ変換させたいのですが、参考URLの情報のように計算式を知りたいです
。
例えば下の「あ」は、16進では「E38182」、10進では「14909826」ですが、どちらかの値を利用してUnicodeのポイントコード「12354」を計算式を用いて求めたいです。

「あ」
Unicode = 12354
16進 = E38182
10進 = 14909826

参考
http://questionbox.jp.msn.com/qa500194.html

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： kmee
回答日時：2013/07/27 20:36

どこまでを「通常」と言っていいのでしょうか?

いわゆる四則演算で求めるのは
「割り算。小数以下切り捨て」
「割り算の余り」
が必要になります。

0xE3 ÷ 0x10 = 0xE 余り 0x03 → この余りが図中の4bit yyyy に相当
→ これが15～12位に収まるので 0x03 * 2^12
0x81 ÷ 0x40 = 0x2 余り 0x01 → この余りが図中の6bit yxxxxx に相当
→ これが11～6位に収まるので 0x02 * 2^6
0x82 ÷ 0x40 = 0x2 余り 0x02 → この余りが図中の6bit xxxxxx に相当
→ これが5～0位に収まるので 0x01 * 2^0
全部合計したものが、Unicodeポイント

また、値によって場合分けが必要です。
バイト長が一定では無いからです。

参考URLにあるものは、Unicodeを10進で表記したか、16進で表記したかの違いなので、単純な式で書けるだけです。

- 0
- 件

通報する

この回答へのお礼

3バイト文字はkmeeさんの計算式どおり出来ました。

1. 0xE3 ÷ 0x10 = 0xE 余り 0x03 * 2^12 ---> 12288

2. 0x81 ÷ 0x40 = 0x2 余り 0x01 * 2^6 ---> 64

3. 0x82 ÷ 0x40 = 0x2 余り 0x02 ---> 2

12288 + 64 + 2 = 12354

2バイト文字は、2.3.を求めることで出すことができました。
大変ありがとうございました。

通報する

お礼日時：2013/07/27 21:37