電子書籍の厳選無料作品が豊富!

UTF-8の文字コードをUnicode(コードポイント)へ変換させたいのですが、参考URLの情報のように計算式を知りたいです

例えば下の「あ」は、16進では「E38182」、10進では「14909826」ですが、どちらかの値を利用してUnicodeのポイントコード「12354」を計算式を用いて求めたいです。

「あ」
Unicode = 12354
16進 = E38182
10進 = 14909826


参考
http://questionbox.jp.msn.com/qa500194.html

A 回答 (2件)

どこまでを「通常」と言っていいのでしょうか?


いわゆる四則演算で求めるのは
「割り算。小数以下切り捨て」
「割り算の余り」
が必要になります。

0xE3 ÷ 0x10 = 0xE 余り 0x03 → この余りが 図中の4bit yyyy に相当
→ これが15~12位に収まるので 0x03 * 2^12
0x81 ÷ 0x40 = 0x2 余り 0x01 → この余りが 図中の6bit yxxxxx に相当
→ これが11~6位に収まるので 0x02 * 2^6
0x82 ÷ 0x40 = 0x2 余り 0x02 → この余りが 図中の6bit xxxxxx に相当
→ これが5~0位に収まるので 0x01 * 2^0
全部合計したものが、Unicodeポイント


また、値によって場合分けが必要です。
バイト長が一定では無いからです。



参考URLにあるものは、Unicodeを10進で表記したか、16進で表記したかの違いなので、単純な式で書けるだけです。
    • good
    • 0
この回答へのお礼

3バイト文字はkmeeさんの計算式どおり出来ました。

1. 0xE3 ÷ 0x10 = 0xE 余り 0x03 * 2^12 ---> 12288

2. 0x81 ÷ 0x40 = 0x2 余り 0x01 * 2^6 ---> 64

3. 0x82 ÷ 0x40 = 0x2 余り 0x02 ---> 2

12288 + 64 + 2 = 12354

2バイト文字は、2.3.を求めることで出すことができました。
大変ありがとうございました。

お礼日時:2013/07/27 21:37

http://ja.wikipedia.org/wiki/UTF-8
E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。
全部まとめて10進数にしても、結局8ビット毎に分けて計算する必要があるので無意味。

この回答への補足

>E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。

はい。
その考え方で通常の足し算や掛け算の計算式でUnicodeのコードポイントを割り出すことはできますでしょうか?

補足日時:2013/07/27 19:35
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!