文字コード変換（Unicode To KSコード、GBK）方法？

Question

とある開発で、首記の機能が必要になったのですが躓いております。
開発環境は以下の通りです。
　ＯＳ：WindowsXP Pro SP2
　言語：MicroSoft VisualBasic2005 ExpressEdition

テキストボックスにハングル、または中国語の文字を手入力し
内部処理で入力された文字コードよりKSコード、GBKを
取得するようなことをしたいのです。
（Shift化コードではなく、通常のコードです）

実験過程で、
・VBのテキストボックスに入力された文字コードを取得する為にはAscW関数を使用すること。
・取得できる文字コードはUnicodeであること。
以上が解決しております。
ですが、KSコードや、GBKのマップ構造がわからない為
Unicode To KSコード、GBKの変換ができずに頓挫しております。

S-JIS、JISは両方とも規則性のあるマッピングであったので変換処理がロジック化できたのですが、
ハングル、中国語にも同じようなロジックが通用しますでしょうか？

また、KSコード、GBKのマップ構造に関するサイトのURLなど御存知でしたら
御教示頂ければ幸いです。よろしく御願い致します。

sakusaker7 · Accepted Answer

> 全角文字は2Bytesのはずなのですが、CP52936とCP50225で6Bytes、8Bytes取得してしまいました。

> 6Bytes文字コード中には0x3021、8Bytes文字コード中には0x6439があり、
>一見、取得したい値が含まれているようにも見えます・・・。この文字コードは何なのでしょうか？

エンコーディング固有のエスケープシーケンスが入っているようです。
昨日の回答(#1)で紹介したリンクにもありますが、
中国語で使われるHZというエンコーディング(CP52936)
では、他の文字コードとの区別を明確にするために

> この方法は ISO-2022-JP に似ていますが, エスケープシーケンスのかわりに
>  ~{ で GB2312 の開始を, ~} で ASCII の開始(GBの終了)を示します。
> また ~ で行が終わっている場合は, 次の行とつながっていることを示します。
>  ASCII の ~ 自体は ~~ で表します。詳細は RFC1842 を見てください。

ということをしています。

CP50225の方は 1B2429430E64390F →
ESC $ ) C SO 0x64 0x39 SI ですね。
0x64 と 0x39 が本当に欲しい部分で、
その他はエンコーディング指定等のエスケープシーケンスです。

ところで、GB 18030はUnicodeを丸ごと飲み込むような
巨大な文字集合なので、

> 全角文字は2Bytesのはずなのですが

2バイトに収まるとは限りません。
つかこの辺は昨日紹介したリンク先に書いてあることなんですが
読んでもらえませんでした?

RFC 1557 - Korean Character Encoding for Internet Messages (日本語訳)
http://www.cam.hi-ho.ne.jp/mendoxi/rfc/rfc1557j.html

CJK CHARACTER SET STNADARDS CLASSIFICATION. VERSION 0.1
http://tagunov.tripod.com/cjk.html#A1.2.4

http://www.iana.org/assignments/charset-reg/GBK

GBコードについて【メモ】
http://www.antenna.co.jp/ml/back/Chinese/gb_charset_memo.htm

naganaga_001 · Answer

お世話になります。

単純に、これではだめなんでしょうか。

Dim bytes As Byte() = System.Text.Encoding.Default.GetBytes(Me.TextBox1.Text)

' 韓国語
Dim kr1 As String = System.Text.Encoding.GetEncoding(51949).GetString(bytes) ' 韓国語 (EUC-KR, KS X 1001)
Dim kr2 As String = System.Text.Encoding.GetEncoding(50225).GetString(bytes) ' 韓国語 (ISO-2022-KR)
Dim kr3 As String = System.Text.Encoding.GetEncoding(949).GetString(bytes)   ' 韓国語 (Windows, UHC)

' 中国語
Dim ch1 As String = System.Text.Encoding.GetEncoding(51936).GetString(bytes) ' 簡体字中国語 (GB2312)
Dim ch2 As String = System.Text.Encoding.GetEncoding(54936).GetString(bytes) ' 簡体字中国語 (GB18030)
Dim ch3 As String = System.Text.Encoding.GetEncoding(52936).GetString(bytes) ' 簡体字中国語 (HZ)
Dim ch4 As String = System.Text.Encoding.GetEncoding(936).GetString(bytes)   ' 簡体字中国語 (Windows, GBK)

GetEncoding の引数はこちらを参考にしました。
http://www.hitachi-to.co.jp/prod/prod_2/inter/emk/help/TextEncoder/Charset.htm

sakusaker7 · Answer

shift化でないという但し書きがあるので、ひょっとしたら
JIS X 0208でいうところの 区点コードとかいわゆるJISコードでの
値が欲しいということでしょうか?

「GBK」という名前でいうと、質問者さんが言うところの
「shift化」した値を集めたエンコーディングだと思うのですが。

East Asian Character Sets Overview: Chinese
http://www.asahi-net.or.jp/~EZ3K-MSYM/charsets/cjk-c.htm

韓国語のコードはよく知りませんが、事情としては同じだと思います。

East Asian Character Sets Overview: Korean
http://www.asahi-net.or.jp/~EZ3K-MSYM/charsets/cjk-k.htm

文字コード変換（Unicode To KSコード、GBK）方法？

> 全角文字は2Bytesのはずなのですが、CP52936とCP50225で6Bytes、8Bytes取得してしまいました。

お世話になります。

shift化でないという但し書きがあるので、ひょっとしたら

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング