Javaで、画面入力したデータをファイルに書き出すプログラムを作成して

Question

Javaで、画面入力したデータをファイルに書き出すプログラムを作成しています。
書き出したファイルを他のシステムへ渡す為、漢字コードの取り扱いについて調査しています。

MS932では、ローマ数字等はNEC拡張文字とIBM拡張文字の領域に別々にコード番号があります。
MS-IMEでWindows上でローマ数字を打つとNEC拡張文字で入力され、Javaのプログラムが入力を受け取ると内部で自動的にUnicodeへ変換されて、NEC拡張文字とIBM拡張文字区別無く同一のコードになります。

質問１：その後、Javaプログラムでファイルに"Windows-31J"指定で出力する場合、NEC拡張文字とIBM拡張文字のどちらで出力されるのでしょうか。

質問２：ファイルへ出力する時に、NEC拡張文字やIBM拡張文字を指定することはできるのでしょうか。

よろしくお願いいたします。

余談ですが、インターネット上には「NEC拡張文字」という言葉の他に、「NEC選定文字」や「NEC特殊文字」などの書き方があって同じものを指すのか別の物を指すのか、初心者としてはわかりにくく迷わされるところです。

Lieserl · Accepted Answer

質問１：実際にやってみた方が早いですよ。
少なくともUnicode(UTF-16)では無い。

って、やってみたらローマ数字の１は0x8754になりました。

質問２：できません。
指定できるのはcharset名です。全体です。
ピンポイントにNEC拡張漢字部分のみといった指定はできません。
ローマ数字に限って言えば、x-IBM942, x-IBM942C, x-IBM943あたりを指定すれば
0xFA4A～にマッピングされますが、ローマ数字以外の部分が、
期待した変換がなされるかどうなるかは調べてみないとわかりません。

１文字ずつチェックして、特別なマッピングが必要な文字であれば自前でバイト変換し、
そうではない部分は、getBytes("Windows-31J")するなりしてバイト変換し、
テキストではなくバイナリーで出力する方が良いと思います。

あるいは、getBytes("Windows-31J")したバイト配列をサーチして、
特別なマッピングが必要な部分だけ変換した後、
バイナリーで出力するか。

lv4u · Answer

Javaはほとんど使っていないので、違っているかもしれません。

>>質問１：どちらでもなく、そのままUnicode(UTF-16)で出力される。

>>質問２：できない。もちろんコード変換処理を自分で記述すれば可能かも？でも、本質的に重複コードをもつUTF-16に変換されてしまっているので、識別できない。

以下は、「まつもとゆきひろコードの世界」のP.196,197からの引用です。

「Javaの制定時にUnicodeが16ビットにこだわっていたこと、Javaが可変長のUTF-8ではなくUTF-16を選んでしまったことが、このような「悲劇」を生んでしまいました。タイミングのいたずらと言えばそれまでですが大変残念です。」
（中略）
「PerlもＵＣＳ方式を採用しており、内部では文字符号化方式としてUTF-8を使っています。元から可変長のUTF-8を採用しているPerlでは、JavaにおけるUTF-16が引き起こしたような問題はありません。」

どうもJavaは漢字処理をきちんと行うには、十分な考慮が必要みたいです。Javaってやっかいな言語ですね。

Javaで、画面入力したデータをファイルに書き出すプログラムを作成して

質問１：実際にやってみた方が早いですよ。

この回答への補足

Javaはほとんど使っていないので、違っているかもしれません。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング