カタカナの「ソ」以降の文字が文字化けします

Question

propertiesファイルから文字列を読み込む処理を行っているのですが、文字列にカタカナの「ソ」がはいると、「ソ」自体とそれ以降の１文字が文字化けしてしまいます。
これには何か対処方法があるのでしょうか？

こんな感じの処理を行っています。
【propertiesファイルの内容】
path=C:\MyWork\ソース\download

【読み込み処理】
FileInputStream fis = new FileInputStream(propfile);
Properties prop = new Properties();
prop.load(fis);

String sjs_path = getString(prop.getProperty("path");
String uni_path = new String(sjs_path.getBytes("iso-8859-1"), "Shift_JIS");

アドバイスよろしくお願いいたします。

chie65536 · Accepted Answer

「ソ」はシフトJISコードで「835c」ですが、第２バイトの「5c」はエスケープ文字の「\」と同じコードです。

従って「ソ」の次の文字「ー」の第１バイトをエスケープします。つまり「ソ」の第２バイトの「\」が欠落します。

ソース
↓
83 5c 81 5b 83 58
↓
83 \ 81 [ 83 X　←「\ 81」が「81」にエスケープされる
↓
83 81 [ 83 X
↓
メ[ス

これは「ソ」以外にも「Ы」「(9)」「噂」「浬」などの、第２バイトが「\」になる文字で発生します。

読み込むデータをEUCで記述しておくか、中間ファイルにEUCで書き出してから読み込むか、読み込むデータを「C:\MyWork\ソ\ース\download」と書いておくなど、シフトJISコードの第２バイトが「\」になっても構わない書き方をする工夫が必要です。

ngsvx · Answer

#4です。

なるほど、プロパティーファイルを、シフトＪＩＳで書いたんですね。

プロパティーファイルは、Unicode escapesが使用できるようになっていて、
￥マークを特別扱いします。

そのため、￥マークのある文字は正確なバイト配列になりません。

例えば、ファイルに「ソラ」とあったとします。
（シフトＪＩＳで　83h 5ch 83h 89h）

これを読んだときに、￥マーク(5ch)があるため、文字列は

83h 83h 89h

になってしまいます。

つまり、質問者さんのコードの

String sjs_path = getString(prop.getProperty("path");

の部分のsjs_pathは￥マークを除去されたものになっています。

従って、正しい変換はできません。


解決策は、

１．Properties#storeで書き込む。
２．手書きするなら、\uXXXXの形式で（Unicodeで記述する）
３．native2ascii ツールを使用する。

のどれかだと思います。

参考URL：http://java.sun.com/j2se/1.4/ja/docs/ja/api/java/util/Properties.html

nuki · Answer

理由は、ANo.5でお答えになった方の通りです。

対処方法としては、

1.propertiesファイルを予め変換しておく
j2seのsdkに含まれるnative2ascii.exeで予め変換して
おくと、正常に読み込むことが出来ます。
sdkのインストールフォルダのbinフォルダ下にあります。
こうすればエンコーディングの変換は事前に済ませる
ことができます。

2.Jakarta CommonsのExtendedPropertiesを使う
java.util.Propertiesを機能拡張した
org.apache.commons.collections.ExtendedProperties
を使うと、loadの引数にエンコーディング文字列が
使えますので、エンコーディングの変換ソースの
作成がそもそも不要になります。

Jakarta Commonsはオープンソースです。
参考URLに一部の日本語訳サイトを掲示しました。
残念ながら、ExtendedPropertiesは未翻訳の様ですが。

参考URL：http://www.jajakarta.org/

ranx · Answer

java.util.Properties#load() は、ファイルがISO8859-1エンコーディングで書かれていることを
前提としていますから、多バイト文字を含むファイルを読む時には使えません。
Propertiesを拡張したクラスを作ってload()をオーバーライドし、
java.io.InputStreamReader 等でエンコーディングを指定して読み込めばよいと思います。

ひょっとすると、もっとスマートなやり方もあるかもしれませんが。

ngsvx · Answer

>String uni_path = new String(sjs_path.getBytes("iso-8859-1"), "Shift_JIS");

おかしくありませんか？

これだと、

「sjs_pathの内容をiso-8859-1のバイト配列にし、
それを（iso-8859-1のバイト配列）をシフトＪＩＳとみなして復号化する」

ことになります。

chie65536 · Answer

＃２です。

＞これは「ソ」以外にも「Ы」「(9)」「噂」「浬」などの
「(9)」はローマ数字「IX」です。

教えてgooが勝手に「IX」を「(9)」に書き替えてくれやがりました(怒)

ysaito0603 · Answer

文字「ソ」は、SJISで0x835Cとなり、下位１バイトが5Cすなわち「￥（半角文字）」となります。
Javaはあまり詳しくないので、どうしたらいいかまでアドバイスはできませんが、このへんではないでしょうか？

カタカナの「ソ」以降の文字が文字化けします

「ソ」はシフトJISコードで「835c」ですが、第２バイトの「5c」はエスケープ文字の「\」と同じコードです。

#4です。

理由は、ANo.5でお答えになった方の通りです。

java.util.Properties#load() は、ファイルがISO8859-1エンコーディングで書かれていることを

>String uni_path = new String(sjs_path.getBytes("iso-8859-1"), "Shift_JIS");

この回答への補足

＃２です。

文字「ソ」は、SJISで0x835Cとなり、下位１バイトが5Cすなわち「￥（半角文字）」となります。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング