UTF-8で書かれたJSPの日本語文字コード変換の正しい方法がわかりません

Question

nagilumと申します。「１０日でおぼえるＪＳＰ/サーブレット入門教室」という、2002年に発売されたちょっと旧い本で勉強をしています。下記はその中のＪＳＰのコードで、クライアント(ウェブブラウザ)から受け取った文字列をハッシュのキーとして検索して、値の内容を表示するものです。ウェブブラウザから正しい（ハッシュに存在するキー）文字列を入力しても、ハッシュのキーにヒットしません。日本語の文字コードの問題のようですが、下記のコードをどのように修正すればよいのかわかりません。すみません、助けてください。クライアント(ウェブブラウザ)は Windows (Shift_JIS) です。サーバ(Apache+Tomcat)は Fedora Core 4 (UTF-8) です。よろしくお願いします。 1 <%@ page contentType="text/html;charset=UTF-8" import="java.util.*,java.io.*" %> 2 <%! 3 public String strEncode( String strVal ) throws UnsupportedEncodingException { 4 if( strVal == null ){ 5 return null; 6 } 7 else { 8 return new String( strVal.getBytes( "ISO-8859-1" ), "JISAutoDetect" ); 9 } 10 } 11 %> 12 13 14 アドレス帳検索（検索結果） 15 16 17

アドレス帳検索

18 <% 19 HashMap hm = new HashMap(); 20 hm.put( "輪笠貴子", "女, 0xx-xxx9-1111,横浜市まるばつ町5-18-199" ); 21 hm.put( "佐々木健司", "男,04x-231x-xxxx,川崎市まるまる町1-3213" ); 22 hm.put( "鳥内都", "女,09x-21xx-xx97,横浜市なになに区5-16" ); 23 hm.put( "金崎瑞穂", "女,02x-654x-324x,相模原市なんとか区1-9-21" ); 24 String strName = strEncode( request.getParameter( "name" ) ); 25 if( hm.containsKey( strName ) ){ 26 String strResult = (String)hm.get( strName ); 27 StringTokenizer tkn = new StringTokenizer( strResult, "," ); 28 %> 29

31 <%= strName %> 32

34

<%= tkn.nextToken() %>
<%= tkn.nextToken() %>
<%= tkn.nextToken() %>

39

41 <% 42 } 43 else { 44 %> 45

指定された名前は見つかりませんでした

46 <% 47 } 48 %> 49 50 ↑きちんと整形したコードをペーストしたのですが、ブランクが全部削られてしまってとても読みにくくなってます。ごめんなさい。

ARIA9#2 · Accepted Answer

1．このソースをUTF-8で保存していること。
※例えばWindowsのメモ帳だとShift_JIS(Windows-31J)で保存されてしまいます。
2．Tomcatのconfフォルダ内にあるweb.xmlでJSPのjavaEncodingをUTF-8で指定していること。
※確かTomcatはデフォルトでUTF-8だった気がしますが、念のため
3．8行目の
＞return new String( strVal.getBytes( "ISO-8859-1" ), "JISAutoDetect" );
ですが
JISAutoDetectの場合UTF-8は自動認識されなかったと思います。
基本的に自動にまかせるのではなくクライアントから送出される文字コードがわかっている場合は明示すべきです。
今回は"JISAutoDetect"を"UTF-8"に変えてみてください。

以上の条件を満たせば正しく動くかと思いますのでご確認頂ければと思います。

ARIA9#2 · Answer

nagilum様

No.1の回答をしたARIA9です。

ご質問の件回答致します。

＞クライアント(Windows+IE)から送られてくる Shift_JIS(Windows31J)を自動認識
するための記述だと思っていました。

とありますが、クライアントから送られてくる文字コードは送り元ページのエンコーディング依存になります。
例えばグーグルをIEで開いて、IEの表示→エンコードを見るとUTF-8になっていると思います。
この場合にリクエストを発行すると送出されるデータはShift_JISではなくUTF-8になります。
掲載されていたソースで
＞contentType="text/html;charset=UTF-8"
とありましたので恐らくリクエスト送出元のページがUTF-8であると見込みをたてて回答させて頂いていました。

＞ISO-8859-1 でバイト列化したものは日本語かもしれないので
＞自動認識せよ
＞という意味だと思っていたのです。

こちらはその通りですが、JISAutoDetectはあくまで「きっとこれが正しいよ！」という
認識をするものですので必ず正しいコードを返す保障はありません。
システムで扱う文字コードに一意性を持たせて、明示的に文字コードを指定する方が良いでしょう。
参考URLでJDK1.6のJISAutoDetectについて掲載されていますのでご覧になってください。
ここを見るとUTF-8はJISAutoDetectで認識できないことがわかります。

＞　　ISO-8859-1 でバイト列化したものを UTF-8 に変換せよ
＞ってことでしょうか？

その通りです。

ということで、今回はクライアントから送出されてくるリクエストデータが
UTF-8であったが、Windows-31Jと思っていたことが根本的な原因だったと思われます。

参考URL：http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/intl/encoding.doc.html

UTF-8で書かれたJSPの日本語文字コード変換の正しい方法がわかりません

1．このソースをUTF-8で保存していること。

nagilum様

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング