文字コードチェックについて

Question

文字コードのチェックについて質問です。

検索した所、下記の質問で同じような質問がでていたので参考に作ってみたのですが
java.lang.ArrayIndexOutOfBoundsException
になってしまい動作しません。
charに変換するときに2byte使う条件が違っているのだと思うのですがよくわかりませんでした。
http://okwave.jp/qa1754723.html
↑参考にした質問

入力された文字に対象となる文字コードが含まれているかをUnicodeではなくてSJISのコードで調べたいのですがどうすればよいか教えてくれませんか？
うまく動作しなかったのは下記のコードです。
引数で与えられた文字列にSJISの8740～879c、ed40～effc、fa40～fc4b(機種依存文字と外字)
が含まれていたらエラーにするようなメソッドです。

---
private boolean checkChar(String target) {
      byte charArray[] = charArray = target.getBytes("MS932");
      for (int i = 0; i < charArray.length; i++) {
        byte charByte = charArray[i];
        char targetChar;
        if (charByte >= 128) {
          targetChar = (char) charByte;
        } else {
          targetChar = (char) (charByte * 0x100 + charArray[i + 1]);
          i++;
        }
        if (0x8740 <= targetChar && targetChar <= 0x879c) {
          // エラー処理
          return false;
        }
        if (0xed40 <= targetChar && targetChar <= 0xeffc) {
          // エラー処理
          return false;
        }
        if(0xfa40 <= targetChar && targetChar <= 0xec4b) {
          // エラー処理
          return false;
        }
      }
    return true;
}
---

noocyte · Accepted Answer

Java はあまり使ってないので間違っているかもしれませんが…

Java の byte は符号付で文字コード範囲を比較する際に扱いにくいので，

> byte charByte = charArray[i];

とするよりも，

int charByte = charArray[i] & 0xFF;

とする方がいいと思います．

// charByte が SJIS ２バイト文字の第１バイトのときそのときに限り真を返す．
private static boolean isLeadByte(int charByte)
{
　　return ((0x81 <= charByte) && (charByte <= 0x9F)) ||
　　　　　　　　　((0xE0 <= charByte) && (charByte <= 0xFC));
}

// charByte が SJIS ２バイト文字の第２バイトのときそのときに限り真を返す．
private static boolean isTrailByte(int charByte)
{
　　return (0x40 <= charByte) && (charByte <= 0xFC) && (charByte != 0x7F);
}

private boolean checkChar(String target) {
　　byte charArray[] = charArray = target.getBytes("MS932");
　　for(int i = 0; i < charArray.length; i++) {
　　　　int charByte = charArray[i] & 0xFF;
　　　　int charByte2, targetChar;

　　　　if(isLeadByte(charByte)) {
　　　　　　// charByte が２バイト文字の第１バイトの場合
　　　　　　if(++i >= charArray.length) {
　　　　　　　　// 第２バイトが存在しない場合：エラー
　　　　　　　　return false;
　　　　　　}
　　　　　　charByte2 = charArray[i] & 0xFF;
　　　　　　if(!isTrailByte(charByte2)) {
　　　　　　　　// 第２バイトが不正：エラー
　　　　　　　　return false;
　　　　　　}
　　　　　　targetChar = (charByte << 8) | charByte2;

　　　　　　if((0x8740 <= targetChar) && (targetChar <= 0x879E)) {
　　　　　　　　// 13区 (NEC特殊文字の場合)：エラー
　　　　　　　　return false;
　　　　　　}
　　　　　　if((0xED40 <= targetChar) && (targetChar <= 0xEFFC)) {
　　　　　　　　// 89～92区 (NEC選定IBM拡張文字) の場合：エラー
　　　　　　　　return false;
　　　　　　}
　　　　　　if((0xFA40 <= targetChar) && ((targetChar <= 0xEC4B)) {
　　　　　　　　// 115～119区 (IBM拡張文字) の場合：エラー
　　　　　　　　return false;
　　　　　　}
　　　　}
　　}
　　return true;
}

でどうでしょうか？ (コンパイルは通してません．)

あと，

> SJISの8740～879c、ed40～effc、fa40～fc4b(機種依存文字と外字)

そのコード範囲は機種依存文字ばかりで外字は含まれていません．
ユーザ定義外字は95～114区 (0xF040～0xF9FC) です．

Mac ユーザも対象に含めるならば，9～14区 (0x8540～0x889E) も
機種依存文字です．

余計なお世話かもしれませんが，上記の範囲に限らず，シフト JIS の
コード範囲のうち JIS X 0208 で未定義の部分はすべて禁止にした方が
いいんじゃないでしょうか？

・JIS X 0208 で未定義の範囲 (主なものだけ)
9～15区 (0x8540 ～ 0x889E)
85～120区 (0xEB40 ～ 0xFCFC)

Shift_JIS
http://ja.wikipedia.org/wiki/Shift_JIS

Microsoftコードページ932 (Windows版シフトJIS)
http://ja.wikipedia.org/wiki/Microsoft%E3%82%B3% …

MacJapanese (Mac版シフトJIS)
http://ja.wikipedia.org/wiki/MacJapanese

rinkun · Answer

> targetChar = (char) (charByte * 0x100 + charArray[i + 1]);
> の行も直さないとダメなようなのですがどこか参考になるサイトなどはないでしょうか？

SJISコードってビッグエンディアンだっけ? リトルエンディアンなら
< targetChar = (char) (charByte + 0x100 * charArray[i + 1]);
では? 
そうでないならかけ算の代わりにシフト演算子を使うと良いかも。

なお、参考になりそうなサイトは知りませんので悪しからず。

rinkun · Answer

> if (charByte >= 128) { この行が間違い。まず、Javaの整数型は符号付だから < if (charByte < 0) { とすべきだけど、それでも判定が逆だね。ここは < if (charByte >= 0) { と直したら正しくなるか。現状だと、全てのバイトについてelseの側に行って、最後のバイトではその次にもアクセスするのでava.lang.ArrayIndexOutOfBoundsExceptionになる。

文字コードチェックについて

Java はあまり使ってないので間違っているかもしれませんが…

> targetChar = (char) (charByte * 0x100 + charArray[i + 1]);

> if (charByte >= 128) {

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング