「みんな教えて! 選手権!!」開催のお知らせ

c sharp、vs2010で開発しています。

http://www.shurey.com/js/labo/character2.html

上記を参考に半角カナや特殊文字をチェックするメソッドを作りました。
ただ、(株)あたりはちゃんとチェックできるんですが、≒とか、表にあるのに
うまくチェック出来ないものがあり悩んでいます。
問題箇所をご指摘いただけないでしょうか。

public static bool isSafeChar(string val)
{
Encoding sjisEnc = Encoding.GetEncoding("Shift_JIS");
byte[] bytes;
string chkCode = "";
int num16 = 0;
for (int i = 0; i < val.Length; i++)
{
bytes = sjisEnc.GetBytes(val[i].ToString());
chkCode = "";
foreach (byte item in bytes)
{
chkCode = chkCode + Convert.ToString(item, 16);
}

//10進数の整数に直す
num16 = Convert.ToInt32(chkCode, 16);

//半角カナ(00A0~00FF)を含むか
if (160 <= num16 && num16 <= 255)
{
return false;
}

//特殊文字(8540~889E)を含むか
if (34112 <= num16 && num16 <= 34974)
{
return false;
}

//縦文字(EB40~EFFC)を含むか
if (60224 <= num16 && num16 <= 61436)
{
return false;
}

//外字(F040~F9FC)を含むか
if (60224 <= num16 && num16 <= 61436)
{
return false;
}
}

return true;
}

A 回答 (5件)

No4です。


16進数はC#他多くの言語で「0x」を頭につけて表記します。
https://ja.wikipedia.org/wiki/%E5%8D%81%E5%85%AD …

256を掛けて足すというのは、
int charCode = 0;
foreach (byte item in bytes)
{
charCode *= 256;
charCode += byte;
}
ということです。(多分動くつもりですが未チェック)
    • good
    • 1

それは正しい動作です。


「≒」は、Shift_JISでは機種依存文字とそうでない文字の2種類がありますが、現在のPCは機種依存文字の方を使うことはできません。
機種依存文字の方を使おうとしても、Unicodeでは同じ文字なので、普通の文字の方に直されてしまいます。

問題点としては、すでに指摘があるように、これはShift_JISに含まれない文字をチェックできません。
Encoding.EncoderFallbackでたぶん設定できます。

他に気になる点がいくつかあります。
・半角カナはA0~FFでなくA0~DFです。
・2バイトを数値に変換する部分ですが、これでは下位バイトが0F以下のとき正しい数値になりません。ただしShift_JISコードを扱う限りは問題ありません。
・そもそも文字に直して数字に戻すのは無駄が多いので256を掛けて足せばいいでしょう。
・文字コードを10進数で書いてわかりづらくないですか?
・「外字」の部分の数値が「縦文字」と同じになっています。
・またそもそもこの2つは隣接しているので1つの範囲にしたほうが楽でしょう。

この回答への補足

ありがとうございます。
shift_jisに含まれないものは置換フォールバックをし、NGにしました。

>文字コードを10進数で書いてわかりづらくないですか?

これなのですが、16進数のままチェックできるものでしょうか?
ご教授いただければ幸いです。

補足日時:2014/03/26 15:23
    • good
    • 0
この回答へのお礼

すみません、

>そもそも文字に直して数字に戻すのは無駄が多いので256を掛けて足せばいいでしょう

これについても掘り下げて教えていただけないでしょうか。

お礼日時:2014/03/26 15:52

わざわざShift_JISのバイト配列に直す必要ないのでは?


日本語の文字セットに含まれていない文字があった場合どうなるのかわかります?
    • good
    • 0

あなたが何をどうしたいのかイマイチ分かりませんし、何がどう問題なのか具体的には分かりません。

ただ「≒とか、表にあるのにうまくチェック出来ない」といっているあたりから、おそらくは「機種依存文字」の理解が間違っているもしくはあなたの文字認識が不正確というオチなだけの気がします。

まず「≒」に見える文字でも「8790」と「81E0」にあります。見た目が同じなら何でもいいわけではありません。どちらをチェックしたのでしょうか?

「8790」ならば「特殊文字(8540~889E)を含むか」のチェックで引っかかると思いますが、「81E0」ならばスルーするでしょうし。

どちらなのか自分でも分からないというのであれば、まずは自分が何をチェックしようとしているのかきちんと把握するところから始めましょう。
    • good
    • 0
この回答へのお礼

ありがとうございます。
8790のほうを入力していたみたいです。

お礼日時:2014/03/26 15:51

例えば「≒」を入れたときに


・プログラムがどう動作するのか
・各変数の値はどのように変化していくのか
を書いてみてください.
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


おすすめ情報