全角ひらがな、漢字をマッチさせたい

Question

Perlでフォームに入力された値をチェックするとき、入力される文字列は半角文字以外を入力されるとエラーになるスクリプトを書きたいと思っています。
（ただし、半角に出来る文字「カタカナ、記号等」は半角に変換するのでエラーでは無いとしたいです）

どうすれば実現出来るでしょうか。
よろしくお願いします。

sssohei · Accepted Answer

パターンマッチを利用することをオススメします。
とりあえず、余計なマッチミスを防ぐためにも、EUCコードに変換してから処理を行います。
参考URLのページに詳しく解説されています。
参考URLのページをみても分からなければ、補足をお願いします。

一応、主要な文字コードのパターンを記しておきます。
$nobashi     = '(?:\xA1[\xBC\xBD\xC1])';       # ー－～
$kigo        = '(?:[\xA1\xA2][\xA1-\xFE])';    # 全角の記号
$suuji       = '(?:\xA3[\xB0-\xB9])';          # ０－９
$alphabet    = '(?:\xA3[\xC1-\xDA\xE1-\xFA])'; # 全角英字
$alpha_big   = '(?:\xA3[\xC1-\xDA])';          # 全角英字（大文字Ａ-Ｚ）
$alpha_small = '(?:\xA3[\xE1-\xFA])';          # 全角英字（小文字ａ-ｚ）
$hiragana    = '(?:\xA4[\xA1-\xF3])';          # ぁ～ん
$katakana    = '(?:\xA5[\xA1-\xF6])';          # ァ～ヶ

参考URL：http://www.din.or.jp/~ohzaki/perl.htm

sssohei · Answer

参考ＵＲＬの「日本語を扱う」の項の「正しくパターンマッチさせる」の部分を読まれたでしょうか？
http://www.din.or.jp/~ohzaki/perl.htm#JP_Match

私もこのページにはよくお世話になります（^^;
ここに書かれたとおり、文字コードを指定するだけではうまく行かないのです^^;

後、前の書き込み時には忘れていたのですが、
私の書いた全角の記号には半角に変換出来ない記号も含まれます。とりあえず、文字コードを調べられるソフトで変換の対象にしたい文字のコードを調べてください^^;
私は プレジャースカイという会社の フリーソフトhttp://www.pleasuresky.co.jp/ を使わせて頂いてます。

＞修飾子 g (処理の対象を全域にする）を使ってください
は単に含まれるかを調べる場合、必要ありません。
abc に b というパターンがマッチします。
perl -e "$str='abc'; print 'Match!' if $str =~ /b/;"
プロンプトから実行してみてください。
「プロンプト」というのは、ちなみに、Win9X系だと、DOSプロンプト、WinNT系だと、コマンドプロンプトと呼ばれる物です。Linuxだったらターミナル（エミュレータ）です。念のため^^;

参考URL：http://www.din.or.jp/~ohzaki/perl.htm#JP_Match, http://www.pleasuresky.co.jp/

haporun · Answer

全角カナと半角カナの並びは違うので、変換しようと思ったらパターンを配列に記述するしかないと思います。
私は逆のこと、つまり半角カナを全角カナに直すとか勉強してました。

$moji = 'ホゲ';

@base = ('ア', 'イ',・・・'ァ'・・・);
@change = ('ア', 'イ',・・・'ァ'・・・); #←ホントは半角

for($n = 0; $n < @base; $n++){
$moji =~ s/$base[$n]/$change[$n]/g;
}

とかやってできると思ったら、大間違いでした!
ある文字の2バイト目と次の文字の1バイト目を1文字としてマッチしてしまうのです。
難しいところです。
ほかの方の参考URLなどもみて、お互いがんばって勉強しましょう。

ちなみに、このOKWEBも指摘するように、半角カナは機種依存文字なので使わないほうがいいです。
半角って言ってもEUCでは2バイトだし・・・。

ctpsys · Answer

修飾子 g (処理の対象を全域にする）を使ってください。
 if($buf !~ /(?:\x8E[\xA6-\xDF])/g){ 
とします。

正規表現には修飾子の他量指定子、位置指定子など、
色々ありますので、一度ネットや本で調べると面白いです。

私も、正規表現では苦労しています。頑張りましょう。

全角ひらがな、漢字をマッチさせたい

パターンマッチを利用することをオススメします。

この回答への補足

参考ＵＲＬの「日本語を扱う」の項の「正しくパターンマッチさせる」の部分を読まれたでしょうか？

この回答への補足

全角カナと半角カナの並びは違うので、変換しようと思ったらパターンを配列に記述するしかないと思います。

修飾子 g (処理の対象を全域にする）を使ってください。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング