formデータのデコード「s///」や「tr///」

Question

掲示板CGIの自筆に挑戦中の初心者です。form から受取ったデータをデコードするところで、教本やサンプルに必ず出てくる↓これですが、 $value =~ tr/+/ /; $value =~ s/%([0-9a-fA-F][0-9a-fA-F])/pack("C",hex($1))/eg; サンプル毎の微妙な違いの意味が消化できず、混乱しています。（上記引例は杜甫々さんのサイトから拝借しました）に書いた「+」も１行目で半角sapceになるようですが、（１）「+」は「+」として残すにはどうするのでしょう？（２）１行目と２行目の順番が逆だと、何か結果が変わりますか？ htmlタグ不可の処理が良くわからなくて、とりあえず「=~ tr/<>/ /;」で消しているのですが、に書かれた「<」や「>」を（３）「<」「>」としてhtmlに書き出すには、どうするのですか？ tr/xx/yy/zz; とか s/xx/yy/zz; の「zz」が良くわかりません。（４）引例の eg は、yyを実行文と解釈 (e)、かつ何度でも置換 (g) ですか？ついでに恐縮ですが、#によるコメント化について、（５）$color="#rrggbb"; とか $target="#ancName"; を書いても大丈夫ですか？

2nd · Accepted Answer

では私は (1) と (2) を。

(1)
上記のスクリプトのままで、「+」は「+」として残ります。
なぜなら、上記 $value =~ tr/+/ /; の個所の $value には
URLエンコードされた文字列が入っていますので、「+」は「%2B」と
あらわされており、「 」(スペース)が「+」とあらわされています。
なので、「+」を「 」に戻してやっているわけです。

(2)
(1) の理由で、順番が逆だと、「+」が全て「 」に変換されてしまいます。

と、こんなところかと。

yaya999 · Answer

私も分かる範囲内で。

$value =~ s/%([0-9a-fA-F][0-9a-fA-F])/pack("C",hex($1))/eg
POSTされたsjisの文字列は、URLエンコードされ、%u3042　という風になりますよね。それをCGIでデーコドする処理です。Pack関数や、hex関数はPerlリファレンス等に載っていますので、それをよく読めば処理の意味が分かると思います。
%u3042%u3044　・・・という風に$valueに入った文字列を、hexで10進数に直し、『pack("C"』でchr型の文字へ変換している訳です。で、『/eg』は、おっしゃるとおり、pack("C",hex($1)を式と見なして、『%○○』といったパターンの文字列全てに対してpack("C",hex($1)の処理を行う、といった意味になるわけです。

また、

>htmlタグ不可の処理が良くわからなくて、とりあえず「=~ tr/<>/ /;」
>で消しているのですが、<input type="text">に書かれた「<」や「>」を
>（３）「<」「>」としてhtmlに書き出すには、どうするのですか？

ですが、「=~ tr/<>/ /;」に関しては、他の方がおっしゃるとおり、これではタグは除去できません。タグを削除したいのであれば、少なくとも

s/<.*?>//g

は必要でしょう。
また、「＜」「＞」を書き出すということですが、

print "<>"

で表示ではだめですか？

yuizuian · Answer

私の解る範囲でよろしければ…

（３）
=~ tr/<>/ /;
これでは<>しか変換されないのは当たり前ですね、
=~ s/</</g;
=~ s/>/>/g;
でタグを無効に出来ます。
=~ s/"/"/g;
もやっておいた方が良いかと。

（４）
そうですね。
他にも大文字小文字を区別しない（i）とか単一行として扱う（s）なんかがあります。

（５）
大丈夫です。
""で囲まれている所はただの文字列として解釈されます。

formデータのデコード「s///」や「tr///」

私も分かる範囲内で。

では私は (1) と (2) を。

私の解る範囲でよろしければ…

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング