パスワード解読について(CGIスクリプト)

Question

「パスワード暗号化について(CGIスクリプト)」の続きとなっています。文字数が８００文字を超えてしまったため、分割させていただきました。
　続いて解読処理です。こっちは更に謎です。

$salt = $logpassword =~ /^\$1\$(.*)\$/ && $1 || substr($logpassword, 0, 2);

　最初は//内の処理です。$1$だけは読めますが、「^」も「(.*)」も最後の$も不明です。「^」はEXORではありませんよね・・・？
　次に&&とやはり||です。この辺は「え？ギャグ？」って感じです（まったく分かってません）。
　最後にパターン結合演算子ですが・・・。「スカラー式をm//、s///、tr///と結びつける」と言われても何のことやら。大体上の表記ではmもsもtrも使ってないんで・・・。マッチmの略形でしょうか？

　ということで長くなってしまいましたが、これらの動作の目的、そして動作原理を教えていただきたく質問させていただきました。
　どうかよろしくお願いします。

Head_Syndicate · Accepted Answer

こちらこそよろしくお願いします。
正規表現に付いては、それこそ一冊の本にもなっているくらいなので、あとで
じっくりラクダ本やその「詳説 正規表現」(http://www.oreilly.co.jp/BOOK/regex/)
をご覧いただくといいと思いますが、とりあえず簡単に補足しておきます。

まず「^」ですが、これは「頭から評価していく」という意味ではありません。
「ｎ文字目から…」の方が正解です。

$a = 'Perl is not a Pearl';
$b = 'What is Perl?';
のとき、
$a = /^Perl/; は先頭がPerlで始まるので真
$b = /^Perl/; は先頭がWhatで始まるので偽
$a = /Perl/; はPerlを含むので真
$b = /Perl/; もPerlを含むので真
となります。

「.*」は0回でも一致します。/Pe.*rl/ はPerlにもPearlにもマッチします。
1回以上必ずなにかないといけない場合は/Pe.+rl/と「+」を使います。
上の例で言うとこの正規表現は$aでは真、$bでは偽になります。

さて、「()」は実際のカッコを指しているのではないことにご注意ください。
'This is (not) Perl' =~ /(.*)/ も真ですし、'This is not Perl' =~ /(.*)/ 
も真です。本来の「()」にマッチさせたければ\を使って /$.*$/とします。

ただの「()」は「カッコの中のマッチした文字列をこっそり$1に突っ込んでお
いてください」という意味です。$1の1は、カッコの登場順の番号を表します。
例えば
$date = '2001/5/11 21:25:30';
$date =~ m/^(\d+)/(\d+)/(\d+) (\d+):(\d+):(\d+)/;
とすると、$1に「2001」が、$2に「5」が、$3に「11」が…$6に「30」が入り
ます。

なお、「\d」は数字を表す記号です。また「/」はそのまま書くと
m//のスラッシュと区別がつかなくなるので「/」としてあります。これを
避けるためm//を「/」ではない任意の文字で囲む方法もあります。
$date =~ m@^(\d+)/(\d+)/(\d+) (\d+):(\d+):(\d+)@;
これだと@が区切りになるので「/」はそのままでよくなります。このときは
「m」は省略できません（なんか余計な説明加えちゃってかえって混乱させ
ちゃったかな…）。

> （@log = <IN>;とかforeach(0 .. $#data){}とか）

foreachのかわりにmap {} @data; を使うことを覚えたりするとさらにクセに
なりますよ。

Head_Syndicate · Answer

おっしゃるとおり//はm//の省略形です。ですから「^」は、正規表現の
「文字列先頭」をあらわす記号です。よってこの部分は
「$logpasswordが '$1$' で始まり0以上の何文字かが続き$が来るような文字
列か？」
といったことを調査しています。
&&や||は、論理演算子ですね。A && Bで
「Aを評価(実行するってことです)して、真なら続けてBを評価してその結果を
返す。Aが偽ならBには一切感知せず偽を返す」
ということになり、A || Bで
「Aを評価して、真ならBには一切感知せずその結果を返す。Aが偽なら引き続
きBを評価してその結果を返す。」
ということになります。

上記の意味は総じて以下のようなことなんじゃないでしょうか。

「$logpasswordがこれこれのような文字列で、しかも途中の(.*)部分が
真（つまり空文字列じゃない）だったときはその(.*)部分を、
そうじゃないときは$logpasswordの先頭から２文字を取り出して、
saltに入れてください」

if文で書きなおすと上記の式は以下のようなことに
なると思います。
if ($logpassword =~ m/^\$1\$(.*)\$/) {
   if (defined($1) && $1 ne '') {
       $salt = $1;
   } else {
       $salt = substr($logpassword, 0, 2);
   }
} else {
   $salt = substr($logpassword, 0, 2); 
}

まあたしかに初めてご覧になった方にはわかりやすいものではないでしょうが
…あんまりPerlをいじめないであげてください。&&や||をこのように使うのは
Cでもshellでもいろんな言語にもありまして、UNIX関係者には馴染みがある用法です。
lispなどではむしろifよりもこちらのほうが標準的です。
馴れると最初のような式の方が上記ifを使ったものより読みやすくなったりし
ます。

もちろん、「おれはifで書いた方がいいぜ！」とお思いになるのでしたら
誰にかまうことなくそうお書きになればよろしいでしょう。
どう書いてもいいのがPerlです。

Head_Syndicate · Answer

そういう解釈でよろしいと思います。

「n文字目」についてですが、/^.{n}\$1\$/ ですね。{}で繰り返す数を
指定します。でもあまり使うことはないですね。固定で先頭から何文字か
わかってる場合はsubstrで切り出したりできますしね。
substr($xxx, n) =~ /^\$1\$/ ともできます。…でも書いてないのは
リファレンスとしていかがなものか。

dはdecimal, 10進数の略です。sprintfのものも同じ語源だと思います。

Perlの正規表現はさらにものすごく多機能です。ゆっくり覚えていくことを
お薦めします。

パスワード解読について(CGIスクリプト)

おっしゃるとおり//はm//の省略形です。

この回答への補足

こちらこそよろしくお願いします。

そういう解釈でよろしいと思います。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング