htm.ファイルから冒頭の一行だけを読み込むには

Question

Perl 初心者です。
過去ログのNo.285625　にもありましたが、ファイルの内容を一括して配列@xxに読み込んでprint "$xx[0]
" とやっても一行目が表示されません。読み込みたいファイルはhtmファイルで一行目には<BR>で改行が入っているのですが、この一行が読めません。どうしたらよろしいのでしょうか?初歩的な質問で済みませんが、お願いします。

tatsu99 · Accepted Answer

考えられる点についてコメントします。　　　$str=$xx[$i];$aa=index($str,'
'); 　　　if ($aa>0) 　　　 { 　　　$aa=aa+5; 　　　$str=substr($str,$aa,100);#about100 　　　print "$str
"; ---------------------------- １．$aa=index($str,'
')は、成功時０以上の値となります。（先頭の位置は０）従ってif ($aa>=0)の方がベターです。（但し、この原因の本質的なものではありません）２．$aa=aa+5;は、たぶん、エラーでしょう。 $aa=$aa+5;としてください。但し、
XXXのXの位置から、検索する場合は、 $aa = $aa + 4;となります。３．ここからが、問題ですが、 $str=substr($str,$aa,100);#about100 は
以降の文字を無条件に１００バイト取得しています。そして、その中に、Layer3...の文字も含まれています。 substrの使用法に間違いがあるのではなく、htmファイル中にLayer3...の文字があるということになります。これは、HTMLのタグの一種だと思いますので、ブラウザでみた場合は、表示されないと思います。 perl自身はHTMLの構文には、関知しないので、取得したい文字を得る為には、HTMLのタグ文字を回避して、取得するようにperlに指定する必要があります。４．素朴な質問ですが、以下の点について、教えてください。１）通常、ブラウザで表示される先頭は、...の...なので、これを抜きだせばよいのかと思うのですが、いかがでしょうか。２）
は、
でも、HTML上有効だと思いますので、小文字の場合でも、ヒットさせる必要はないのでしょうか。 indexは、大文字、小文字を無視して、検索することは出来ませんので、index($str,'
')でだめな場合、index($str,'
')も行う必要があると思います。（但し、今回は
しかあり得ないということであれば、話は別です）　

tatsu99 · Answer

スクリプトの具体的な内容は、どのようになっていますか。過去ログNo.285625の以下のスクリプトは、１行目を間違いなく表示します。
----------------------------------
open(IN,"A.txt"); 
@file = <IN>; 
close IN; 
print "$file[0]
"; 
----------------------------------
尚、読みたいファイル（"A.txtはカレントディレクトリにあることが前提です）。
特にopen時のhtmファイルの指定は、どのようになっていますか。

tatsu99 · Answer

#1です。perlにとっての１行目とは、ブラウザで見える１行目では無く、ファイル上の改行文字( )を検知した時に、そこまでのデータが１行目となります。従って、
.../
の...を抜き出すには以下のようにしてください。１行目に
.../
が含まれているというのが前提です。 ------------------------------ if ($xx[0] =~ m#
(.*)/
#){ $data = $1; printf ("<%s> ",$data); } -------------------------------- $dataに...の部分が格納されます。 $xx[0]に
で始まり/
で終わる文字列が無い場合は、このif文は成立しません。

tatsu99 · Answer

#2の続きです。ブラウザで見える１行目の内容の取得です。 ------------------------------------ for ($i = 0; $i < 1000; $i++){ if ($xx[$i] =~ m#
(.*)/
#){ $data = $1; printf ("<%s> ",$data); last; } } ------------------------------------- 前提としては、htmファイルのファイル上の何行目かに
で始まり/
で終わる行が、存在するという前提です。必ず、同一行に
と/
があることが前提です。スクリプトの意味は、以下の通りです。１．下記処理を１０００回繰り返す。（１０００は安全の為）２．各行に対して
で始まり/
で終わる文字列を検索する。３．マッチしたとき、$1に
.../
の...の文字が格納されている。(正規表現のperlの仕様です) ４.lastは、繰り返しの打ち切り -------------------------------- $textcontent=は１行単位で読み込みます。 @textcontent=は全行を一気に読み込み配列に格納します。 >あとはindexやsubstrで検索できるのではないでしょうか? もちろん、その方法でもかまいません。今回は、
.../
の...を抜き出す為に、上記の方法をとりました。indexを使う場合は、以下のようになります。 for ($i =0; $i < 1000; $i++){ $st = index($xx[$i],"
",0); if ($st < 0) { next; } $en = index($xx[$i],"/
",$st+4); if ($en < 0) { next; } $data = substr($xx[$i],$st+4,($en-$st-4)); printf ("<%s> ",$data); last; }

tatsu99 · Answer

#3の続きです。
余談ですが、
$max = scalar(@xx);
とすると、配列の要素数が取得できますので、１０００の代わりに$maxを使用してください。

Marionette · Answer

目的が分からないので質問内容がいま一つ飲み込めませんが、自己流の解釈ということで。サイトマップの要約説明にでも使いたいのでしょうか? それではうまくいかないと思いますので考え方を変えたらどうでしょう。ともかくブラウザが表示した結果の１行目ということですよね？ HTMLはプログラム言語と違って記述が少々間違っていてもブラウザが適当に判断してしまうので、正しいルールに則って厳密に書かれている保証はどこにもありません。手書きならミスもあるでしょうし、HTML編集ソフト毎にいろんなクセがあるかもしれません。それに
なんてタグは一部のバージョンを除き規定されていません。 XHTMLにはありますがどちらにしても空要素なので

のあいだに記述するのは誤りです。といことで、何かのタグをキーワードに判定を行うの難しいです。私が、掲示板スクリプトのメール返信機能で使用している方法です。HTMLタグを全部取り去ってます。使っているのはPHPですが、perl用にチョコチョコッと改造しました。テストはしていませんのでご自身で確認、必要な機能の追加を行ってください。 #!/usr/bin/perl $file = "";# ファイルを指定するなり # 自動で取得するなり自由に open(IN, "$file"); @html = ; close(IN); $count = $#html; for ($i = 0; $i <=$count; $i++) { # (1) 改行コードを取り去る chomp($html[$i]); # (2) インデントを抑制 $html[$i] =~ s# +<#<#g; $html[$i] =~ s# +<#<#g; # (3) タイトル取得 ()内は、ピリオド* $html[$i] =~ s#(.*)#$1 #g; $html[$i] =~ s#(.*)#$1 #g; # (4) HTMLタグを取り去る $html[$i] =~ s#<[^>]+(.*?)>#$1#g; # ()内は、ピリオド*? # (5) HTMLエンティティを特殊文字に $html[$i] =~ s# # #g; $html[$i] =~ s#&#&#g; $html[$i] =~ s#<#<#g; $html[$i] =~ s#>#>#g; if ($html[$i] ne "") { print "$html[$i] "; } } # このままではタイトル行が初めに出力されます。不要なら～を正規表現で取り去ってください。 # 見かけ上は、
があったところで改行されていますが、プログラム上は元のHTMLが記述されたファイルの１行をそのまま１行として認識しています。 # 必要なら、別の配列に移しかえる等の工夫をしてください。　改行コードの有無を判定して改行があるまで連結を繰り返せばいいです。 # (1)～(4)の順番は厳守のこと。

Marionette · Answer

#6です。間違いがありましたので訂正します。 #!/usr/bin/perl $file = ""; # ファイルを指定するなり # 自動で取得するなり自由に open(IN, "$file"); @html = ; close(IN); $count = $#html; for ($i = 0; $i <=$count; $i++) { # (1) 改行コードを取り去る chomp($html[$i]); # (2) インデントを抑制 $html[$i] =~ s# +<#<#g; $html[$i] =~ s# +<#<#g; # (3) タイトル取得 ()内は、ピリオド* $html[$i] =~ s#(.*)#$1 #g; $html[$i] =~ s#(.*)#$1 #g; # (4)

を改行に変換 $html[$i] =~ s#
# #g; $html[$i] =~ s#
# #g; # (5) HTMLタグを取り去る $html[$i] =~ s#<[^>]+(.*?)>#$1#g; # (6) HTMLエンティティを特殊文字に $html[$i] =~ s# # #g; $html[$i] =~ s#&#&#g; $html[$i] =~ s#<#<#g; $html[$i] =~ s#>#>#g; if ($html[$i] ne "") { print "$html[$i] "; } } # (1), (2)～(4), (5), (6) の順番厳守

Marionette · Answer

さらに #7に間違いが。 m(__)m

一番最後は、

print "$html[$i]";

です。どっちみちこのままでは使えないので、たいした問題ではありませんが。

htm.ファイルから冒頭の一行だけを読み込むには

スクリプトの具体的な内容は、どのようになっていますか。

#1です。

#2の続きです。

#3の続きです。

考えられる点についてコメントします。

目的が分からないので質問内容がいま一つ飲み込めませんが、自己流の解釈ということで。

#6です。

さらに #7に間違いが。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング