phpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきま

解決済

質問者：bou1025
質問日時：2010/08/20 23:19
回答数：5件

phpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきません。

あ
い

う
え

お
か

このようなソースから「あいうえお」の部分だけを抜き出したいのです。

以下のようにしているのですが、改行が無い場合は上手く取得できるのですが、
以下のような形で途中に改行が入っている場合、上手く取得できません。

あ


このような場合でも取得できるようにするにはどうすればよいでしょうか。

$lines = file("http://～～");

foreach ($lines as $line) {

preg_match('/(.*?)<\/span>/ms', $line, $match);

preg_match('/(.*?)<\/span>/ms', $line, $match);

}

msをつけておりますが、
この場合は１行１行ループしているために意味がない状態になるのでしょうか。

どのようにすれば取得させることができるのでしょうか。
お手数をおかけしますが何卒よろしくお願い致します。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (5件)

ベストアンサー優先
最新から表示
回答順に表示

No.4ベストアンサー

回答者： okmotokun
回答日時：2010/08/21 09:08

結果の用途がわからないので適切な回答かどうか、ですが次のようなのではどうですか。

$content=file_get_contents("xxx.htnl");

$content=preg_replace("/<span[^>]*>|<\/span>|[\r\n]/","",$content);
print $content;
または、
$content=preg_match_all("/<span[^>]*>[\r\n]*(.+)[\r\n]*<\/span>/",$content,$match);
foreach($match[1] as $str){ print $str; }

- 1
- 件

通報する

この回答へのお礼

ありがとうございます。

全容がないのでわからないですよね；

結局はできなかったのですが、ご教授いただいた部分をヒントにして
色々試行錯誤してみます。

ご多忙な中、ご回答ありがとうございました

通報する

お礼日時：2010/08/22 03:54

No.5

回答者： nekomikekamo
回答日時：2010/08/21 21:20

HTMLから様々な情報を抜き出しているようなので、手頃なHTML Parserを利用する。

PHP Simple HTML DOM Parser等？
http://sourceforge.net/projects/simplehtmldom/

- 0
- 件

通報する

No.3

回答者： kuzumiHK
回答日時：2010/08/21 00:54

こんな感じでいかがでしょうか。

この回答への補足

ご回答ありがとうございますm(__)m

説明不足で大変申し訳ありません。
に限らず、他の要素抜き出しにも活用しているため、
（<img src="(.*?)">など）
ご教授いただきました方法では難しいのが現状ですm(__)m

その都度、その都度で対応できる形でありますと助かります。

申し訳ありません。

補足日時：2010/08/21 03:52

通報する

- 0
- 件

通報する

No.2

回答者： memphis
回答日時：2010/08/21 00:02

preg_matchを行う前に、改行を削除すればいいのでは？

- 0
- 件

通報する

No.1

回答者： yambejp
回答日時：2010/08/21 00:00

file()ではなくfile_get_contents()で処理してみてください

<?php
$fname='http://exampe.com/hoge.htm';
$line =file_get_contents($fname);
$pattern='/(.*?)<\/span>/mis';
preg_match_all($pattern, $line, $match);
print_r($match);

?>