PHP Webページのタイトルを取得したい

Question

検索したものに少し手を加えて、以下の関数を使って、URLを元にウェブページのタイトルを取得しています。

　function getPageTitle( $url ) {
　 $html = file_get_contents($url);
　 $enc_format = "JIS, eucjp-win, sjis-win, UTF-8";
　 $html = mb_convert_encoding($html, "UTF-8", $enc_format);
　 preg_match("/<title>(.*)<\/title>/is", $html, $retArr);
　 return $retArr[1];
　}

しかし、ページによってはタイトルを取得するまでの時間が遅いです。おそらく、HTMLをすべて読み取るまで、終了しないため、遅くなるのだと思います。今回はタイトルを取りたいだけなので、もっと早く処理ができてほしいです。何か方法はございますか？

To_aru_User · Accepted Answer

まずは

$html = file_get_contents($url);

を

$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);

に変えるところからどうぞ。これだけでかなり速くなると思います。これで速度が足りなければ fopen で1行ずつ読み込んでいくことも検討しましょう。なお、提示された関数中の文字コードの羅列順序が不適切です（私もググって出てきたってことで以前はこれ使ってましたが、誤りです）。以下に正しい順番に直したサンプルを掲載しておきます。

function getPageTitle($url) {
　　static $regex = '@<title>([^<]++)</title>@i';
　　static $order = 'ASCII,JIS,UTF-8,CP51932,SJIS-win';
　　static $ch;
　　if (!$ch) {
　　　　$ch = curl_init();
　　　　curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
　　}
　　curl_setopt($ch, CURLOPT_URL, $url);
　　$html = mb_convert_encoding(curl_exec($ch), 'UTF-8', $order);
　　return preg_match($regex, $html, $m) ? $m[1] : '';
}

また、そもそも遅い原因が「この関数の実行を繰り返している」ということであれば、今はオーダー表現で表せば O(n) 時間かかっていることになりますが、回線が許す限り O(1) の実行時間にする方法があります。これに該当する場合はその点の補足をお願いします。

yambejp · Answer

＞HTMLをすべて読み取るまで、終了しないため、遅くなるのだと思います。

それはhttpの仕組み上そういうものでは？
複数ページクロールするのならwgetあたりで非同期にバックグラウンド処理をさせるとか
タイトルを持ってくる部分をタイトルを抜くだけのPHPをajaxで走らせれば
速いところから順次うまっていくので、感覚的に速いと思えるようになるかもしれません。

また更新時間などを保存しておき、２回目以降の検索時にはヘッダ情報の日付けを
見るなりして、変更がなけば前回のデータを利用するなど
それなりの処理をすればある程度実用レベルのスピードになるのでは？

PHP Webページのタイトルを取得したい

まずは

この回答への補足

＞HTMLをすべて読み取るまで、終了しないため、遅くなるのだと思います。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング