お世話になります。
早速ですがご質問させて頂きます。
対象サイトのhtmlを取得し解析・一部情報を抽出する機能を作っています。
以下の方法で取得を行ったのですが、抽出したい情報が入っていなく(隠蔽されている??)困っています。
firebugで対象サイトのhtmlを確認すると抽出したい情報はきちんと表示されていますが、
ブラウザでソースを表示すると隠蔽?されています。
◆表示比較
・firebug
<p class="●●">(抽出したい情報)</p>
・ブラウザでソース表示する
<td id="●●">-</td>
▼プログラム
$html = file_get_contents ("http://対象サイト");
$domDocument = new DOMDocument ();
$domDocument->loadHTML($html);
$xmlString = $domDocument->saveXML ();
$xmlObject = simplexml_load_string($xmlString);
そもそも抽出したい情報の箇所は動的に生成されているものでfile_get~で読みにいっているものは動的に出力される前のものを読み込んでいるのが原因でこのような結果になっているのでしょうか?
上記の方法以外でもうまいやり方があればぜひご教授頂きたいです!
宜しくお願い致します!
環境:
MacOSX 10.6.8
PHP 5.1.2
Firebug 1.11.4
Firefox 22.0
No.1ベストアンサー
- 回答日時:
>そもそも抽出したい情報の箇所は動的に生成されているものでfile_get~で読みにいっているものは動的に出力される前のものを読み込んでいるのが原因でこのような結果になっているのでしょうか?
の部分が、Javascriptなどによって後から動的に生成されているということであれば、
>そもそも抽出したい情報の箇所は動的に生成されているものでfile_get~で読みにいっているものは動的に出力される前のものを読み込んでいるのが原因でこのような結果になっているのでしょうか?
質問者様のこちらの認識で間違いないかと思います。
Javascriptなどのレンダリングが完了した後のHTMLを取得するということになると、
PHPを用いてというのはおそらく難しく、
VBなどの言語を使って、ブラウザの動作(Javascriptの実行完了までの動作)を実行した後、
ソースコードを取得するようなアプリケーションを作成する必要があるのかなと思います。
(VB等にはあまり詳しくなく具体例が出せないのが心苦しいのですが・・・)
以上です。ご参考になれば幸いです!
ご回答有り難うございます!
なるほど。。
レンダリング後のHTMLを読み込めればいいんですね。
少し糸口が掴めたような気がします!
有り難うございます!
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- HTML・CSS 別サイトのHTML内にある情報を自動取得して、自分のサイトに組込む方法を教えてください。 例えば、Y 1 2023/06/15 08:09
- Visual Basic(VBA) Selenium.ChromeDriverの使い方について 7 2022/09/22 06:43
- 発達障害・ダウン症・自閉症 私は幼い頃から周りの子と変わったところがあり社会人になってからも仕事が長続きせず上手くいかないことだ 3 2022/08/26 13:24
- Excel(エクセル) PHPプログラムをエクセルに張り付けると検索ボックスがでてくる! 3 2022/05/08 07:10
- JavaScript Javascriptを使ってQRコード読み取り、取得した情報をPOSTしたいと思っています。 1 2023/04/28 15:18
- JavaScript WordPressのコンタクトフォーム7にて送信者の位置情報を送らせたい 2 2022/09/14 23:28
- Excel(エクセル) エクセルで対象日に該当するデータがある場合に別表へ全対象者を表示させたい。 3 2023/07/12 09:48
- C言語・C++・C# C言語初心者 構造体 課題について 1 2023/03/10 19:30
- JavaScript jQueryで同じクラス名のものを別物として扱いたい 1 2022/06/17 14:14
- Excel(エクセル) Excel VBAどこが間違ってますか? 4 2023/07/17 10:04
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
リンク先を隠す方法はないでし...
-
PHPやjavascriptを無効にする方法
-
jpgraphで表示されない
-
こちらはただの直列処理ですか?
-
onedrive にexcelファイルをア...
-
フォントの色を変えるには?
-
VBでメールを送る時のSMT...
-
ワードプレスサイト PHP8.0.25...
-
FTPコマンドでディレクトリごと...
-
アップロード画像数でCSSを分け...
-
二重投稿防止方法
-
PHPのif文でその処理を途中で抜...
-
入力フォームの空白や改行を制...
-
php5のrename()は日本語をリネ...
-
sqlで日付が一番古いデータの月...
-
HYのAM11:00のラップの部分の歌...
-
i18n_convert と mb_convert_e...
-
php 完了画面の送信メールのコ...
-
htmlのエラーについて(デバッグ)
-
PHPExcel処理速度が遅い
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
リンク先を隠す方法はないでし...
-
PHPで新しいウインドウで開く命...
-
csvデータをテーブル表示、指定...
-
PHPでTELNETを実装できる?
-
PHPでつくる更新履歴 作り方と...
-
静的HTMLにRDFを表示させる方法...
-
javascriptで切り替えて、php(...
-
jpgraphで表示されない
-
textareaのvalueについて
-
WordPressのカテゴリページにht...
-
phpプログラムについて
-
onedrive にexcelファイルをア...
-
フォントの色を変えるには?
-
index.phpに入るには、どうすれ...
-
PHPのif文でその処理を途中で抜...
-
FTPコマンドでディレクトリごと...
-
PHP8を使うと、大量のWarningが...
-
別ファイルの変数を呼び出した...
-
index.phpって何ですか? 具体...
-
awsにApacheとPHPを入れて、何...
おすすめ情報