![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?e8efa67)
個人でスクレイピングをするために、HTMLソースの内容を見ることがあるのですが、ソース内容と表示されているページ内容に明らかに違いがあるときがあります。
例えば、http://lanove.kodansha.co.jp/ にアクセスすると、アクセス直後、ページ表示するのに1秒ほどかかっているようなのです。
表示されたページを「右クリック⇒ページのソースを表示」操作で、ソース確認したところ、「表示されているページ内容と、タグ内容」が全然異なっているのです。(chromeやIEで確認済み)
多分、ページの内容(ソースファイル?)を外部ファイルから読み込んでると思うのですが、「表示されたページ内容のソース」と「読み込み先のURL」を知る方法はないでしょうか?
ご教示お願いいたします。
No.2ベストアンサー
- 回答日時:
No.1
- 回答日時:
なぜIEやChromeなのでしょう。
通常は開発者向けツール( https://addons.mozilla.jp/firefox/extensions/dev … )の豊富なfirefox使って調べる(^^)。解析ツールも揃っているし、そもそも最もウェブ標準に近い。>多分、ページの内容(ソースファイル?)を外部ファイルから読み込んでると思うのですが、
テキストだけのページを除いて、その量の多寡は問わず必ず他のファイルを読み込んでいますよ。
[例]
hoge.com/page/index.html 内に<img src="../image/logo.gif">とあれば、ブラウザはサーバー(hoge.com)に/image/logo.gifを要求する。
画像が多いですから、それらをすべてサーバーに要求して揃うまで時間がかかる。あれだけ画像があれば時間はかかるでしょう。
iframeなどで他のページを読み込んでいないですが、たとえそうだったとしても、関係ないです。
>「表示されているページ内容と、タグ内容」が全然異なっているのです。
★いいえ、まったくソースのままです。★★
firefoxで、[表示]→[スタイルシート]→[スタイルシートを使用しない]を選択すると良く判ります。(IEでも可能です。Chromeは不可能)
>「表示されたページ内容のソース」と「読み込み先のURL」を知る方法はないでしょうか?
firebugで調べるのが簡単でしょう。firefoxで「ページの情報」でも良い。
例えば、
ナビゲーションリストを様々にデザインしてみよう。( http://www.ichiya.com/WebService/Howto/sample/HT … )
にて、ソース表示をしたのち、[表示]→[スタイルシート]→で色々なスタイルを選択したり、印刷プレビューで印刷を確認するとわかるように、HTMLの文書構造が変わっているわけではありません。--HTMLには文書構造しか書かない。プレゼンテーションはスタイルシートで行なう。
⇒構造とプレゼンテーションの分離( http://www.asahi-net.or.jp/%7Esd5a-ucd/rec-html4 … )
ページを描画するために、画像やjavascript、スタイルシートはテキストだけのページを除いて必ず読み込まれます。HTTP通信+HTMLなどの特徴です。
1)サーバーに対してファイルを要求する。
GET:/page/index.html
2)そのファィルを開き、他に必要なファイルがあれば【改めて】サーバーに要求する。
GET:/img/logo.gif
あるいは、GET:/js/abc.js とか、/css/abc.css とか
3) それらのファイルがさらに他のファイルを必要とするなら
/css/abc.css 内に url(/img/logo/abc.gif)とあれば
GET: /img/logo/abc.gif
4) 最終的にすべてのファイルがそろうと描画
・・・揃わなくても揃った物だけで
情報ありがとうございます。申し訳ございませんが、仕組みが少し理解できたということで、頂きたかった回答とは異なっておりました。
ただ、仕組みについてはだいぶ理解できた気がします。
ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- アプリ Edgeを操作するアプリについて 4 2023/05/11 22:48
- PHP php my adminより取り出したデータ表示 2 2022/06/15 11:56
- SSL・HTTPS 至急教えてください! このサイトへの接続はセキュリティで保護されていません といった内容がPCに表示 1 2022/09/27 22:37
- その他(IT・Webサービス) PCの画面表示 1 2022/08/05 11:06
- JavaScript jsで診断コンテンツのページ内切り替えについて 1 2023/04/14 17:31
- WordPress(ワードプレス) ワードプレス。複数の投稿ページを、複数の固定ページに区別して、表示させる方法は 1 2023/03/04 19:54
- WordPress(ワードプレス) ワードプレスで、投稿一覧ページにタグを表示する方法 投稿につけたタグを、記事一覧ページにもカテゴリと 1 2023/05/10 21:41
- その他(IT・Webサービス) 301リダイレクトの使い方について 7 2022/04/05 17:50
- OCNモバイルONE ocnのマイページでモバイルの契約画面を見たい。 3 2023/03/30 21:44
- オープンソース AWSドメイン名でApacheテスト・ページを表示させる方法を教えて下さい。 1 2023/04/26 15:59
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
1つのhtmlで複数のページを表...
-
サーバーアップすると、ソース...
-
phpのファイルがブラウザで開か...
-
Chrome HTML Document (.html)...
-
phtmlって何ですか?
-
FC2の無料レンタルサーバーでサ...
-
VC++でヘルプの表示方法
-
コマンドプロンプトのエラーに...
-
コマンドプロンプトの「%1」と...
-
大量のフォルダからひとつのフ...
-
時間短縮のために、テキストフ...
-
バッチ処理でファイルの中身を...
-
#include <Windows.h>というヘ...
-
binファイルを解凍したいの...
-
.NETアプリを作ったときの .man...
-
バッチでテキストファイルから...
-
PCのアプリケーションを別のPC...
-
Windows10にデュアルブートでXP...
-
Python CSVファイルについて
-
echoの出力の最後のスペースを...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
phtmlって何ですか?
-
Chrome HTML Document (.html)...
-
phpのファイルがブラウザで開か...
-
1つのhtmlで複数のページを表...
-
<OBJECT>に入れたテキストが表...
-
作成したhtmlファイルがローカ...
-
拡張子がhtmlのファイルとshtml...
-
txtの中身を表示する方法教えて...
-
インクルードした要素がヘッダ...
-
User Agentでの振分けについて
-
IE(Internet Explorer)の「名前...
-
FTPというのがわからないんです…
-
_URL_の意味がわからない
-
JSP <%@ %> <% %>が表示されて...
-
XVLファイルがブラウザ上で表示...
-
htaccessを使ってトップページ...
-
カウンター設置方法について
-
htmlとshtml
-
ブラウザのアドレスに「html」...
-
.htaccessによるBasic認証の設...
おすすめ情報