[C#]htmlを取得できないページがある。

解決済

質問者：macus
質問日時：2013/08/14 13:43
回答数：1件

C#でhtmlソースを取得したいのですが、取得できるページと出来ないページがあって困っています。

取得方法は以下の方法を使用しています。

＝＝＝ここから＝＝＝

HttpWebRequest req = WebRequest.Create(url) as HttpWebRequest;
HttpWebResponse res = null;
try
{
res = req.GetResponse() as HttpWebResponse;
}
catch
{
MessageBox.Show(url + "指定した Web ページが応答していません！", "エラー");
}
StreamReader reader = new StreamReader(res.GetResponseStream(),
Encoding.GetEncoding(encode));
string htmlsource = reader.ReadToEnd();
reader.Close();

===================

htmlsourceにソースが入るのですが、取得できないページも一応ソースは取得できるのですが、
実際にIEなどのブラウザで表示した場合のソースと異なります。

ユーザーエージョンとして
req.UserAgent = "User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:16.0) Gecko/20100101 Firefox/16.0";
を設定しても結果は同じでした。

■取得できるページ例
http://www.amazon.co.jp/s/ref=sr_nr_n_1/375-1273 …

■取得できないページ例
http://www.amazon.co.jp/s/ref=sr_nr_n_3?rh=n%3A4 …

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： toras9000
回答日時：2013/08/16 13:41

どういう差異が出ているのかわかりませんが、

セッションIDが埋め込まれたような箇所が変化するというのであれば、
それは変化することが当然なのでそれを前提に処理するべきかと思います。
それ以外の違いがあるとしたら、
以下のような点が要因となっている可能性はあるのでは無いでしょうか。

・JavaScriptなどのスクリプトでページ内容が動的構成されている
・Cookieによってサーバーが異なるHTMLを返却している

ブラウザ側でページを開く際、
JavaScriptを無効にしてページを開いたり、
Cookieを削除してページを開いたりしてソースを比べてみてはどうでしょうか。