Perlでgoogle newsのRSSを取得２

Question

質問を閉め切った直後に気付いたもので、すいません！！

QNo.3797932の、つづきなのですが、、、
教えていただいた以下の方法

-------------------------

#!/usr/local/bin/perl
use LWP::Simple;
use XML::RSS;
use LWP::UserAgent;

my $url = 'http://news.google.com/news?hl=ja&ned=us&ie=UTF- …
my $ua = new LWP::UserAgent;
my $responce = $ua->get($url, 'User-Agent' => 'Mozilla/4.0');
my $data_from_web = $responce->content;

print <<"HTML";
Content-type: text/html

<html>
HTML

print $data_from_web;

exit;

-------------------------

の場合だと、ページ表示データは取得できるのですが、RSS特有のタグが
抜け落ちる為、その後の解析ができない事に気付きました。

なんとか、RSS特有のタグも含めてのRSS情報を入手する方法はないでしょうか？

ちなみに、RSS特有のタグも含めてのRSS情報は、ブラウザーのURLの窓に
http://news.google.com/news?hl=ja&ned=us&ie=UTF- …
このアドレスを直接入力してリターンキーを押すと、確認する事ができます。

度々申し訳ないのですが、よろしくご指導、お願い致します。

通報する

himajin100000 · Accepted Answer

>で、目的はニュース記事のタイトルとリンク抽出なので、 >> >と >< >で囲まれた部分、及び、 >link> >と >< >に囲まれた部分を抽出する方法やっぱり，回答1は的外れじゃないか(笑) 予想はしてたけど。 #!/usr/local/bin/perl use LWP::Simple; use XML::RSS; use LWP::UserAgent; use XML::XPath; use XML::DOM; sub getData{ my $url = 'http://news.google.com/news?hl=ja&ned=us&ie=UTF-8&oe=UTF-8&output=rss&q=aiko'; my $ua = new LWP::UserAgent; my $response = $ua->get($url, 'User-Agent' => 'Mozilla/4.0'); return $response->content; } sub getPairs{ my $data = @_[0]; my @pairs; my $xp = new XML::XPath( xml => $data ); $hoge = $xp->findnodes("/rss/channel/item/title/text()"); $fuga = $xp->findnodes("/rss/channel/item/link/text()"); while($hoge->size() > 0 ){ push(@pairs,[$hoge->pop()->getNodeValue(),$fuga->pop()->getNodeValue()]); } return @pairs; } sub generateContent{ my $pairs = @_[0]; my @pair; my $document = new XML::DOM::Document; # not in DOM spec my $xmlDecl = $document->createXMLDecl("1.0","UTF-8","no"); $document->setXMLDecl($xmlDecl); # not in DOM spec my $doctype = $document->createDocumentType("html","http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd" ,"-//W3C//DTD XHTML 1.0 Strict//EN", ""); $document->setDoctype($doctype); my $Eul = $document->createElement("ul"); while($#$pairs > 0){ $pair = pop(@$pairs); my $Eli = $document->createElement("li"); my $Ea = $document->createElement("a"); $Ea -> setAttribute("href",$$pair[1]); my $Ea_text = $document->createTextNode($$pair[0]); $Ea->appendChild($Ea_text); $Eli->appendChild($Ea); $Eul->appendChild($Eli); } my $Ebody = $document->createElement("body"); $Ebody->appendChild($Eul); my $Etitle = $document->createElement("title"); $title_text = $document->createTextNode("Q3798395 TestCase 1"); $Etitle->appendChild($title_text); my $Ehead = $document->createElement("head"); $Ehead->appendChild($Etitle); my $Ehtml = $document->createElement("html"); $Ehtml->setAttribute("xmlns","http://www.w3.org/1999/xhtml"); $Ehtml->appendChild($Ehead); $Ehtml->appendChild($Ebody); $document->appendChild($Ehtml); return $document; } sub generateHTTPHeader{ my $headers = ''; $headers = $headers . 'Status: 200 OK' . " "; $headers = $headers . 'Content-Type:text/html;charset=UTF-8' . " "; return $headers; } sub Main{ # toString is not in DOM Spec. the output functionality is defined in DOM Level 3 Load and Save Module #指定された文字列をp要素の子のテキストノードとして持つ，HTMLを生成。 #/まあ、生ソース自体は別にこんな事しなくてもContent-Typeをtext/plainとすれば出来るが。 print generateHTTPHeader(); my @arr = getPairs(getData()); print generateContent(\@arr)->toString; exit; } Main(); exit; #格好つけてXPathを使ってみたけど，XSLTのほうが楽そうだった気がする #正規表現や文字符号化方式については俺詳しくないのでパス。なので意地でもDOMを使う(笑) #ただし，このコードが取ってきているのは #/rss/channel/item/title/text() #だけで， #/rss/channel/title/text() #/rss/channel/link/text() #や #/rss/channel/image/title/text() #/rss/channel/image/link/text() については考えてない。

himajin100000 · Answer

何をやろうとしているのかが見えなかったからなんか・・・・ >まさに、この様な形をイメージしていました。と言われて安心した一方で，やりたそうなこと見ているとこの回答でよかったんだろうか、って不安になってくる。本当に？って聞き返したくなる。この方法だとRSSはParseできないからね？ #この方針で書いているのは元のPerlソースに html要素開始タグがあるから。終了タグがないのがよくわからんけど。 >$#T; @Tはどこから来たんだ、@Tは。言っておくけど， $all中に title要素はXHTML名前空間の1個しかなく link要素は書いてないから存在しないからね？ RSS 0.92名前空間(Or 名前空間なし)のlink要素およびtitle要素は存在しない。ブラウザで右クリックしてもらってソース見てもらえば解ると思うけど RSSの文字列がTextNodeのnodeValueになるように全部実体参照に展開されている。 (その見ている「ソース」が$allに入っている。) あとXHTML名前空間のlink要素は旧SGMLの流れを汲んだHTML 4.01との互換性からみたいに省略されていることが殆どだからが出てくることは少ないよ。 ======================= 念のため，ここだけ不安なので理解しているか確認させて。当たり前ジャン、っていうかもしれないけど。ここが間違っていると絶対うまくいかないから。 ======================== 間違いない、って自信もてるんだったら考えてみるよ。 ★テキストノードおよび属性値中に>は文字参照でもCDATAでもない形で存在できるとか ★属性を持つlink要素が出現するかもしれないとか

himajin100000 · Answer

#!/usr/local/bin/perl
#ひょっとしてこんなの期待したの？解析云々は関係なしに
#ソースコードはBOMなしUTF-8の改行コードLF 
use LWP::Simple;
use XML::RSS;
use LWP::UserAgent;
#要インストール
#http://www.edita.jp/musekininit/one/musekininit541874.html
use XML::DOM;
sub getData{

my $url = 'http://news.google.com/news?hl=ja&ned=us&ie=UTF-8&oe=UTF-8&output=rss&q=aiko';
my $ua = new LWP::UserAgent;
my $response = $ua->get($url, 'User-Agent' => 'Mozilla/4.0');
return $response;
}

sub generateContent{
my $text = @_[0];
my $document = new XML::DOM::Document;

# not in DOM spec

my $xmlDecl = $document->createXMLDecl("1.0","UTF-8","no");
$document->setXMLDecl($xmlDecl);

# not in DOM spec
my $doctype = $document->createDocumentType ("html", "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd" ,"-//W3C//DTD XHTML 1.0 Strict//EN", "");
$document->setDoctype($doctype);
#悩んだけど、熟知してないと非常に厄介なので、CDATAセクションにはしない
my $p_text = $document->createTextNode($text);
my $Ep = $document->createElement("p");
$Ep->appendChild($p_text);

my $Ebody = $document->createElement("body");
$Ebody->appendChild($Ep);

my $Etitle = $document->createElement("title");
$title_text = $document->createTextNode("Q3798395 TestCase 1");
$Etitle->appendChild($title_text);

my $Ehead = $document->createElement("head");
$Ehead->appendChild($Etitle);

my $Ehtml = $document->createElement("html");
$Ehtml->setAttribute("xmlns","http://www.w3.org/1999/xhtml");

$Ehtml->appendChild($Ehead);
$Ehtml->appendChild($Ebody);


$document->appendChild($Ehtml);
return $document;

}

sub generateHTTPHeader{

my $headers = '';
$headers = $headers . 'Status: 200 OK' . "
";
$headers = $headers . 'Content-Type:text/html;charset=\'UTF-8\'' . "

";
return $headers;

}

sub Main{
# toString is not in DOM Spec. the output functionality is defined in DOM Level 3 Load and Save Module

#指定された文字列をp要素の子のテキストノードとして持つ，HTMLを生成。
#/まあ、生ソース自体は別にこんな事しなくてもContent-Typeをtext/plainとすれば出来るが。
print generateHTTPHeader();
print generateContent(getData()->content)->toString;
exit;
}

Main();

Perlでgoogle newsのRSSを取得２

>で、目的はニュース記事のタイトルとリンク抽出なので、

何をやろうとしているのかが見えなかったから

この回答への補足

#!/usr/local/bin/perl

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング