PHP5でxml文書をパースする方法

Question

　　　1 　　商品（赤）　　1500 　　red 　　8 　　　　　　2 　　商品（青）　　700 　　blue 　　3 　　　　3 　　商品（緑）　　1200 　　green 　　5 　　　上記のようなXMLデータをPHPでパースし、１つずつ、配列に入れていきたいと考えていますが、問題なのは、上から２番目の商品（青）には、

hogehoge78 · Accepted Answer

getElementsByTagNameが返すのは、DOMNodeListクラスで、

http://www.php.net/manual/ja/class.domnodelist.php
DOMNodeListクラスは、lengthというプロパティを持っています。

<?php

$items = $dom->getElementsByTagName('item');

$results();
$item_props = array('id'=>null, 'name'=>null, 'price'=>null, 'color'=>null, 'size'=>null, 'option'=>null);
$item_keys = array_keys($item_props);
for($i=0; $i<$items->length; $i++){

$item_array = array();

/*
下記が返すのはDOMNode
http://www.php.net/manual/ja/class.domnode.php
*/
$item = $items->item($i);

//DOMNodeにはchildNodesプロパティがある
$children = $item->childNodes;

for($j=0; $j<$children->length; $j++){

$child = $children->item($j);

$name = $child->nodeName;

//念のため小文字にしてみる
$name = strtolower($name);

if(in_array($name, $item_keys)){

$item_array[$name] = $child->nodeValue;

}

}

$results[] = array_merge($item_props, $item_array); //初期値にマージしてやればなければ初期値が入る

}

?>
とか、ですかね。

yuu_x · Answer

> あらかじめ、どの階層に、どんなタグがあるか分かっている場合に
そのために、DTD や スキーマがあるんだけど、そこまで書く人は少ないわな。

XPath の場合、相対的な指定ができるから（上がることも可能）指標（必要な情報）が分かれば十分なんだけどね。

XPath の魅力を語っても仕方ない。イテレーションするか、ピンポイントで拾うか、XSL、XQuery でまとめて拾うかは、作成者の自由だし。

jQuery はバージョンいくつからか（元々その傾向はあったけれど）、Selecters API を採用している。あれはあれで使いやすい。

イテレーションの場合、Traversal API が使えると一番いいんだけど、PHP のライブラリとしてはまだ存在しないから、地味に 参照を辿っていくしかないのが残念。

何だかんだいって現状は、既存 API のバージョンアップと、各種モジュールの追加に期待するしかない。

hogehoge78 · Answer

基本的には、文字列操作を行う場合に、文字列を上から順番に読み解いていくのか、正規表現を使うのかの違いぐらいの内容、と思ってもらえればいいのかなと思います。
または、JavascriptでDOMをゴリゴリ操作するのか、jQueryを使うのか、といったことに意味合いとしては似てると思います。

そう考えれば、XPath構文のわかりやすさは、yuu_xさんの仰るように、慣れです。
分かってしまえば、こまわりも効くし扱いやすい。

でも、XPathは、アクセス後に返してくるオブジェクトは、やっぱり基本のDOMNodeListだったりするわけですので、
そこから先の操作は基本のDOMDocumentを使ったときと同じ構文を使うので、
両方の特性を上手く組み合わせて、上手く付き合っていけばいいかなと。

下記、余談です。このXMLやHTMLを操作するためのライブラリって色々あるので、軽くご紹介を。
ライブラリの挙動を追えば、どうやって操作したらやりやすいのかとか、理解も深まるかも。

■XML_Unserializer
XMLを単純に配列に落とすだけだったら、PEARに、XML_Unserializerというライブラリもあって、
コレはもともとPHP4でも使えるように成っているので、DOMDocumentやXPathなんかは使われておらず、
最初に書いたような文字列操作と正規表現で行っています。
URL：http://pear.php.net/manual/ja/package.xml.xml-serializer.php

■CakePHP::XMLクラス
CakePHPも自前で、XMLクラスといったものを搭載してますが、同様な理由（PHP4でも使える）で、
DOMDocumentやXPathは使ってなかったりします。

■PHP Simple HTML DOM Parser
コレもDOMDocumentやXPathなどは使ってないものです。jQueryと同じ構文でかけるので扱いやすい
URL：http://simplehtmldom.sourceforge.net/

■phpQuery
こちらは上記の物とは違ってPHP5用ということで、内部的にはDOMElementを使っているし、XPathも使います。
http://code.google.com/p/phpquery/
ちょいちょいバグがあるので安定性はかけますが・・・

yuu_x · Answer

> ゴチャゴチャ w。慣れるまではそう見えるかもしれない。どんな言語に対しても言えそうだけど、何が書いてあるか分からないうちは、ただの羅列にしか見えない。ある程度までなら、省略構文が使えるので、それを利用してもいい。 > ある1つのに対してメソッド実行すると、そのの中にある1つが対象となる、 # items の直属の子の文脈順の最初の item の子の price ノード $xpath->evaluate('/root/items/item[1]/price')->item(0); // 半強制的に DOMNodeList が返る。最初の price ノードが必要な場合は、やや間抜けだけど、戻り値に対して item(0) を指定する。 # items の直属の子の文脈順最初の item の price の値 $xpath->evaluate('number(/root/items/item[1]/price)'); // PHP の場合、戻り値を指定できないため、キャストの手間が入るのは仕方ない。 # name 直下のみ $xpath->evaluate('string(/root/items/item[1]/name/text())'); 　　　商品しょうひん　 # id=1 の item $xpath->evaluate('number(/root/items/item[id=1]/price)'); # 最初の item を軸とし、その直属の子 items を選択 $item = $xpath->evaluate('/root/items/item[1]')->item(0); $xpath->evaluate('child::items', $item); 　　　　　　　　 # $item の次の兄弟 item $xpath->evaluate('following-sibling::item[1]', $item); 後はマニュアルを見てください。 http://www.w3.org/TR/xpath/ - XML Path Language (XPath) Version 1.0 http://www.w3.org/TR/DOM-Level-3-XPath/xpath.html - Document Object Model XPath

hogehoge78 · Answer

■$results();の件
ごめんなさい・・・完全にtypoです・・・・
$results = array();
と書きたかったのでした。

■lengthプロパティを使ってforで回した理由
とりあえずPHPマニュアルのDOMNodeListクラスの最初の説明におきまして、
特にIteratorインターフェイスを実装していたりして無さそうだったので、
プロパティとメソッドから判断して書きました。
よく見たらforeachで回せるんですね。すみません。

■SimpleXMLを使うのかDOMDocumentを使うのかXPathを使うのか
基本的にSimpleXMLは、入力されている各要素が分かっている、既知のフォーマットのときに使うと便利かなと。（RSSのパースとか）

DOMDocumentは、読み込めるのがXMLだけではなく、HTMLも読むことが出来るので、
HTMLを読み込んで、抽出だとか置換だとかをするのに適しています。
丁度javascriptでHTMLを書き換えるような感じで使ったりします。

XPath、ある特定の属性をもつ要素をすべて抽出したいとかといった場合に便利ですね。
<?php
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//*[@class='hoge']"); //class="hoge"のものを全部取得する
?>
などといった記述をすれば、NodeListを返しますので、非常に簡単です。

yuu_x · Answer

XPath の利点は細かな調節ができるところにあるけど、平文 XML を配列に落とすだけなら、微調整もへったくれもない。

一点挙げるとすれば、getElementsByTagName はデフォルト空間の子孫ノードを全て拾うため、階層構造になったときに対応しきれなくなる。

> どのようなxml文書でも対応できる、根本的な理解と、それに基づいた方法を教えて頂けると良いなと考えていました。

XML の抽出には強力な XSL 及び XQuery があるため、抽出を自由に行いたいのであれば、そちらをお勧めします。

PHP では XSLT 1.0 しか利用できないけど、幸い、php:function を利用できるため、それほど不自由は感じない。

XML であることの利点は、階層構造は元より、環境を問わず（この利点は大きい）部分的な抽出、取り込み、関連付け、要素への重み付け等が自由に行えるところにある。

XML であることを放棄して、配列に落とすなら、PHP でロジックを組むことになるのだけれど、その辺は好きなように。

PHP だけで狭視的に利用するだけなら、CSV で十分だと思うんだけどね。必要に応じてデータベースに落とせるし。

yuu_x · Answer

$ary = array(
 'id'=> 'number'
,'name'=> 'string'
,'price'=> 'number'
,'color'=> 'string'
,'size'=> 'number'
,'option'=> 'string'
);

$result = array();

$doc = new DOMDocument;
$doc->loadXML($xml);

$xpath = new DOMXPath($doc);

foreach ($xpath->query('/child::root/child::items/child::item') as $item) {
$params = array();
foreach ($ary as $name => $type) {
$params[$name] = $xpath->evaluate("{$type}(child::{$name}/child::text())", $item);
}
$result[] = $params;
}
var_dump($result);

配列に置き換えるくらいなら、正直 simple_xml のが楽。
XML の構造が単純だし、文字列変換して eval したい気分にもなる。

luka3 · Answer

simplexml_load_file を使います。

--　テストソース
$xml =  simplexml_load_file('sample.xml');
print_r($xml);
print $xml->items->item[0]->option;
print isset($xml->items->item[0]->option)? "true":"false";
print isset($xml->items->item[1]->option)? "true":"false";

--　出力結果（カッコなど整形してます）
[items] => SimpleXMLElement Object
　[item] => Array
　　[0] => SimpleXMLElement Object
　　　[id] => 1
　　　[name] => 商品（赤）
　　　[price] => 1500
　　　[color] => red
　　　[size] => 8
　　　[option] => A
　　[1] => SimpleXMLElement Object
　　　[id] => 2
　　　[name] => 商品（青）
　　　[price] => 700
　　　[color] => blue
　　　[size] => 3
　　[2] => SimpleXMLElement Object
　　　[id] => 3
　　　[name] => 商品（緑）
　　　[price] => 1200
　　　[color] => green
　　　[size] => 5
　　　[option] => C
A
true
false

PHP5でxml文書をパースする方法

getElementsByTagNameが返すのは、DOMNodeListクラスで、

> あらかじめ、どの階層に、どんなタグがあるか分かっている場合に

基本的には、文字列操作を行う場合に、文字列を上から順番に読み解いていくのか、正規表現を使うのかの違いぐらいの内容、と思ってもらえればいいのかなと思います。

> ゴチャゴチャ

■$results();の件

XPath の利点は細かな調節ができるところにあるけど、平文 XML を配列に落とすだけなら、微調整もへったくれもない。

$ary = array(

simplexml_load_file を使います。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング