変動する

Question

はじめまして

ＣＧＩを学んで１ヶ月の者です。
実は、仕事で少し面倒な依頼を受けて困っております。
内容はＣＳＶ形式のデータをPerlで読み取ってそれを
ＨＴＭＬのテーブルに流し込むスクリプトなのですが、
慣れていないので思考停止をして進みません。

具体的なＣＳＶデータの例ですが、

10,果物,りんご,ringo.html,ぶどう,budou.html,ばなな,banana.html,10,野菜,かぼちゃ,kabotya.html,なす,nasu.html,きゅうり,kyuri.html,魚,まぐろ,maguro.html,さけ,sake.html,10,肉,牛,usi.html,麺,ラーメン,ra-men.html,そば,soba.html,うどん,udon.html

まず、先頭に10があり、これは分類の区切りを示すヘッダーです。
次に果物でこれは、分類名です。
次にりんご、これは分類詳細名です。
つぎにringo.htmlでこれは分類詳細名のリンク先アドレスです。

このようなデータの並びですが、各分類と詳細項目は変動しますので
このテーブルのあるＷＥＢページを毎回読み直す必要があります。

どうのようにしたらよいのでしょうか。
お助けください。

callhiro · Answer

ＣＧＩを学んで一ヶ月ということですが、
どのぐらいのことを理解されているのでしょうか？
split等の関数の存在とかもご存じない状態ですか？

基本的な流れですと(僕の思う基本ですが)
1. データを読み込む
2. 読み込んだデータを変数に代入する(ここでsplit等を使います)
3. 変数の個数情報なども利用しながら、foreachなどの繰り返し処理で表を作る
といったものになると思います。
どのへんでつまづいておられますか？

ＣＧＩの本や、ＷＥＢにもたくさんリファレンスがありますし、
１ヶ月もあればこのぐらいのプログラムならできると思いますよ。

補足していただければまた現れます。
他の方が答えてしまえばそのままお任せしますが。

callhiro · Answer

１からなんですね。了解です。ちなみに他のプログラムは経験ありますか？僕はもともとＣ言語はやったことあったので、 Perlを身につけるのは、簡単なリファレンスを見れば最初から知っていたのと同じぐらいの感覚で使えましたけど。しかし、まったくプログラムが初めてだと難しいかもしれませんね。１がわからないとすると、もっと前の部分がわからない可能性がありますね。簡単に先ほど箇条書きしたとこだけ説明しておきますね。それ以前でもっとわからないならまた補足してください（笑）ただ、僕も自分の書きやすいように書いていますので、他の方が見たら、「もっときれいに書けるのに」って思われてしまうかもしれませんが、そのあたりはどうかお許しください。まずはこんな風にやっていけば良いんだなとわかっていただければいいかと思います。 1. データを読み込む ~~~~~~~~~~~~~~~~~~ if (!open(DB,"$file")) { &error(1); } @lines = ; close(DB); ってのが僕がよくやるファイルの読み込みです。このまま使って、「@lines」とか「DV」という文字を適当に変更すればいいです。 errorの関数は、ファイルが開けなかった場合だけ呼び出されます。（これも別のところで作成しなければなりませんけどね）その必要がない場合は open(DB,"$file"); @lines = ; close(DB); でも良いかもしれません。 $fileには読み込みたいファイルにアクセスするパスを書きますが、たいてい最初に $file = "food.csv"; とか $file = "../data/food.csv"; などと書いておけば大丈夫です。もちろんファイルを開くところに直接書いても良いですね。これがうまくいけば、「@lines」にcsvファイルが行単位で取り込まれます。つまり 10,果物,りんご,ringo.html,ぶどう,budou.html,ばなな,banana.html 10,野菜,かぼちゃ,kabotya.html,なす,nasu.html,きゅうり,kyuri.html,魚,まぐろ,maguro.html,さけ,sake.html 10,肉,牛,usi.html,麺,ラーメン,ra-men.html,そば,soba.html,うどん,udon.html というデータだとすると、 $lines[0] に果物の行がそのままは入り(「,」等も含んだ形で) $lines[1] に野菜の行が入り $lines[2] に肉の行が入ります元のデータはすべて一行に表されているんですか？そうだとしたら、全データが$lines[0]に入りますので、後でデータを分割する必要がありますね。 2. 読み込んだデータを変数に代入する ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 次に書く配列に入れたデータを、より使いやすく小さく区切ります。その際にsplitという関数を使います。 splitは、各行から特定のパターンで文字列を分割します。今回のcsvファイルならば、「,」でデータが区切られているので、「,」を切り分けのパターンとして「果物」「りんご」「ringo.html」などのデータを取り出します。現在は、 $lines[0] = "10,果物,りんご,ringo.html,ぶどう,budou.html,ばなな,banana.html"; という状態でデータが入っていますので最初の２つだけデータの意味が違うのでそこを切り出して、さらに２つずつ切り出さないとだめですね(なんだか切り出しにくいかも)。まず、 ($no,$type,$data) = split(/,/,$lines[0]); としてみたとします。この場合、 $no = 10; $type = "果物"; $data = "ringo.html,ぶどう,budou.html,ばなな,banana.html"; という風に変数に代入されます。後は$dataにあるデータがまだ分割しきれていないのでさらに細かく分ければいいかと思います。３つずつセットのようなので、 for文などをうまく利用すればすっきり分割できるかもしれません。・・・あまりに中途半端ですが、ちょっと寝る時間を大幅に過ぎてしまいましたので(朝６時起きなんですよね;;) 今日は寝ます（笑）２の補足、３についてはまた書き込ませていただこうかと思いますが、ご自分で本などをみてわかっていただければ幸いです。自分でだんだん理解して、それがほんとに実現できるのがうれしいもんですしね。他の方もどんどん回答してあげてください。ではではまた～(^^;)/

dany · Answer

解説するより実際の処理を見てもらったほうが早いかなと
思ってつらつらと書いてみました。

>このようなデータの並びですが、各分類と詳細項目は変動しますので 
↑を「項目の並び順が変動」と勘違いして書いたので項目順序が変わっても
@TYPEを書き換えればいいようにしてみました。

$FILE = './hoehoe.csv';
$HTML = './hoehoe.htm';
@TYPE = qw( HEAD TYPE NAME ADDR );　　# 項目のタイプを指定

open( IN,$FILE )||&error;
while( $line = <IN> ){　　　　　　　　# 一行ずつ読み込む
　chomp( $line );　　　　　　　　　　 # 改行コードを削除
　&conv1( $line );　　　　　　　　　　# 変換処理
}
close( IN );
open( OUT, '>'.$HTML );　　　　　　　 # 出力ファイルを開く
　print OUT $output;　　　　　　　　　# 書き出す
close( OUT );
exit;　　　　　　　　　　　　　　　　 # 終了


# 変換タイプ１
# ====================
sub conv1{
　my $line = shift;　　　　　　　　　 # 渡された行の内容
　@lines = split( ',',$line );　　　　# 「,」で分割して配列へ
　foreach $i ( 0 .. $#lines ){　　　　# 0番目から配列の最後まで繰り返す
　  if( $TYPE[$i] eq 'HEAD' ){　　　　# 以降、番号に対応した項目で変換処理
　    ～HEAD項目に対する変換処理～
　  }elsif( $TYPE[$i] eq 'TYPE' ){
　    ～TYPE項目に対する変換処理～
　  }elsif( $TYPE[$i] eq 'NAME' ){
　    ～NAME項目に対する変換処理～
　  }elsif( $TYPE[$i] eq 'ADDR' ){
　    ～ADDR項目に対する変換処理～
　  }
　  $outpt .= $lines[$i];　　　　　　 # 出力用変数に追加書き
　}
}


ところで
10,果物,りんご,ringo.html,ぶどう,budou.html,ばなな,banana.html,10,野菜,かぼちゃ,kabotya.html,なす,nasu.html,きゅうり,kyuri.html,魚,まぐろ,maguro.html,さけ,sake.html,10,肉,牛,usi.html,麺,ラーメン,ra-men.html,そば,soba.html,うどん,udon.html 

ってひょっとして一行になってるんですか？

dany · Answer

質問にあったのが「決まった順番が横並びに連続する。しかも数は変動」という前提で作ってみたものです。「&conv1」→「&conv2」にする以外は同様。あとTABLEにするのなら「」が必要というのを忘れてたのでそれも追加しました。 # 変換タイプ２ # ==================== sub conv2{ 　my $line = shift;　　　　　　　　　 # 渡された行の内容　@lines = split( ',',$line );　　　　# 「,」で分割して配列へ　foreach $i ( 0 .. $#lines ){　　　　# 0番目から配列の最後まで繰り返す　　$x = (($i+1) % ($#TYPE +1)) - 1; 　　if( $TYPE[$x] eq 'HEAD' ){　　　　# 以降、番号に対応した項目で変換処理　　　～HEAD項目に対する変換処理～　　 }elsif( $TYPE[$x] eq 'TYPE' ){ 　　　～TYPE項目に対する変換処理～　　}elsif( $TYPE[$x] eq 'NAME' ){ 　　　～NAME項目に対する変換処理～　　}elsif( $TYPE[$x] eq 'ADDR' ){ 　　　～ADDR項目に対する変換処理～　　} 　　$output .= '' if $x == 0;　　　# 最初のやつなら追加　　$output .= $lines[$i];　　　　　　 # 出力用変数に追加書き　　$output .= '' if $x == -1;　　# 最後なら追加　} } # ==================== >$x = (($i+1) % ($#TYPE +1)) - 1; ↑ちょっとわかりにくいかもですね。^^; 何番目の項目かというのを判別するには、項目数で割った余り（%）を求めればいいのですが、番号が「0」から始まるので「+1」してます。「$#TYPE」は「@TYPE」の最後の添え字、この場合「3」が入ってます。項目数は「4」ですがやはり「0」から始まるので「+1」してます。 1番目 … ((0+1)%(3+1))-1 = 0 2番目 … ((1+1)%(3+1))-1 = 1 3番目 … ((2+1)%(3+1))-1 = 2 4番目 … ((3+1)%(3+1))-1 = -1 5番目 … ((4+1)%(3+1))-1 = 0 6番目 … ((5+1)%(3+1))-1 = 1 7番目 … ((6+1)%(3+1))-1 = 2 8番目 … ((7+1)%(3+1))-1 = -1 9番目 … ((8+1)%(3+1))-1 = 0 4番目は「3」を出したいところですが、Perlは配列の何番目かを指定するとき「-1」すると、後ろから、つまり最後のものを取得してくれるのでこのままにしてます。他の言語ではダメかも。^^; ～変換処理～のところは $line[$i] =~ s/^(.+)$/$1<\/td>/; もしくは↓のほうがスッキリ $line[$i] =~ s|^(.+)$|$1|; ぬ、とてもPerl歴一ヶ月の人に教えるようなものではないですね…。^^; まぁこういう方法もあるよ程度に留めておくといいかも。

dany · Answer

一行にすると &conv2 のような余計な行程が必要になってくるから
やめたほうがいいです。ExcelやAccessの画面をイメージしていただけると
わかると思いますが、

HEAD TYPE NAME ADDR
HEAD TYPE NAME ADDR
HEAD TYPE NAME ADDR

という感じに並ぶのが一番効率がいいです。
TYPEが存在しない場合は空欄に、ひとつの項目に複数存在する
場合は「／」とか、“絶対使われない文字”で区切るのがいいです。

head(TAB)type(TAB)name,name2(TAB)addr
みたいな感じにTABで区切り、項目内をさらに分割するときは
「,」みたいな。

# 現実逃避終了したので以降の回答がニブくなると思われます（笑）

callhiro · Answer

どうもこんばんは。
再び登場です。

＞ある分類がポッカリなくなったり、ある分類内の詳細名が増減することを想定しないといけないもので、やっかいに感じてます。 

hoomaさんは変動するデータや、項目の変動が激しいことを気にしていらっしゃるようですが、
自作のＣＧＩをいくつか遊びで作ってきた経験から言わせてもらいますと、
そういう変動するデータのためにこそＣＧＩが有効ではないかと思います。
htmlでは固定的な表現しかできませんが、プログラムを使うことの利点は
アクセスする度に変動的な表現ができることではないでしょうか？

項目が変動した場合にもばりばり動かすＣＧＩを作ろうと思っているなんて
個人的には楽しそうでうらやましいです（笑）
僕も仕事でそういうの任されてみたいです(^^)

どのように変動データに対応するかは
ＣＧＩプログラムの問題ではなくて
アルゴリズムの問題だと思います。

まあPerlのプログラミングとして、
どのようにデータを加工するのがやりやすいか
などを気にする必要もあるので、
アルゴリズムとプログラムは同時に考えた方がいいですけどね。
ある程度経験のある人なら、
元データがこういう形の方が扱いやすいと言うこともわかると思います。

お礼を見ていると、「これ以上答えてもらうのは悪い」という感じが伝わってきましたが、
そんなことありませんので、もっと具体的な困っている箇所をあげてくだされば、
一つずつ進んでいけるのではと思いますよ。

あと、特にUNIXの知識なんて必要ないような気がしますが。

callhiro · Answer

多次元配列って使ったことないんですが、

@datasに各行のデータが入っているとして、

print "<table>\n";
foreach $data (@datas){
　$dataを細切れにする
　細切れデータから表を作る
}
print "</table>\n";

のような感じではできないでしょうか？

"; のような感じではできないでしょうか？

dany · Answer

No.4の返答への返答です。
この返答で私が書いた「HEAD TYPE NAME ADDR」というのは

10,果物,りんご,ringo.html,ぶどう,budou.html,ばなな,banana.html,10,野菜,かぼちゃ,kabotya.html,なす,nasu.html,きゅうり,kyuri.html,魚,まぐろ,maguro.html,さけ,sake.html,10,肉,牛,usi.html,麺,ラーメン,ra-men.html,そば,soba.html,うどん,udon.html

というデータよりも

10,果物,りんご,ringo.html
10,果物,ぶどう,budou.html
～略～
10,麺,そば,soba.html
10,麺,うどん,udon.html 

「１データ１行で、１行は同じ項目数」という感じに元データを作り直して
もらったほうがいいということです。

で、今気付いたんですが、
A,B,C,D,A,B,C,D,A,B,C,D,
って感じに項目数は同じなのかと思いました。
A,B,C,D,C,D,C,D,
なんですね。これだとNo2、No.3のサンプルはまったくのゴミです。^^;

提示された形式だと、「中に入っているデータがどんな形式なのか」を
調べないといけないし、もしデータに規則性がないなら判断のしようも
ありません。それとも「10」という数字がデリミタ（分割指定子）ですか？

いずれにせよ、もし私がこの仕事をやるハメになったとしたら
「こんなデータではやってられません。元データを作り直してください」
ってとこからスタートします。^^;

dany · Answer

>10,分類,20,詳細名,30,リンク先,20,詳細20,詳細名,30,リンク先,名,30,リンク先 

それだったら
10_A,20_B,30_C,20_B,30_C～
って感じに「データの中に判別子を埋める」ほうがいいです。
「今“10”だったから次のデータは“分類”だ」よりも
「頭が“10”だからこのデータは“分類”だ」のほうがソースが
見やすくなります。頭の「10_」とかは後で消せばいいわけです。

しかし本当は「位置でデータ種別を判別させる」ほうが簡潔だし
処理も早くなります。なぜに下記のような表計算リスト的なデータ
にしないのでしょうか？
A,B,C,D
A,B,C,D

A,B,C,D
,,C,D
↑でもいいですから、とにかく「項目の位置は固定」させたほうが
いいです。実際にくんでみればわかります。

dany · Answer

>データの中に識別子を付けた場合、後で、取り除くための記述はどうしたらいいでしょうか。

$hoe ~= s/^10_//;
です。

変動する

ＣＧＩを学んで一ヶ月ということですが、

この回答への補足

１からなんですね。

解説するより実際の処理を見てもらったほうが早いかなと

この回答への補足

質問にあったのが「決まった順番が横並びに連続する。

この回答への補足

一行にすると &conv2 のような余計な行程が必要になってくるから

この回答への補足

どうもこんばんは。

この回答への補足

多次元配列って使ったことないんですが、

この回答への補足

No.4の返答への返答です。

この回答への補足

>10,分類,20,詳細名,30,リンク先,20,詳細20,詳細名,30,リンク先,名,30,リンク先

この回答への補足

>データの中に識別子を付けた場合、後で、取り除くための記述はどうしたらいいでしょうか。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング