整形したテキストの行を集計する方法

Question

Perlでテキストデータの集計を行いたいのですが、集計のプログラムが上手く作れずに困っています。
元のテキストとして、

あいうえお。かきくけこ。さしすせそ。たちつてと。あいうえお。

というものがあり、整形プログラムとしては、

while(<>){
s/。/。
/g;
print"$_";
}

があります。このプログラムを使って、

あいうえお。
かきくけこ。
さしすせそ。
たちつてと。
あいうえお。

という形に整形ところまではできたのですが、上記のプログラムに追加する形で、

あいうえお。 2
かきくけこ。 1
さしすせそ。 1
たちつてと。 1

というように同一の行の集計を行えるようにしたいです。
元のテキストデータから整形と集計を1つのプログラムで行えるようにしたいのですが、どうすれば良いのでしょうか？

Tacosan · Accepted Answer

えぇと....

<@data> とか <@out> とかで何をしたいのでしょうか＞#4. こんなところでグロブする必要性は見えないのですが....
あと, @ARGV は Perl の変数であって「環境変数」じゃないよ. 環境変数は %ENV からアクセスする.
まあ #3 では変な方向に走ったけど, わかりやすくするなら #2 のように
・「。」で split する
・それぞれの個数をハッシュで数える
・ハッシュのデータを出力する
という方針でいくべきでしょうね.これ全体を while (<>) でくくればほぼんど OK.

ORUKA1951 · Answer

一部訂正
>$ perl split.pl ssample.txt sample2.txt
ではなくて
$ perl count.pl ssample.txt sample2.txt
だね。

ORUKA1951 · Answer

No.2 ORUKA1951です。きちんと、希望したいことを書いておかないとダメだよ。他の可能性も含めて・・ sample.txt____________ あいうえお。かきくけこ。さしすせそ。たちつてと。あいうえお。かきくけこ。さしすせそ。あいうえお。らりるれろたちつてと。らりるれろ。 sample2.txt___________ なにぬねの。ぱぴぷぺぽ。あいうえお。の複数のファイルがあり、しかも複数行にまたがっている可能性があるとき・・ただし[。]以外の位置での改行は無いとする。(あれば、改行を取り除いてつないで処理すること) ・・そのかわり、例のように[。]が無くても処理してくれるはず count.pl #!/usr/local/bin/perl @files = @ARGV; foreach(@ARGV){ open IN,$_ ,or die; while(){ @data = split /。/,$_; while(<@data>){ $check{$_} ++; if($check{$_}==1){push @out ,"$_";} } } close IN; } open OUT ,">out.txt" or die; while(<@out>){ print OUT "$_。$check{$_} "; } close OUT; __END__ 使い方(Bashより)、Windowsの場合 > かな $ perl split.pl ssample.txt sample2.txt と、処理するファイルを幾つでも続けて書く。 [結果] あいうえお。4 かきくけこ。2 さしすせそ。2 たちつてと。2 らりるれろ。2 なにぬねの。1 ぱぴぷぺぽ。1 ★ポイントは、引数は@ARGVという環境変数に格納されるということ。 Bashシェルからの操作だが、Windowsだと一行目はいらないと思う。

Tacosan · Answer

や, だから #2 と「標準入力から読み込む」を組合せるだけ, なんだけど.... 基本はハッシュかな? 例えば
my %count;
my @keys;
while (<>) {
chomp;
while (/[^。]*。/g) {
push @keys, $& unless $count{$&}++;
}
}
for my $key (@keys) {
print "$key $count{$key}
";
}
みたいな感じ?

ORUKA1951 · Answer

ごく普通に・・

$line="あいうえお。かきくけこ。さしすせそ。たちつてと。あいうえお。";
split /。/,$line;
while(<@_>){
$check{$_} ++;
if($check{$_}==1){push @out ,"$_";}
}
while(<@out>){
print "$_。$check{$_}\n";
}

ssk38 · Answer

「。」は消えちゃうけど。

while(<>){
my @lines = split(/。/);
for ($i=0; $i<@lines; $i++){
#なんか集計
#結果表示
  print "$lines[$i]
";
}
}

とすれば、。ごとに処理が行える。

整形したテキストの行を集計する方法

えぇと....

一部訂正

No.2 ORUKA1951です。

や, だから #2 と「標準入力から読み込む」を組合せるだけ, なんだけど.... 基本はハッシュかな? 例えば

ごく普通に・・

この回答への補足

「。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング