文字数順にソートするには

解決済

質問者：_--_--_-_-
質問日時：2008/11/20 18:05
回答数：3件

テキストファイルの行を文字数順にソートしたいのですが、
sort コマンドを使って行うことはできないのでしょうか？
$ perl -e 'print for sort { length $a <=> length $b } <>' foo.txt
でもいいのですが、行数が膨大なため、できるだけ早く処理したいと思っています。
もし何か方法がありましたら教えてください。お願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.3ベストアンサー

回答者： notnot
回答日時：2008/11/21 22:32

考え方としては、長さと行データをペアにしたデータを作って、それを長さをキーにしてソート。

その後で長さ部分を削除。

簡単に書くなら、Rubyならそのあたりを自動的にやってくれます。
ruby -e 'puts $stdin.readlines.sort_by{|x|x.length}' < foo.txt >bar.txt

- 0
- 件

通報する

この回答へのお礼

大変参考になりました。
これで道が開けました。
やってみます。ありがとうございます。

通報する

お礼日時：2008/11/25 19:53

No.2

回答者： Tacosan
回答日時：2008/11/21 12:52

どのくらいの行数を想定していてどのくらいの速度が欲しいのでしょうか?

例えば, そのスクリプトだと比較のたびに文字数を調べてますが, 「各行の文字数を調べる」という処理は 1回で十分です. そうすると, ちょっとは速くなるかもしれない.
いずれにしても本質的に処理は現在と変わらないんだけどね.

この回答への補足

10億行4GiB程度で、最悪の場合でも丸1日以内に終わらせられるような方法を考えています。
ANo.3さんの方法を使ってみたいと思います。
ありがとうございました。

補足日時：2008/11/25 19:50

通報する

- 0
- 件

通報する

No.1

回答者： astronaut
回答日時：2008/11/21 12:05

速度がクリティカルなら、専用のフィルタを作ればいいのでは？

正味３０行ぐらいの簡単なサンプルコードを示します。

＃こういうの出しておけば、もっとプロな方が、よりよいコードを書いてくれたりして・・・

---------------------------------------
/* mysort.c */
#include <stdio.h>
#include <string.h>
#include <stdlib.h>

#define MAXCHARS 256
#define MAXLINES 1048576

typedef struct _indata_{
int n;
char line[MAXCHARS];
} indata;

int comp(const void *a, const void *b){
return(((indata *)b)->n - ((indata *)a)->n);
}

int main(void){
int i=0;
indata *buf;

buf = (indata *) malloc(MAXLINES*sizeof(indata));

while(!feof(stdin)){
if (fgets(buf[i].line, MAXCHARS, stdin)==NULL) break;
buf[i].n = strlen(buf[i].line);
i++;
}

qsort(buf, i, sizeof(indata), comp);
for (;i>0;i--){
printf(buf[i].line);
}

return 0;
}
---------------------------------------

$ make mysort
$ cat foo.txt | ./mysort