単語の出現頻度を調べるプログラム

Question

　ファイルからデータを読み込んで、単語の出現頻度を調べるプログラムを作ろうと考えて、下記のようなプログラムを書いてみました。 #include #include main() { struct data {char word[128]; int freq;} word_data[128]; char words[128]; char term[128]; int i=0; int nw=0; int j; char buff[128]; FILE *fp_in=fopen("data.txt","r"); while(fgets(fp_in,128,buff)!=EOF){ char buff[128]; int k; for(k=0;k<=128;k++){ printf("%s",buff); if(('A'<=buff[k] && buff[k]<='Z')||('a'<=buff[k] && buff[k]<='z')) term[i++]=buff[k]; else if(i>0) term[i]='\0';} for(j=0;j

wolv · Accepted Answer

各行に複数単語がある場合にも対応してみました。一部エラーチェックのコードも追加しました。 ------------------------------------------------- #include #include #define TRUE 1 #define FALSE 0 #define MAX_NWORDS 128 int isLetter(char c){ 　　if( ('A'<=c && c<='Z') ||('a'<=c && c<='z') ) { 　　　　return TRUE; 　　}else{ 　　　　return FALSE; 　　} } main() { 　　struct data { 　　　　char word[128]; 　　　　int freq; 　　} word_data[MAX_NWORDS]; 　　char term[128]; 　　int nw=0; 　　int i,j,k; 　　char buff[128]; 　　FILE *fp_in=fopen("data.txt","r"); 　　while(fgets(buff,128,fp_in)!=NULL){ 　　　　k=0; 　　　　while(buff[k]!=' '){ 　　　　　　while(! isLetter(buff[k]) && buff[k]!=' ') k++; 　　　　　　if(buff[k]==' ')break; 　　　　　　i=0; 　　　　　　while(isLetter(buff[k])) term[i++]=buff[k++]; 　　　　　　term[i]='\0'; 　　　　　　for(j=0;j

wolv · Answer

修正版。動作確認ずみ。 strcmpを使っている部分は２箇所ありますが、たぶん、２箇所めのstrcmpのみをこのstrcmp_dictorderに変更するのがよいと思います。（大文字、小文字の違いによって意味が違う単語もありますので。） int strcmp_dictorder(char*a,char*b){ int i; char ca,cb; for(i=0;i<=strlen(a);i++){ ca=a[i];if(ca>='a')ca-=32 ; cb=b[i];if(cb>='a')cb-=32 ; if(ca!=cb) return ca-cb; } for(i=0;i<=strlen(a);i++){ if (a[i]!=b[i]) return a[i]-b[i]; } return 0; }

wolv · Answer

以下のような関数を定義して、strcmpの代わりにつかってみてください。返り値の符号は逆のほうがいいかもしれません。結果を見て適当に直してください。動作確認はしていません。下の関数のa[i]でエラーがでるようなら、 a[i]を*(a+i)に変えてみてください。 int strcmp_dictorder(char*a,char*b){ int i; char ca,cb; for(i=0;i<=strlen(a);;i++){ ca=a[i];if(ca>='a')ca-=32 cb=b[i];if(cb>='a')cb-=32 if(cacb)return 1; else if (a[i]b[i])return 1; else ;/*compare next letter*/ } return 0; }

wolv · Answer

No3までを踏まえて動作するように書き換えてみました。制御構造も一部かえました。回答No2に示したようなdata.txtに対して動作確認ずみです。 ------------------------------------------------- #include #include main() { 　　struct data { 　　　　char word[128]; 　　　　int freq; 　　} word_data[128]; 　　char term[128]; 　　int i; 　　int nw=0; 　　int j; 　　char buff[128]; 　　FILE *fp_in=fopen("data.txt","r"); 　　　while(fgets(buff,128,fp_in)!=NULL){ 　　　　int k; 　　　　　i=0; 　　　　for(k=0;k<=128;k++){ 　　　　　　if( ('A'<=buff[k] && buff[k]<='Z')||('a'<=buff[k] && buff[k]<='z') ) { 　　　　　　　　term[i++]=buff[k]; 　　　　　　} else { 　　　　　　　　break; 　　　　　　} 　　　　} 　　　　if(i>0){ 　　　　　　term[i]='\0'; 　　　　　　for(j=0;j

wolv · Answer

・char buffの宣言が２箇所にあります。そのためファイルから読み込んだ文字列は、while文の内部で使われていません。

・fgetsの書式が違います。
fgets(buff,128,fp_in,128,buff)のはずです。

・fgetsの返すファイル終端をあらわす値はEOFではなくNULLです。

・結果表示部で、word_dat"e"[j]を表示しようとしています。

・結果は、各単語の情報を表示するように改行も出力したほうがよさそうです。

・char words[128]は使われていません。

wolv · Answer

・各行のはじめの単語しかチェックしない仕様のようですが、それでいいのでしょか？

・行のはじめの１文字がA-Za-zのいずれかでない場合、term[0]の値が不定になります。この状態でstrcmpを実行すると問題がある気がします。

（上の２点は、各行が１単語からなり、その単語は行の１カラム目から始まる、という場合は問題ありませんが...）

・すでに登録した単語と同じ単語を見つけたばあい、iの値を0にリセットせずに次の行を読み込んでいます。次の行の単語は、term中の前回の単語の後ろに連結されます。
(
たとえば、データファイルが

and
and
or

だった場合、orを読み込んだ時点でのtermは、"andor"になります。（他の部分の動作に問題がなかったとしても）
）

wolv · Answer

for(j=0;j<nw;j++){
のループの中に、
　if(j==nw) 
という条件式があります。"thenの部分"は実行されません。

単語の出現頻度を調べるプログラム

各行に複数単語がある場合にも対応してみました。

この回答への補足

修正版。

以下のような関数を定義して、strcmpの代わりにつかってみてください。

No3までを踏まえて動作するように書き換えてみました。

・char buffの宣言が２箇所にあります。

・各行のはじめの単語しかチェックしない仕様のようですが、それでいいのでしょか？

for(j=0;j<nw;j++){

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　for(j=0;j<nw;j++){