C++で指定文字列のカウント方法（テキストマイニング）

Question

大学でC++ builder を使った授業を受けておりましたが、いつも早く終わっていた（教科書を写すだけなのでタイピングが早ければすぐ終わる）のをC++が得意と勘違いされ、試験を免除する代わりにテキストマイニングに関連するソフトを作るという課題を言い渡されました。 
テキストマイニングの意味は大体理解し、掲示板などからとってきたテキストデータの中にある「美味しい」と「不味い」の文字列の個数を数え上げるプログラムを作ろうと考えていますが、やり方が全くわかりません。授業では「学生のためのC++builder」という主に数値計算を扱った教科書の例題を実行するというもので、テキストデータの扱い方はほぼまったくしていません。
今までにやった中でファイルを扱ったようなものとしては
void __fastcall TForm1::Button1Click(TObject *Sender)
{
 OpenDialog1->Execute();

 //入力ファイル用ストリームのオブジェクト（fin）を生成する
 ifstream fin;

 fin.open(OpenDialog1->FileName.c_str());

 //エラー対策
 if(!fin){
     ShowMessage("ファイルのオープンに失敗しました！！");
     exit(1);
 }

 double sintyo;
 char name[20];

 //ファイルから氏名、身長データを読み込む
 fin>>name>>sintyo;
 while(!fin.eof()){
     StringGrid1->Cells[0][n]=(String)name;
     StringGrid1->Cells[1][n]=FormatFloat("###0.0",sintyo);
     data[n]=sintyo;
     n++;
     fin>>name>>sintyo;
 }
 fin.close();
}
だけであり、それを元にして改良するということができそうにありません。
最初からチェックしていって、「美味い」など指定文字列があればｄに１を加えるなど、アルゴリズムを考えること自体はできるとは思います。
しかも期限は一週間となっています。
どなたか方法をお教えいただけませんでしょうか。

Directxq · Accepted Answer

完全に答えですけどプログラム作ってみました。 ***実行前に行う事*** 実行ファイルと同じフォルダに test.txt というファイルを置いてください。これは検索の対象となる文章を書いたファイルです。よくわからない場合は以下の手順にそって行ってください。まず「Ｃ言語入門。Ｃ言語について学んでいます。」と書いて test.txt という名前で保存。(保存する場所は実行ファイルと同じフォルダ) 以下のプログラムをコンパイル #include #include #define BUFFER_SIZE 10000 char string[BUFFER_SIZE]; void kensaku(void){ 　　struct s{ 　　　　char st[100]; 　　　　int counter; 　　}; 　　struct s string2[100]; 　　int i=0,j=0,n,count=0,h_count=0; 　　char string3[100]; 　　printf("検索終了を示す文章を入力してください。(この文章は検索出来ません) "); 　　scanf("%s",&string3); 　　printf("設定完了。検索終了時には「%s」と入力してください。 ",string3); 　　while(1){ 　　　　printf(" ********************************************* "); 　　　　printf("検索したい文章は？(終了は「%s」と入力) ",string3); 　　　　scanf("%s",&string2[h_count].st); 　　　　if(strcmp(string2[h_count].st,string3)==0) 　　　　　　break; 　　　　n = strlen(string2[h_count].st); 　　　　while(string[i]!='\0'){ 　　　　　　if(string[i]==string2[h_count].st[j]){ 　　　　　　　　j++; 　　　　　　　　if(j==n) 　　　　　　　　　　count++; 　　　　　　} 　　　　　　else{ 　　　　　　　　j=0; 　　　　　　} 　　　　　　i++; 　　　　} 　　　　printf("「%s」の検索ヒット数[%d]回 ",string2[h_count].st,count); 　　　　string2[h_count].counter=count; 　　　　h_count++; i=0; count=0; 　　} 　　printf("検索終了 "); 　　i=0; 　　while(i

KoHal · Answer

BorlandC++Builderを使ってるならAnsiStringを使うという選択肢もありますね。

int SearchWordInString( const AnsiString& src, const AnsiString& word )
//srcからwordを検索しその数を返す
{
　int count = 0, at = 0, len = word.Length();
　while ( int pos = AnsiString(src.c_str()+at).AnsiPos(word) )
　{
　　++count;
　　at += pos-1+len; //AnsiString::AnsiPosは１始まり
　}
　return count;
}

//呼び出し関数（どこかのイベントハンドラ）内で

　String word1 = "美味しい", word2 = "不味い"; //TEditあたりで取得可
　TStringList* list = new TStringList;
　list->LoadFromFile( "sorce.txt" ); //ファイル名はTOpenDialogで取得可
　int count1 = SearchWordInString( list->Text, word1 );
　int count2 = SearchWordInString( list->Text, word2 );
　ShowMessage( word1 + "の検索結果：" + count1 );
　ShowMessage( word2 + "の検索結果：" + count2 );
　delete list;

C++で文字列を扱う場合、複数の選択肢があります。
　１．Cで標準的なchar*を使う　　  No.3の方の回答
　２．C++標準ライブラリのstd::stringを使う　　  No.2の方の回答
　３．開発環境独自の文字列オブジェクトを使う
　　　BorlandC++Builderの場合、これがAnisString(String)

C++でプログラミングをする以上、２．か３．で考えるべきです。
１．も扱えるように勉強したほうが良いのですが１週間の期限内では無理でしょう。
２．３．にせよ１週間で全てをマスターすることは土台無理がありますから、とりあえずはテキストマイニングを実装する上で必要な機能だけを理解するしかないでしょう。

おそらく初心者にとって楽なのは３．
しかしC++標準ライブラリの使い方がある程度身についているのなら２．の方が効率的なコードが書けると思います。
この辺はご自分で判断してください。

あとは分からないことがあれば
「このライブラリを使って、このような文字列に対してこのような操作をしたい。どうすればよいか？」
と具体的に質問してください。
文字列操作について１から１０まで全てレクチャーするのは回答者側としても不可能です。

Directxq · Answer

↓下にプログラムを投稿した者です。文字列の扱いやファイルオープンなど基本的な事も難しいようですので、１から説明していきますね。投稿は下の投稿から先にお読みください。 #include #include //BUFFER_SIZEはただの定義で書かなくても直接かいてもＯＫ #define BUFFER_SIZE 10000 char string[BUFFER_SIZE]; //検索するための関数です。 void kensaku(void){ //構造体を使っています。もしも構造体についてわからなければ別に聞いてください。　　struct s{ 　　　　char st[100]; 　　　　int counter; 　　}; 　　struct s string2[100]; 　　int i=0,j=0,n,count=0,h_count=0; 　　char string3[100]; 　　printf("検索終了を示す文章を入力してください。(この文章は検索出来ません) "); //検索終了を示すキーワードを格納　　scanf("%s",&string3); 　　printf("設定完了。検索終了時には「%s」と入力してください。 ",string3); 　　while(1){ 　　　　printf(" ********************************************* "); 　　　　printf("検索したい文章は？(終了は「%s」と入力) ",string3); //検索する言葉を格納　　　　scanf("%s",&string2[h_count].st); //入力された言葉が検索終了のキーワードと同じなら終了　　　　if(strcmp(string2[h_count].st,string3)==0) 　　　　　　break; //検索する言葉の文字列の長さを調べる　　　　n = strlen(string2[h_count].st); //検索対象が終わりになるまで調べる　　　　while(string[i]!='\0'){ //検索対象の中に検索する言葉と同じデータがあれば　　　　　　if(string[i]==string2[h_count].st[j]){ 　　　　　　　　j++; 　　　　　　　　if(j==n) //もしも検索する言葉と同じながさだけデータが一致すれば検索する言葉があったことを示すためカウントする　　　　　　　　　　count++; 　　　　　　} 　　　　　　else{ 　　　　　　　　j=0; 　　　　　　} 　　　　　　i++; 　　　　} 　　　　printf("「%s」の検索ヒット数[%d]回 ",string2[h_count].st,count); //検索ヒット数がいくらあったか構造体に格納　　　　string2[h_count].counter=count; //初期化　　　　h_count++; i=0; count=0; 　　} 　　printf("検索終了 "); 　　i=0; //検索結果を一覧表に表示　　while(i

episteme · Answer

# そのまま提出しても質問攻めを喰らうでしょう

/*
* 標準入力から得られた文字列から
* "美味しい"と"不味い"を検索し
* それぞれの個数を出力する
*/

#include <string>
#include <iostream>
#include <sstream>

int count_str(const std::string& source, const std::string& target) {
　std::string src(source);
　int result = 0;
　std::string::size_type pos;
　while ( (pos = src.find(target)) != std::string::npos ) {
　　++result;
　　src.erase(0, pos+target.size());
　}
　return result;
}

int main() {
　std::ostringstream ostream;
　ostream << std::cin.rdbuf();
　std::string source = ostream.str();

　std::string target;
　target = "美味しい";
　std::cout << "contains " << count_str(source, target) << " of " << target << std::endl;
　target = "不味い";
　std::cout << "contains " << count_str(source, target) << " of " << target << std::endl;
}

sekidoutyokka · Answer

Cが専門なのでC++はあまり分からないのですが、
ヒントになるのであればと思ってアドバイスさせていただきます。

「最初からチェックしていって・・・」というのはできるということなので、それを前提に進めます。

要は最初からチェックしてく方法と同じ事を各変数毎にやればいいのです。

サンプルだと
fin>>name>>sintyo;の後に比較すればいいかと思います。

ただ、サンプルのやり方だと掲示板データの様な固定長でないものでも大丈夫なのでしょうか？（前述したとおり、私はC++がわからないのです・・・）
各項目が固定長でないとダメな気がします。

ダメなのなら、「最初からチェックしていって・・・」のやり方でやるか、デリミタ（区切り文字）を読み取って変数に格納して比較・・・とやらなければいけません。

ネットで「C++　ファイル操作」「C++　文字列比較」で検索すればサンプルが沢山出てくると思います。

C++で指定文字列のカウント方法（テキストマイニング）

完全に答えですけどプログラム作ってみました。

BorlandC++Builderを使ってるならAnsiStringを使うという選択肢もありますね。

↓下にプログラムを投稿した者です。

# そのまま提出しても質問攻めを喰らうでしょう

Cが専門なのでC++はあまり分からないのですが、

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング