文字列置換のアルゴリズムを教えてください。（Windowsプログラミング）

Question

はじめまして。まだプログラミングを始めて間もない学生です。現在Windowsプログラミングを学習しています。学校で課題を出されたのですが、どうしても分からないので教えてください。ある50MB程のテキストファイルがあります。それにはたくさんの個人情報が含まれており、個人情報保護の観点から個人を特定できなくする必要があります。そこで、以下のように8桁の患者IDを"*"（アスタリスク）に置換をしなければならないのですが、その実現方法が分かりません。・"<受信歴>患者ID:"に続く0バイト目から8バイトを"*"に置換する。　例えば、「2005/01/01 09:00:00 <受診歴>患者ID:0000001234 内科受診」の行を「2005/01/01 09:00:00 <受診歴>患者ID:********** 内科受診」とする必要があります。ファイル内にはこのような該当箇所がたくさんあります。簡単なウィンドウを作り、そこに配置したボタンを押下することによって指定ファイルが読み込まれ、置換された新規ファイルが作成されるといった具合です。ご教授の程、よろしくお願い致します。 <環境> ・OS:Windows2000 ・開発環境：VC++ 6.0 ・できればWin32APIを用いて。標準関数を用いてもよい。

Oh-Orange · Accepted Answer

★？？？
・課題の仕様は分かりました。
＞そして、またまた追加で申し訳ないのですが、一行に同じタイプの置換該当箇所が二箇所以上あった場合、
＞現在のソースでは初めの一箇所しか置換できないと思うのですが、どのように修正することで解決できるでしょうか。
＞いろいろと試してはいるのですが、なかなか上手く行きません。
　↑
　処理のアルゴリズムを整理すべきです。
　ここがはっきりしていないと試行錯誤しても無意味です。時間が勿体無いです。
＞何だか一番に最初ご質問させて頂いたことよりどんどん要求が高くなってきてしまい、
＞申し訳ない気持ちであるのと同時に、自分能力では手に負えない領域に突入してしまった感がありますが、
＞最後まで頑張りたいと思います。
　↑
　回答No.1～No.11 までをよく読み、提示したソースがなぜそれで上手くいき、自力で作ったソースでは
　上手くいかなかったり、無駄に２回ファイルを読んでいたりするかを比較して下さい。
　よく読み理解すれば二箇所以上の置換も自力で解決できるはずです。
　決して手に負えない領域に突入してはいないはずです。
＞P.S. 全角アスタリスクへの置換、上手くできました。紹介していただいた関数のサンプルは、
＞今からじっくり読んで理解したいと思います。
＞ありがとうございました。
　↑
　応援します。頑張って下さい。
　上手く出来たらソースを見せてくれると嬉しいです。
　それではこれが最後のアドバイスとなることを祈っています。
・以上。

Oh-Orange · Answer

★アドバイス
＞大変申し訳ないのですが、患者氏名の方は全角のアスタリスク("＊")で置き換えたいのです。
　↑
　全角なら次のようにすれば良い。
　
　// 患者氏名の検索＆書き換え
　if ( (find = strstr(buff,search2)) != NULL ){
　　for ( find += strlen(search2)+1, i = 0 ; i < 10 ; i++ ){
　　　memcpy( find, "＊", 2 );　←ここで氏名を(＊)文字に書き換え
　　　find += 2;
　　}
　}
＞そして、実際に名前が入力されている部分だけを置換できる方法があれば、そちらの方法も教えていただけると幸いです。
　↑
　名前部分以外が空白文字ならば
　
　// 患者氏名の検索＆書き換え
　if ( (find = strstr(buff,search2)) != NULL ){
　　for ( find += strlen(search2)+1, i = 0 ; i < 10 ; i++ ){
　　　if ( isspace(*find) ){　←空白文字なら抜ける
　　　　break;
　　　}
　　　// 名前部分のみ書き換えるため
　　　memcpy( find, "＊", 2 );
　　　find += 2;
　　}
　}
＞追加で申し訳ないのですが、buffのサイズを256バイトで固定ではなく、一行の文字数によって動的に確保したいときは
＞どうすればよいのでしょうか。
　↑
　これはなぜですか？
　この場合は固定バイト(256)の配列に改行コードが現れるまで数回に分けて取得して行きます。
　そして、malloc()、realloc() 関数で確保サイズを拡張しつつ固定バイトで読み取ったデータを
　コピーしていけば良いと思います。この辺のサンプルは回答 No.9 の sakusaker7 さんのように
　fgetc() 関数を使っても出来ますね。でも固定バイト(配列)で一括で fgets() した方が楽かな。
・下にそのサンプルの載せておきます。

サンプル:
char *fgets_alloc( FILE *fp )
{
　char buff[ 4096 ];　// 固定バッファ
　char *alloc;　// malloc()用ポインタ
　char *temp;　// realloc()用ポインタ
　long　tell;　// 読み込み前の位置
　long　size;　// 読み込んだサイズ
　long total;　// 読み込んだ総サイズ
　
　// 初期化
　alloc = NULL;
　total = 0;
　
　// 改行が現れるまで読み込む
　for ( tell = ftell(fp) ; fgets(buff,sizeof(buff),fp) != NULL ; tell = ftell(fp) ){
　　// 読み込んだサイズを算出
　　size = (ftell(fp) - tell);
　　
　　// メモリ確保/拡張
　　if ( alloc == NULL ){
　　　alloc = (char*)malloc( size + 1 );　// \0分も含む
　　}
　　else if ( (temp = realloc(alloc,total + size + 1)) != NULL ){
　　　alloc = temp;
　　}
　　else{
　　　free( alloc );
　　　alloc = NULL;
　　}
　　if ( alloc == NULL ){
　　　return NULL;　// メモリ不足(*1)
　　}
　　// メモリへ追加コピー
　　strcpy( &alloc[total], buff );
　　
　　// 改行のチェック
　　if ( buff[size - 1] == '
' ){
　　　return alloc;　// 改行が含まれる場合
　　}
　　// 確保バッファのサイズ加算
　　total += size;
　}
　return alloc;　// 改行が含まれなくても最後は返す(エラーまたは EOF なら NULL)
}

その他:
・上記のサンプルで改行が見つかるまで内部で繰り返してメモリに取得します。
　また、改行が１つも発見できなくてファイルの最後(EOF)に到達した場合は今までに
　読み込んだすべてのバッファにセットして返します。
　ファイルの最後(EOF)やエラーが発生すると NULL を返します。
・また malloc()、realloc() 関数でメモリが確保不足でも NULL を返す仕様になっています。
　このエラーをすべて区別するには feof(fp)、ferror(fp) で調べて両方とも 0 のときなら
　メモリ不足で NULL が返されたことになります。
・以上。

sakusaker7 · Answer

> 大変申し訳ないのですが、患者氏名の方は全角のアスタリスク("＊")で置き換えたいのです。

>そして、実際に名前が入力されている部分だけを置換できる方法があれば、
> そちらの方法も教えていただけると幸いです。

仕様が不明確な部分がありますがこういう結果が欲しい?

#include <stdio.h>
#include <string.h>

#define UPPERBYTE (0x81)
#define LOWERBYTE (0x40)
enum State {FIRSTNAME, GIVENNAME};

int
fill_with_fullwidthstar(unsigned char *str)
{
unsigned char *p = str;
enum State s = FIRSTNAME;
#define TARGETENTRY "患者氏名＝"

/* skip to head of name */
p = (unsigned char*)strstr((const char*)str, TARGETENTRY);
if (!p)
return 0;
else
p += sizeof TARGETENTRY - 1;

for (;;p+=2) {
if (!p[0] || !p[1])
break;
if (p[0] == UPPERBYTE && p[1] == LOWERBYTE && s == FIRSTNAME) {
//printf("-> GIVENNAME\n");
s = GIVENNAME;
//continue;
}
else if (p[0] == UPPERBYTE && p[1] == LOWERBYTE && s == GIVENNAME) {
//printf("-> break\n");
break;
}

p[0] = (unsigned char)'\x81'; p[1] = (unsigned char)'\x96';
}

return 0;
}

int
main()
{
unsigned char sampleline1[] = "患者ＩＤ＝12345678";
unsigned char sampleline2[] = "患者氏名＝山田　太郎　　　　　";

printf("before: %s\n", sampleline1);
fill_with_fullwidthstar(sampleline1);
printf("after: %s\n", sampleline1);

printf("before: %s\n", sampleline2);
fill_with_fullwidthstar(sampleline2);
printf("after: %s\n", sampleline2);

return 0;
}

実行結果:

before: '患者ＩＤ＝12345678'
after: '患者ＩＤ＝12345678'
before: '患者氏名＝山田　太郎　　　　　'
after: '患者氏名＝＊＊＊＊＊　　　　　'

そこかしこに判定が甘いところがありますので注意。

sakusaker7 · Answer

> buffのサイズを256バイトで固定ではなく、

> 一行の文字数によって動的に確保したいときは
> どうすればよいのでしょうか。

自前で一行取得の関数を作ってしまうとか。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#if DEBUG
#define INITBUFFERSIZE 16
#else
#define INITBUFFERSIZE 256
#endif
char *
myfgets(FILE *fp)
{
static char *mybuf = NULL;
static size_t bufsize = 0;

size_t idx;

if (mybuf == NULL) {
bufsize = 256;
mybuf = (char *)malloc(bufsize);
if (mybuf == NULL)
return NULL;
}
for (idx=0; ;) {
int ch;

if (idx>=bufsize-1) {
char *p;
p = realloc(mybuf, bufsize*2);
mybuf = p;
bufsize *= 2;
}

ch = fgetc(fp);

if (ch == EOF) {
if (idx==0)
return NULL;

break;
}

mybuf[idx++] = (char)ch;

if (ch == '\n')
break;

}
mybuf[idx] = '\0';

return mybuf;
}

#if DEBUG
int
main()
{
FILE *fp;
char *bufp;

fp = fopen("sampleinput.txt", "r");
while ((bufp = myfgets(fp)) != NULL) {
char *pos;
pos = strchr(bufp, '\n');
if (pos)
*pos = '\0';
printf("get linedata : '%s'\n", bufp);
}
return 0;
}
#endif

やっつけで作ったものですので、そこかしこに
修正すべき点がありますが参考になれば。
たとえば話を簡単にするため fgetcで一文字ずつ
ストリームからとってきていますが、
これは fread標準関数とかreadシステムコールを使って
読み込みはまとめてしまった方が良いでしょう。
fgetcでもその辺のことはやっていますけど。

Oh-Orange · Answer

★アドバイス
＞多分、数字の置換が終わった時点でバッファの先頭にポインタを戻さなければならないとは思うんですが、
＞その実現方法がわかりません。
　↑
　バッファの先頭に戻さなくても buff が先頭ですので strstr(buff,"検索文字列") と続けて
　検索すれば良いだけですけど。ポインタにバッファの先頭を戻すのなら find = buff; で可能。
＞ところで、またまた機能追加といいますか、今度は"患者氏名　＝"に続く名前の部分も"＊"（全角アスタリスク）で
＞置換しなければならなくなりました。
　↑
　機能追加なら前回のサンプルにもう一つ検索と書き換えの部分を機能追加すればよい。
　ファイルを２度読まなくても１行バッファを２回検索すればよい。そして書き換える。
・つまり、最初は『患者ID:』の部分を書き換えた後に『患者氏名=』を検索して書き換えるように
　続ければよい。→順番が逆でも１行バッファを２回先頭から検索するため問題ない。
・下に前回のサンプルに機能追加した内容を載せておきます。
　どう機能追加すべきか下のサンプルで分かるはずです。
　次にまた機能追加するときの参考にして下さい。

機能追加のサンプル:
char *search1 = "患者ID:";
char *search2 = "患者氏名=";
char *find;
int i;

while ( fgets(buff,sizeof(buff),fp) != NULL ){
　// 患者IDの検索＆書き換え
　if ( (find = strstr(buff,search1)) != NULL ){
　　for ( find += strlen(search1) ; isdigit(*find) ; find++ ){
　　　*find = '*';　←ここで数字を(＊)文字に書き換え
　　}
　}
　// 患者氏名の検索＆書き換え
　if ( (find = strstr(buff,search2)) != NULL ){
　　for ( find += strlen(search2)+1, i = 0 ; i < 20 ; i++ ){　←20バイトの固定ならこれでOK
　　　*find++ = '*';　←ここで氏名を(＊)文字に書き換え
　　}
　}
　fputs( buff, fo );　←書き出しはここ１つで良い
}

その他:
・ファイルを "r+" の読み書き両用で処理する前に入力用、出力用で動作確認しましょう。
　上記のサンプルを少し修正するだけで読み書き両用でオープンして書き換えの処理ができます。
　ただし、バッファ内容を書き出すときには fseek() 関数などで出力位置をちゃんと設定する
　必要があります。ここを忘れるとデータを壊します。読み書き両用での処理は参考書などで
　あまり触れないためか使いこなせていないプログラマーがいます。身近に。誰？
・以上。

Oh-Orange · Answer

★アドバイス
＞例えば、fgetc()関数などでは、ストリームからは読み込めますが文字列「line」からは読み込めませんよね・・・
＞バッファから一文字ずつ読み込んでいく関数があるのでしょうか。
　↑
　関数ではなくポインタで移動していけば良いと思います。
　もちろん関数にすることも出来ますが…。
　関数にすると下のようなものになります。
　// バッファから１文字取得(漢字非対応,シフトJIS版)
　int buff_getc( const char *buff[] )
　{
　　const char *head = *buff;
　　
　　if ( *head != '\0' ){
　　　*buff = (head + 1);
　　　return *head;
　　}
　　return EOF;
　}
　// 使い方
　char buff[ 256 ];
　char *seek;
　int ch;
　
　/* 行単位で処理 */
　while ( (seek = fgets(buff,sizeof(buff),fp)) != NULL ){
　　while ( (ch = buff_getc(&seek)) != EOF ){
　　　/* １文字ずつ処理 */
　　}
　　/* １行の終わり */
　}
＞これで目的の機能は実現できたのですが、仕様変更といいますか、今度は患者IDが10桁（最大10桁）と定まっておらず、
＞桁数に応じてその桁数だけ"*"に置換しなければならなくなりました。
　↑
　可変長なら isdigit() 関数で数字の部分だけ(＊)文字に書き換えるようにすれば楽です。
　下にそのサンプルを載せておきます。→あまり複雑に考えなくても良いと思います。

サンプル:
#include <ctype.h>　←ファイルの頭に追加。

// switch 文の一部
case ID_BUTTON:
{
　FILE *fp = fopen("置換前ファイル.txt","r");　←エラーチェックしましょう。
　FILE *fo = fopen("置換後ファイル.txt","w");　←同上
　char buff[ 256 ];
　char *find;
　
　while ( fgets(buff,sizeof(buff),fp) != NULL ){
　　if ( (find = strstr(buff,"患者ID:")) != NULL ){
　　　for ( find += 7 ; isdigit(*find) ; find++ ){
　　　　*find = '*';　←ここで数字を(＊)文字に書き換え
　　　}
　　}
　　fputs( buff, fo );
　}
　fclose( fo );
　fclose( fp );
　break;
}

その他:
＞ちなみに、課題とは関係ないことなのですが、ここのサイトでソースにインデントを付けて表示させるには、
＞どのようにすれば良いのでしょうか。
　↑
　全角の空白文字でインデントできます。
・以上。

sakusaker7 · Answer

fgets 等で一行ずつ取り出してくるときは、ファイルの大きさにもよりますが
内容すべてを一度にメモリに読み込んでくるということはしません。
この辺は細かい説明をしだすととても字数が足りないのではしょりますが、
fgetsを呼び出すことで何段階にも下請け関数やシステムコールが
呼び出されます。

最もハードウェアよりの処理ではディスクを管理するときの「セクタ」とか
「クラスタ」といった単位のブロックを基準に読み込んで行きます。
が、普通はそんなことは気にしないでいいです。

Oh-Orange · Answer

★アドバイス
＞ちなみに、ファイル（ＨＤＤ）アクセスは時間が掛かる処理のため、一度に全てバッファに読み込み、
＞そこから一行ずつ読み込んでいくという流れでいいのでしょうか？
　↑
　確かにそうですが setvbuf() 関数で入出力バッファを 4KB に設定すると巨大なバッファを確保して
　行単位で処理するのとあまり処理速度面で変化が無いようです。よって setvbuf() 関数で 4KB ～ 10KB
　の範囲でバッファを設定すればメモリの節約にもなります。速度面もそこそこです。
・あと CreateFileMapping() 関数でメモリマップドファイルを利用するとメモリにアクセスする感じで
　入出力関数を利用しないでよいため楽です。ちょうどポインタと同じ要領で文字列を書き換えたり、
　取得したり出来ます。ただし、文字列として扱うためにファイルサイズの後に１つの NULL 文字を書き込んで
　置かないとファイルの最後の境界の判定が面倒になります。NULL 文字を書き込んでおけばそれを見て
　ファイルの終わり EOF と出来ます。
・その他、GlobalAlloc() でも 50MB のメモリは確保できたりしますね。
　まぁ、とにかくいろいろと試して見て下さい。
　(1)char buff[ 256 ]; のバッファで fopen()、fgets() 関数で処理。
　(2)GlobalAlloc() 関数で巨大バッファをポインタで処理。
　(3)CreateFileMapping() 関数でメモリマップドファイルで処理。
　３つ試して速度など比較してみるのも面白いかもしれません。
・一番楽なのは (1) の方法だと思います。
　やはり高水準入出力関数ですので使いやすいです。
・以上。→下の『参考URL』もどうぞ。

参考URL：http://www.bohyoh.com/CandCPP/C/Library/setvbuf.html,http://homepage2.nifty.com/DSS/WinSys/Win/FileMapping.htm

sakusaker7 · Answer

> ちなみになんですが、mallocやcalloc等を用いて、読み込むバッファの領域を確保する必要などはないのでしょうか？

それはもちろん必須です。
一行読むのに十分な大きさの領域が必要です。
あらかじめ一番長い行でどのくらいなのかが
わかると楽なのですが、
学校の課題ということなので、適当な大きさ(2Kバイトとか4Kバイト)の配列を
あらかじめ宣言しておいてそれを使うというのでも
良いと思います。
問題の特記事項になにかあるのならそれに従うべきですが。

あと、50Mバイトくらいのファイルというのであれば、
ファイルの内容を丸々メモリにマッピングしてしまうというてもありでしょう。

CreateFileMapping
http://msdn.microsoft.com/library/ja/jpmemory/html/_win32_createfilemapping.asp?frame=true

この辺のAPIを使います。


> ・重ねての質問で申し訳ないのですが、やはり50MB程度のファイルを読み込むときは、
>GetFileSize→GlobalAlloc→GlobalLockと行った流れでは問題でしょうか？
>MSDNによると、VirtualAllocを使用したほうが良いとのことですが、引数の設定の仕方などがあまりよく分らないもので・・・

GlobalAllocはWin16時代から引きずってきたAPIなので
VirtulAllocとはHeapAllocなどの方がいいといえばそうなのですが、
決定的にまずい点があるというわけでもないので
とりあえずはそれでやってみてもいいんじゃないでしょうか。

あ、まさか実行するPCの実装メモリが128MBしかない
とかいう条件はないですよね?(笑)

Oh-Orange · Answer

★回答者 No.1 です。
・どうも寝ぼけていました。簡単なウインドウを…。って書いていますね。それじゃ GUI ですね。
＞C言語のランタイムライブラリを使用した方が効率が良いのであれば、そちらの使用も考えています。
　↑
　CreateFile、CloseHandle 関数よりも fopen、fclose の方が効率が良いと思います。
　それに行単位で処理するには API 関数は不便です。
　理由は行単位の処理を行う関数を用意する必要があるので。
　
＞重ねての質問で申し訳ないのですが、やはり50MB程度のファイルを読み込むときは、
＞GetFileSize→GlobalAlloc→GlobalLockと行った流れでは問題でしょうか？
　↑
　GlobalAlloc() 関数は低速でしかも
＞このヒープマネージャは、4MB 未満のメモリブロックを想定して設計されています。
　と MSDN マニュアルに載っているため 50 MB なら別の方法をとった方がよいかもしれません。
＞MSDNによると、VirtualAllocを使用したほうが良いとのことですが、引数の設定の仕方などがあまりよく分らないもので・・・
　↑
　VirtualAlloc を使っても良いですが、C 関数も使って良さそうなので fopen、fclose の利用を
　お勧めします。
・それでは簡単なアルゴリズムを紹介します。
　(1)fopen() 関数で "r+" の読み書き両用モードでオープンします。
　(2)ftell() 関数で現在の読み込み位置を取得しておきます。
　(3)fgets() 関数で行単位で文字列を取得します。
　(4)strstr() 関数で "<受診歴>患者ID:" の文字列を検索します。
　(5)見つかったら strstr() 関数で得たポインタ(文字列)に +15 してそこから 10 桁の数字を
　　『*』文字で書き換えます。見つからなかったら(2)の処理へジャンプ。
　(6)書き換えた文字列を出力します。このとき、fseek() 関数で書き込み位置を変更します。
　　変更する位置は (2) で取得した読み込み位置、つまり fgets() する前の位置に戻すわけです。
　(7)ファイルの終わりに到達したら fclose() 関数でクローズします。
　こんな感じになります。これで一度プログラムしてみて下さい。
・上手くいかない場合は、読み書き両用モードでオープンしないで読み込み用、書き込み用で
　オープンして処理すれば確実です。文字列の検索は strstr() 関数で十分でしょう。
　この読み込み用、書き込み用で処理する方法は回答者 No.2 さんを参考に。
・以上。

文字列置換のアルゴリズムを教えてください。（Windowsプログラミング）

★？？？

この回答への補足

★アドバイス

この回答への補足

> 大変申し訳ないのですが、患者氏名の方は全角のアスタリスク("＊")で置き換えたいのです。

この回答への補足

> buffのサイズを256バイトで固定ではなく、

★アドバイス

この回答への補足

★アドバイス

この回答への補足

fgets 等で一行ずつ取り出してくるときは、ファイルの大きさにもよりますが

この回答への補足

★アドバイス

この回答への補足

> ちなみになんですが、mallocやcalloc等を用いて、読み込むバッファの領域を確保する必要などはないのでしょうか？

★回答者 No.1 です。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング