C言語でファイルをよんだあとの料理方法

Question

基本的に.NETしか知りませんので、C言語でAPIのReadFile使用して
ファイルを一気に全部バッファ読み込んだあと、
バッファから文字を一つずつ取り出すにはどうしたら
いいでしょうか？
Unicodeを使用することが前提で結構です。

なんか、根本的にわかってませんので。。。
よろしくお願いします。
C#とかなら、文字をインデックスで取得できますので、
C/C++となるとまったく、イメージできません。。。
ポインタを移動することで一バイトずつ操作することくらいは理解してます。

sha-girl · Accepted Answer

うーん。それはC言語の基礎ですが
C言語は文字列の終端に0をいれます。
buffer[wReadSize/sizeof(wchar_t)] = 0;
と同じことですか。
明示的にUNICODEのNULL文字 L'\0'としています。
別に文字列として扱わないなら必要ありません。

しかし今回は
MessageBox関数に使用する為、bufferを文字列として扱う必要がある為
NULL文字をいれました。
mallocでwReadSize + sizeof(wchar_t) としているのも
NULL文字をいれるため文字数+1文字しているのです。

どんな言語でもそうですが、文字列を扱うには２通りの方法があって
今回のように文字列の終端に終端を表すNULL文字をいれる仕組みと
最初に文字数があってその後ろに文字列がくる仕組みです。
でなければコンピューターはどこまでが文字列なのか判断出来ません。

>この部分ってUNICODEファイルを読むときで必ず必要でしょうか？
>保険のようものでしょうか？
つまりUNICODEかどうかは関係ありませんし保険でも無く
文字列として扱うなら必ず必要ということです。

sha-girl · Answer

HANDLE hFile = CreateFile( "text.txt", GENERIC_READ , 0 , NULL ,
OPEN_EXISTING , FILE_ATTRIBUTE_NORMAL , NULL);
DWORD wReadSize = GetFileSize(hFile , NULL);
wchar_t* buffer = (wchar_t*)malloc( wReadSize + sizeof(wchar_t) );
DWORD dw;
ReadFile( hFile , buffer , wReadSize , &dw , NULL );
buffer[wReadSize/sizeof(wchar_t)] = L'\0';
::MessageBox( NULL , buffer , L"test" , MB_OK );
free(buffer);
CloseHandle(hFile);

xcrOSgS2wY · Answer

開いているファイルのバイト数はいくつでしょうか。可能であれば、ファイル内の各バイトの値も教えてください。

プログラム内で使用している各変数に最終的に設定されている値と、ファイルを読み込んだ後のバッファ内の値はいくつでしょうか。（ハンドルの値、ポインタの値は不要です。）

xcrOSgS2wY · Answer

回答No.5の補足にあるコードですが、GetFileSizeが返す値は「バイト数」で、Unicode文字の文字数ではありません。ですので、Unicode文字の文字数を得るにはsizeof(wchat_t)で割ってください。（注：ヘッダ込みの値になります。）

sha-girl · Answer

何を悩んでいるのかわかりませんが、
例えばテキスト文書が1000文字なら
wchar_t buffer[1000];
とでも用意してください。
(wchar_tはワイド文字の型です。U
NICODEを宣言しているならTCHARでも同じです。)

BOOL ReadFile(
  HANDLE hFile,                // ファイルのハンドル
  LPVOID lpBuffer,             // データバッファ
  DWORD nNumberOfBytesToRead,  // 読み取り対象のバイト数
  LPDWORD lpNumberOfBytesRead, // 読み取ったバイト数
  LPOVERLAPPED lpOverlapped    // オーバーラップ構造体のバッファ
);
がReadFileの定義ですが

DWORD dw;
ReadFile( hFile , buffer , sizeof(wchar_t) * 1000 , &dw , NULL );
これで

buffer[1]・・・あ
buffer[2]・・・a
buffer[3]・・・b
buffer[4]・・・い
buffer[5]・・・c
・
・
・
とはいっているはずです。
ところでUNICODE-UCS2は全ては2バイトです。ですから半角とか全角とかは関係ありません。
まずメモ帳等でUNICODE形式を保存すればわかりますがテキストファイル
の最初にFF FE またはFE FFがつきます。これはLittleEndianかBigEndianの指標で
Windowsの標準はlittle endianです。
それを考慮してbuffer[0]からではなくbuffer[1]からにしています。

xcrOSgS2wY · Answer

読み込むファイルのエンコードはShift-JIS、UCS-2（いわゆるユニコード）、UTF-8、UTF-16のどれでしょうか。

参考：
http://www.atmarkit.co.jp/fxml/askxmlexpert/024utf/24utf.html

（マイクロソフトのCコンパイラを使うものと仮定します。）

Shift-JISの場合、2バイト文字の1バイト目であるかどうかは_ismbblead()関数で判定できます。_istlead()は_UNICODEが定義されている場合常にfalseを返すので、今回の場合おそらく使用できません。（_MBCSが定義されている場合_ismbblead()を返します。）

UCS-2（ユニコード）の場合、全角文字でも半角文字でも常に2バイトですから、1バイト目であるかどうかの判定は必要ありません。

UTF-8/16はよく知らないので省略します。

ttyp03 · Answer

＃２です。
例で書いたソースはあくまでもバイトごとに読み込むサンプルとして挙げただけですので、あとはご自分で作ってもらえればと思ったのですが・・・

とりあえずUnicodeの細かい処理は省いて（良くわからないので）１文字＝４バイトとした場合のソースを書いておきます。

単純に文字で表示させます。
for( i = 0; i < len; i+=4 ){
printf( "%.4s
", &p[i] );
}

一旦バッファに取り込むなら。
char w[5];
for( i = 0; i < len; i+=4 ){
strncpy( w, &p[i], 4 );
printf( "%s
", w );
}

こんなんでよろしいでしょうか？
的外れなら補足お願いします。

ttyp03 · Answer

例えば char* p に読み込んだとしたら、p[0] が０バイト目のデータです。
全データを１６進で表示するサンプルを書いておきます。
len は ReadFile の４番目の引数の値（読み込んだバイト数）と思ってください。

例：
for( i = 0; i < len; i++ ){
printf( "%02x
", p[i] );
}

もしくはポインタを使うならこうなります。

for( i = 0; i < len; i++, p++ ){
printf( "%02x
", *p );
}

6dou_rinne · Answer

ファイルの形式がどうなっているかにもよりますが、一文字ずつ取り出したいのならバッファから1バイトずつ配列にでもコピーすればいいのではないでしょうか。

C言語でファイルをよんだあとの料理方法

うーん。

HANDLE hFile = CreateFile( "text.txt", GENERIC_READ , 0 , NULL ,

開いているファイルのバイト数はいくつでしょうか。

この回答への補足

回答No.5の補足にあるコードですが、GetFileSizeが返す値は「バイト数」で、Unicode文字の文字数ではありません。

この回答への補足

何を悩んでいるのかわかりませんが、

この回答への補足

読み込むファイルのエンコードはShift-JIS、UCS-2（いわゆるユニコード）、UTF-8、UTF-16のどれでしょうか。

＃２です。

この回答への補足

例えば char* p に読み込んだとしたら、p[0] が０バイト目のデータです。

ファイルの形式がどうなっているかにもよりますが、一文字ずつ取り出したいのならバッファから1バイトずつ配列にでもコピーすればいいのではないでしょうか。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング