文字列変換のプログラムについて

Question

こんにちは。
C言語で以下のようなプログラムを作りたいと考えているのですが、うまく実装できず困っています。

入力ファイルには、【単語（ひらがな）＋Tab＋その読み（音素列）】が書かれているとします。
例：
あいうえお（Tab）a i u e o
かきくけこ（Tab）ka ki ku ke ko
・・・
（音素は半角空白で分けられているものとします）
このファイルを読み込んで、【単語（ひらがな）＋Tab＋単語（カタカナ）＋Tab＋その読み（音素列）】を別のファイルに書き込む　
例：
あいうえお（Tab）アイウエオ（Tab）a i u e o
かきくけこ（Tab）カキクケコ（Tab）ka ki ku ke ko
・・・
というプログラムを作りたいと考えています。

アルゴリズムとして、
(1) ファイルから1行読み込む
(2) Tab文字がくるまでの文字列を配列に保存（例でいう「あいうえお」の部分です）
(3) Tab文字の次の文字から行末までの文字列を配列に保存（例でいう「a i u e o」の部分です）
(4) (2)の1文字ずつをカタカナに変換（ASCIIコードの変換で可能？）
(5) (2)(3)(4)を用いて出力用ファイルに書きこむ
という流れを考えたのですが、(2)の部分でまず手こずっています。

#include<stdio.h>
main(){

FILE *fin;
FILE *fout;
char buff[200];
char word[200];
int i=0;

/*読み込み用ファイルを開く*/
fin = fopen("input.txt", "r");
if( fin == NULL ){
                printf( "File open error
" );
                return;
        }

/*書き込み用ファイルを開く*/
fout = fopen("output.txt", "w");
if( fout == NULL ){
                printf( "File open error
" );
                return;
        }

/*1行ずつ読み込む*/
/*読み込める間繰り返す*/
while(fgets(buff,200,fin) != NULL){
/*タブ文字がくるまで拾う*/
while(buff[i] != '	'){
                                       /*文字列を配列wordに保存*/
word[i] = buff[i];
i++;
}
                          /*保存できているかの確認*/
                          printf("%s",word);
fclose(fin);
fclose(fout);

}

実行後、wordの中身が表示されるのですが、
あいうえお,（文字化け）（文字化け）
というように、【,（文字化け）（文字化け）】という謎の文字がついてしまいます。
また、入力ファイルの中身が2行以上でも、
あいうえお,（文字化け）（文字化け）　あいうえお,（文字化け）（文字化け）・・・
というように、1行目の結果しか出てこないです。

どこを直せばいいのでしょうか？
（というかそもそもCよりPerlとかで作ったほうがもっと楽なのかもしれないですが・・・）
教えて頂けると助かります。よろしくお願いします。

chie65535 · Accepted Answer

#include<stdio.h>
void main(void){

FILE *fin;
FILE *fout;
char buff[200];
char *p1,*p2;

/*読み込み用ファイルを開く*/
fin = fopen("input.txt", "rt");
if( fin == NULL ){
printf( "File open error
" );
return;
}

/*書き込み用ファイルを開く*/
fout = fopen("output.txt", "wt");
if( fout == NULL ){
printf( "File open error
" );
return;
}

/*1行ずつ読み込む*/
/*読み込める間繰り返す*/
while(fgets(buff,200,fin) != NULL){
for (p1=buff;*p1;p1++)
if (*p1 == '	') {
*p1++ = '\0';
break;
}
/*保存できているかの確認*/
printf("%s	",buff);
fprintf(fout,"%s	",buff);
for (p2=buff;*p2;p2+=2) {
*(short *)p2 = *(short *)p2 + 41217;
if ((p2[1] < 0) || (p2[1] == 127)) p2[1]++;
}
printf("%s	%s
",buff,p1);
fprintf(fout,"%s	%s
",buff,p1);
}
fclose(fin);
fclose(fout);

}

chie65535 · Answer

＞のところで、for文の終了条件がなぜ*p1となるのかが分かりません。（ポインタが苦手なもので・・・）

C言語で「条件式において、非0は真、0は偽」です。

本当なら
for (p1=buff;*p1 != '\0';p1++) {
と書くべきですが、

条件式「*p1 != '\0'」は「0じゃないなら真、０なら偽」なので、条件式を「*p1」と書いても、結果は同じです。

＞ （結局if文でbreakするから何でもいいような気もしますが・・・）

だめですよ。もしタブ文字が来なかったら、forループが終了しません。

文字列を「先頭から末尾までポインタでループする時」は、常套的に
for (p1=buff;*p1;p1++) {
と言う書き方をします。「決まり文句」みたいなモノです。

＞また、 *p1++ = '\0';　について
＞>これはタブがあったら、タブの所に「文字列終端」を書き込んで「タブの次の位置をp1に覚える」と言う処理。
＞と説明してくださっていますが、つまり、タブの部分に文字列終端（\0）を上書き→p1を次の位置（最初の音素）にする　という処理を行っているということでしょうか？

そうです。タブがあった場所に文字列終端を書き込んでから、p1を１つ進めています。

＞2行目は文字コード分足してるのかな？と思うのですが、
＞ *(short *)p2 = *(short *)p2 + 41217;
カタカナとひらがながの文字コードを「shortの数値」として扱った場合、両者の「数値の差」が「41217」なので、その分を足しています。

＞3行目のif文と、
＞ if ((p2[1] < 0) || (p2[1] == 127)) p2[1]++;
差を足してカタカナにしたあと、シフトJISの文字コードの第２バイトが「127」か「負数」になった場合は、文字コードを１文字分「シフト(増加)」させる必要があります。

その「シフト(増加)分」を足しています。

これが「シフトJIS」が「シフトJIS」と呼ばれている所以(ゆえん)です。

＞for文の繰り返し条件でなぜ+2するのかが分からないです。
＞for (p2=buff;*p2;p2+=2) {

シフトJISの漢字コードは「２バイトで１文字」なので、「１文字づつループする為」に「２バイトづつ進めている」のです。

Tacosan · Answer

#6 の補足のところだけど....

for にしろ while にしろ, 与える条件は「終了条件」じゃなくて「継続条件」な. で, C の「条件」は「値が 0 なら偽, 0 でなければ真」だ.

まあ, Perl なら
use utf8;
use Encode;
while (<>) {
$_ = Encode::decode(ファイルの文字コード, $_);
chomp;
my ($word, $phonic) = split /	/;
my $w = $word =~ tr/ひらがなたち/カタカナたち/r;
print Encode::encode(文字コード, join("	", $word, $w, $phonic)), "
";
}
くらい (スクリプトの文字コードは UTF-8) でいいと思うんだけど.

Wr5 · Answer

>>printf("%d", '	');
>>してみては？
>結果「9」になりました。
>ASCIIの制御コードでしょうか・・・。

…タブのASCIIコードは9でしたな。
8だったのは…ゴミデータ？？

>>した後のbuffの中身をダンプしてみて下さい。
>FFFFFF82FFFFFFA0FFFFFF82FFFFFFA2FFFFFF82FFFFFFA4FFFFFF82FFFFFFA6FFFFFF82FFFFFFA809
>61206920752065206F0000000048FFFFFFAA220000000000FFFFFFC0FFFFFFFF11FFFFFF8001000000

for(i=0;i<sizeof(buff);i++) printf("%02X ", (unsigned int)buff[i]);
とすべきでしたか……。

>16進数の何かでしょうか・・・？

読み込んだ文字列のコードです。
Shift-JISですかね。
途中に00が出力されている場所が'\0'になります。
# それ以降のデータは「文字列」としては無視される。

chie65535 · Answer

訂正と解説。

printf("%s	%s
",buff,p1);
fprintf(fout,"%s	%s
",buff,p1);

の２行は

printf("%s	%s",buff,p1);
fprintf(fout,"%s	%s",buff,p1);

に変更して下さい。

for (p1=buff;*p1;p1++)
if (*p1 == '	') {
*p1++ = '\0';
break;
}

これはタブがあったら、タブの所に「文字列終端」を書き込んで「タブの次の位置をp1に覚える」と言う処理。

こうすると

printf("%s	",buff);
fprintf(fout,"%s	",buff);

で「あいうえお＜タブ＞」を出力できる。

buffは

あいうえお ＋ EOS + a i u e o ＋ 改行 ＋ EOS

になっていて、p1は「a」の位置を示している。

for (p2=buff;*p2;p2+=2) {
*(short *)p2 = *(short *)p2 + 41217;
if ((p2[1] < 0) || (p2[1] == 127)) p2[1]++;
}

は「ひらがなをカタカナに直に変換」している（文字コードは「シフトJIS」を想定している）

元のひらがなは、既にprintf、fprintfで出力済みなので「ひらがなを直接書き換えてカタカナにしてしまう」事が可能なのだ。

その後で

printf("%s	%s",buff,p1);
fprintf(fout,"%s	%s",buff,p1);

により「カタカナ＜タブ＞音素列＜改行＞」を出力している（p1の末尾には改行が入っているので、明示的な改行はしない）

その結果、

あいうえおa i u e o
かきくけこka ki ku ke ko
さしすせそsa si su se so
たちつてとta ti tu te to
なにぬねのna ni nu ne no
はひふへほha hi hu he ho
まみむめもma mi mu me mo
やゆよya yu yo
わをんwa wo n

の入力が

あいうえおアイウエオa i u e o
かきくけこカキクケコka ki ku ke ko
さしすせそサシスセソsa si su se so
たちつてとタチツテトta ti tu te to
なにぬねのナニヌネノna ni nu ne no
はひふへほハヒフヘホha hi hu he ho
まみむめもマミムメモma mi mu me mo
やゆよヤユヨya yu yo
わをんワヲンwa wo n

となります。

Wr5 · Answer

>この「8」が意味していることはいったい何なのでしょうか・・・。

printf("%d", '	');
してみては？

Wr5 · Answer

アクセス違反でふっとんでもいいコード…ですかねぇ。

>てことはもしや取り出した1行は
>あいうえお（文字列）+$0+Tab+a i u e o（文字列）+$0+（文末）
>という構成になっているのでしょうか？

fgets(buff,200,fin)
した後のbuffの中身をダンプしてみて下さい。
for(i=0;i<sizeof(buff);i++) printf("%02X ", buff[i]);
みたいな感じで。

で……
>/*保存できているかの確認*/
>printf("%s",word);

の時点で'\0'で終端しているか確認して下さい。
# ダンプについては上記のような処理で。

>/*タブ文字がくるまで拾う*/
が開始される時点でのiの値にも注意…でしょうね。

で……
{と}の対応が取れていますか？
# 現状掲示されているコードだと、1行目読み込んだ後ファイルクローズしています。
# ので、その次の読み込みで吹っ飛びかねませんが。
# というかmain()閉じていないからコンパイルできない。

akubi_m · Answer

fgets()する前のbufとword[i] = buff[i];する前のwordをprintf()してみてください。
何か分かりませんか？

Tacosan · Answer

C の「お約束」です: 「文字列」の最後には, 何がありますか?

もちろん最後に書かれているように Perl などで作る方が「はるかに」楽.

文字列変換のプログラムについて

＞のところで、for文の終了条件がなぜ*p1となるのかが分かりません。

#6 の補足のところだけど....

>>printf("%d", '\t');

この回答への補足

訂正と解説。

この回答への補足

#include<stdio.h>

>この「8」が意味していることはいったい何なのでしょうか・・・。

この回答への補足

アクセス違反でふっとんでもいいコード…ですかねぇ。

この回答への補足

fgets()する前のbufとword[i] = buff[i];する前のwordをprintf()してみてください。

この回答への補足

C の「お約束」です: 「文字列」の最後には, 何がありますか?

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング