全角日本語について

Question

全角日本語はchar型を2つ連続で続けて出力しないといけませんよね。半角だと1バイトですむところを2バイト使っているわけですけど。半角と全角が入り混じったテキストから的確に1文字ずつ取り出すことは出来ないのでしょうか？(2バイトずつ取り出すと、半角のところで文字化けになってしまいますし、1バイトずつだと全角のところが文字ばけしますよね。)半角の時は、半角を、全角の時は全角をという風に。。。

　あと、全角の日本語を一文字として扱う型は何かないでしょうか。いつも、charの配列でchar[0],char[1]として使っているのですが。

ちなみに、windows98でBorlandのTurbo C++を使って、C言語で書いています。

なにとぞ、よろしくおねがいします。

pikacchu · Accepted Answer

混在文字列の処理は確かに面倒と言えば面倒ですが、私は以下のように処理していました。（最近、プログラムを作っていないので・・・）

　１．配列より取り出した１バイトを半角文字かどうか判断する。
　　　ライブラリのisascii()等を使用する。この辺りはコンパイラによる
　　　ところがありますので注意して下さい。

　２．１バイト文字であればそのまま出力し、そうでなければ該当の１バイト
　　　とその次の１バイトを出力する。

こう言った場合は、面倒ですが１バイトずつ判断して処理するしかないと思います。混在文字列の文字を１文字として扱いたいのであればUNICODEとかで扱えば可能だと思いますが、これは経験がないのであくまで参考として下さい。

上記はあくまで、表示可能な文字列のみの配列の扱いですので、制御コードとか全角でも表示できないコードとかは考慮していません。

yu-ji · Answer

ShiftJISでは半角は1文字1byte、
全角は1文字2byteになっていますね。
UNICODEを使えば半角も全角もどちらも
1文字2byteで扱えますので便利ですよ。
一回お試し下さい。
それば無理なら、
やはり半角か全角かを判定してくれるマクロか何かを作成して
一文字ずつ判定していくしかないでしょうね。

alfeim · Answer

ShiftJISでは漢字は2バイト文字のため、charではサイズが足りません。
WORD型やwchar_tであればサイズは足りるでしょうが、ASCII文字やいわゆる半角カナなどの1バイトで表現される文字と混合して扱うのが難しくなります。

可能であればUTF-16などの文字種(表現に使うバイト数が変化しないようなコード体系)に変換して扱えばよいと思います。

noname#25358 · Answer

シフトＪＩＳですよね。
　その場合は、その文字が全角かどうかは、数値の範囲によって決まっています。
　参考ＵＲＬのところに俺が以前使ったページを記載しておくので調べてみてください。
　で、読み込んだ文字が全角なら次の文字と一緒に出力するようにすればＯＫのはずです。

参考URL：http://www.hosibune.net/~mak/technical/kanji.shtml

selenity · Answer

TurboC++であるかどうかは不明ですが、
「wchar_t」で代用できませんか？

全角日本語について

混在文字列の処理は確かに面倒と言えば面倒ですが、私は以下のように処理していました。

ShiftJISでは半角は1文字1byte、

ShiftJISでは漢字は2バイト文字のため、charではサイズが足りません。

シフトＪＩＳですよね。

TurboC++であるかどうかは不明ですが、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　シフトＪＩＳですよね。