
64BIT環境のLINUX、gcc で開発をしております。
表題の件ですが、UTF-8 は3バイト文字が多いため、strlenの戻り値と、printf で表示したときの画面上の桁数が一致しません。
そのため、下記のようなプログラムを実行すると
>>
int main() {
char* s = "あいうえお";
printf("%20s\n", s);
return 0;
}
...
あいうえお
<<
と、画面上で15桁で表示されます。
つまり、文字列中のUTF-8の文字数分、表示幅がフィールド幅より短くなるわけです。
現状、文字列中の UTF-8文字の数を数える関数を作成し、以下のように対処しております。
>>
int strUTF8Count(const char* s) {
int notAsciiCount = 0;
while(*s++) {
if (!isascii(*s)) ++notAsciiCount;
}
return notAsciiCount / 3;
}
int main() {
char* s = "あいうえお";
printf("%*s\n", 20 + strUTF8Count(s), s);
return 0;
}
<<
これで、現状動いておりますが、strUTF8Count関数の作りが雑で、ascii でなければ UTF-8 と仮定しているし、UTF-8 であれば、3バイト文字と仮定してしまっています。
printf もかなりみづらいですし、何かもっとスマートな方法はないものでしょうか?
UTF-8 の扱いとしては一般的なものと思われますが、ネット上を検索しても有効な対処が見つかりませんでした。
どなたかよい知恵をお持ちの方がいらっしゃいましたら、知恵を分けてくれるようお願いします。
No.2ベストアンサー
- 回答日時:
UTF8 での, 各文字のバイト数の数え方:
0xxx xxxx の 8ビットなら 1バイト (ASCII と同じ値)
110x xxxx というバイトなら, 次は 10yy yyyy というバイトがあるはずで, この文字は 2バイト. UCS-4 としての値は xxxxx yyyyyy の 11ビット.
1110 xxxx というバイトならそのあとに 10yy yyyy 10zz zzzz というバイトがあって, 全体で 3バイト. UCS-4 としての値は xxxx yyyyyy zzzzzz の 20ビット. Unicode としてはここまで.
このようにして, 各文字のバイト数を調べながらポインタを進めれば何文字かがわかりますが, 表示する桁数としては実はわからなかったりします. surrogated pair とか combination mark とかがあると, 「表示する桁数」は表示するデバイスに依存しそう.
No.4
- 回答日時:
もしや wprintf() で wchat_t * を引数にしても何も出ないということで悩んでます? もしそうならフォーマットを %s じゃなくて %ls でやってみましょう。
(printf() でも同じことですが)No.1
- 回答日時:
ロケールが適切に設定されてれば mbtowc と wprintf.
そうでなければ UTF8 の「文字数」を数える. 最初のバイトを見れば, 「その文字が何バイトか」はわかる... んだけど, surrogated pair はどうします?
この回答への補足
>>
setlocale(LC_CTYPE, "");
printf("CODESET is UTF-8? = %d\n", strcmp(nl_langinfo(CODESET), "UTF-8") == 0);
char* s = "あいうえお";
wchar_t wcs[BUFSIZ];
mbtowcs(wcs, s, BUFSIZ);
wprintf(L"%s\n", wcs);
<<
でやってみましたが、表示されませんでした。
「文字数」の数え方ですが、UTF-8とASCIIが混ざって入っている文字列中から、UTF-8文字の最初のバイトのバイトはどのように探したらよいかわかりません。
また
http://ash.jp/code/unitbl21.htm
とかを見ても、1バイト目の値は文字により様々で、どのような値が文字数になるのか、法則はあるのでしょうか?
ここで言う「文字数」とは、そのUTF-8がデータ上何バイト使用しているかという意味ですか?
それとも、画面に出力したときの桁数でしょうか?
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- C言語・C++・C# c言語 プログラムのエラー 1 2023/02/11 20:31
- C言語・C++・C# プログラミングの授業の課題です 1 2023/01/17 22:15
- C言語・C++・C# 宣言する関数の形が決まっている状態で、 str1とstr2の文字列をこの順に引っ付けてstrに保存し 2 2022/05/30 18:21
- C言語・C++・C# C言語のエラーについて 2 2022/07/11 13:56
- C言語・C++・C# Cのdoubleの浮動小数点表示について 3 2023/04/17 13:14
- C言語・C++・C# c言語配列の結合についてです。 なぜうまくいかないのでしょうか。 #include <stdio.h 4 2022/05/30 22:42
- C言語・C++・C# str[j++]の意味 2 2022/08/30 16:20
- C言語・C++・C# c言語でユーザ関数を利用して入力された文字列を反転させるプログラムを作りたいです。 3 2023/01/29 19:47
- C言語・C++・C# このプログラミング誰か教えてくれませんか 1 2022/06/02 15:27
- C言語・C++・C# カードシャッフルのブログラムを使ってc言語でブラックジャックをしたい 2 2022/04/12 15:13
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
テキストBOXの入力制限について
-
UTF-8で5~6バイトになる文字コ...
-
URLは最高何文字まで可能なので...
-
varchar(M)のMは文字数ですかバ...
-
jis x 0208 について
-
この関数はどのプログラミング...
-
VB6とSQL Serverの桁の扱い方に...
-
全角半角を調べるライブラリ関...
-
バイト列とバイナリ列の違いが...
-
文字列の最後の一字を削除
-
COBOLのCOMP形式について
-
文字コードの利点・欠点について
-
fortranで、C言語のsizeof関数...
-
Javaで日本語1文字のバイト数
-
Visual Basicでパック10進(2進...
-
「1TB」のHDDに日本語は何字入...
-
2バイト文字の判定はString#get...
-
【VB2005】テキストボックス内...
-
10Mバイトて文字数に すると何...
-
VBSでテキストファイルの文字列...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
UTF-8で5~6バイトになる文字コ...
-
10Mバイトて文字数に すると何...
-
COBOLのCOMP形式について
-
char str[256]の256の意味は?
-
エクセルシート名の制限を変更...
-
バイト列とバイナリ列の違いが...
-
VBAでShift-JISのURLエンコード
-
機種依存文字をチェックしたい。
-
ピクセル,dpiから容量(バイト...
-
GetWindowTextでアドレスバーか...
-
この関数はどのプログラミング...
-
ソケット通信の受信サイズ
-
:(コロン)のKeyCode
-
COBOL PICTUREで X,S,Vの意味
-
memcmp バイナリデータの比較方法
-
より高速な画像の表示法
-
半角、全角の判別方法
-
最大長を用意せずにバイナリデ...
-
64bit対応
-
バイナリとBCDコード
おすすめ情報