3バイト文字(UTF-8)をprintfで等幅表示をするには？

Question

64BIT環境のLINUX、gcc で開発をしております。表題の件ですが、UTF-8 は3バイト文字が多いため、strlenの戻り値と、printf で表示したときの画面上の桁数が一致しません。そのため、下記のようなプログラムを実行すると >> int main() { char* s = "あいうえお"; printf("%20s ", s); return 0; } ... あいうえお << と、画面上で15桁で表示されます。つまり、文字列中のUTF-8の文字数分、表示幅がフィールド幅より短くなるわけです。現状、文字列中の UTF-8文字の数を数える関数を作成し、以下のように対処しております。 >> int strUTF8Count(const char* s) { int notAsciiCount = 0; while(*s++) { if (!isascii(*s)) ++notAsciiCount; } return notAsciiCount / 3; } int main() { char* s = "あいうえお"; printf("%*s ", 20 + strUTF8Count(s), s); return 0; } << これで、現状動いておりますが、strUTF8Count関数の作りが雑で、ascii でなければ UTF-8 と仮定しているし、UTF-8 であれば、3バイト文字と仮定してしまっています。 printf もかなりみづらいですし、何かもっとスマートな方法はないものでしょうか？ UTF-8 の扱いとしては一般的なものと思われますが、ネット上を検索しても有効な対処が見つかりませんでした。どなたかよい知恵をお持ちの方がいらっしゃいましたら、知恵を分けてくれるようお願いします。

Tacosan · Accepted Answer

UTF8 での, 各文字のバイト数の数え方:
0xxx xxxx の 8ビットなら 1バイト (ASCII と同じ値)
110x xxxx というバイトなら, 次は 10yy yyyy というバイトがあるはずで, この文字は 2バイト. UCS-4 としての値は xxxxx yyyyyy の 11ビット.
1110 xxxx というバイトならそのあとに 10yy yyyy 10zz zzzz というバイトがあって, 全体で 3バイト. UCS-4 としての値は xxxx yyyyyy zzzzzz の 20ビット. Unicode としてはここまで.
このようにして, 各文字のバイト数を調べながらポインタを進めれば何文字かがわかりますが, 表示する桁数としては実はわからなかったりします. surrogated pair とか combination mark とかがあると, 「表示する桁数」は表示するデバイスに依存しそう.

noboru2000 · Answer

もしや wprintf() で wchat_t * を引数にしても何も出ないということで悩んでます? もしそうならフォーマットを %s じゃなくて %ls でやってみましょう。(printf() でも同じことですが)

noboru2000 · Answer

固定サイズフォントでの表示カラム数を調べたいなら wcswidth() を使えばいいのでは?

Tacosan · Answer

ロケールが適切に設定されてれば mbtowc と wprintf.
そうでなければ UTF8 の「文字数」を数える. 最初のバイトを見れば, 「その文字が何バイトか」はわかる... んだけど, surrogated pair はどうします?

3バイト文字(UTF-8)をprintfで等幅表示をするには？

UTF8 での, 各文字のバイト数の数え方:

もしや wprintf() で wchat_t * を引数にしても何も出ないということで悩んでます? もしそうならフォーマットを %s じゃなくて %ls でやってみましょう。

固定サイズフォントでの表示カラム数を調べたいなら wcswidth() を使えばいいのでは?

ロケールが適切に設定されてれば mbtowc と wprintf.

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング