![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?08b1c8b)
64BIT環境のLINUX、gcc で開発をしております。
表題の件ですが、UTF-8 は3バイト文字が多いため、strlenの戻り値と、printf で表示したときの画面上の桁数が一致しません。
そのため、下記のようなプログラムを実行すると
>>
int main() {
char* s = "あいうえお";
printf("%20s\n", s);
return 0;
}
...
あいうえお
<<
と、画面上で15桁で表示されます。
つまり、文字列中のUTF-8の文字数分、表示幅がフィールド幅より短くなるわけです。
現状、文字列中の UTF-8文字の数を数える関数を作成し、以下のように対処しております。
>>
int strUTF8Count(const char* s) {
int notAsciiCount = 0;
while(*s++) {
if (!isascii(*s)) ++notAsciiCount;
}
return notAsciiCount / 3;
}
int main() {
char* s = "あいうえお";
printf("%*s\n", 20 + strUTF8Count(s), s);
return 0;
}
<<
これで、現状動いておりますが、strUTF8Count関数の作りが雑で、ascii でなければ UTF-8 と仮定しているし、UTF-8 であれば、3バイト文字と仮定してしまっています。
printf もかなりみづらいですし、何かもっとスマートな方法はないものでしょうか?
UTF-8 の扱いとしては一般的なものと思われますが、ネット上を検索しても有効な対処が見つかりませんでした。
どなたかよい知恵をお持ちの方がいらっしゃいましたら、知恵を分けてくれるようお願いします。
No.2ベストアンサー
- 回答日時:
UTF8 での, 各文字のバイト数の数え方:
0xxx xxxx の 8ビットなら 1バイト (ASCII と同じ値)
110x xxxx というバイトなら, 次は 10yy yyyy というバイトがあるはずで, この文字は 2バイト. UCS-4 としての値は xxxxx yyyyyy の 11ビット.
1110 xxxx というバイトならそのあとに 10yy yyyy 10zz zzzz というバイトがあって, 全体で 3バイト. UCS-4 としての値は xxxx yyyyyy zzzzzz の 20ビット. Unicode としてはここまで.
このようにして, 各文字のバイト数を調べながらポインタを進めれば何文字かがわかりますが, 表示する桁数としては実はわからなかったりします. surrogated pair とか combination mark とかがあると, 「表示する桁数」は表示するデバイスに依存しそう.
No.4
- 回答日時:
もしや wprintf() で wchat_t * を引数にしても何も出ないということで悩んでます? もしそうならフォーマットを %s じゃなくて %ls でやってみましょう。
(printf() でも同じことですが)No.1
- 回答日時:
ロケールが適切に設定されてれば mbtowc と wprintf.
そうでなければ UTF8 の「文字数」を数える. 最初のバイトを見れば, 「その文字が何バイトか」はわかる... んだけど, surrogated pair はどうします?
この回答への補足
>>
setlocale(LC_CTYPE, "");
printf("CODESET is UTF-8? = %d\n", strcmp(nl_langinfo(CODESET), "UTF-8") == 0);
char* s = "あいうえお";
wchar_t wcs[BUFSIZ];
mbtowcs(wcs, s, BUFSIZ);
wprintf(L"%s\n", wcs);
<<
でやってみましたが、表示されませんでした。
「文字数」の数え方ですが、UTF-8とASCIIが混ざって入っている文字列中から、UTF-8文字の最初のバイトのバイトはどのように探したらよいかわかりません。
また
http://ash.jp/code/unitbl21.htm
とかを見ても、1バイト目の値は文字により様々で、どのような値が文字数になるのか、法則はあるのでしょうか?
ここで言う「文字数」とは、そのUTF-8がデータ上何バイト使用しているかという意味ですか?
それとも、画面に出力したときの桁数でしょうか?
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- C言語・C++・C# c言語 プログラムのエラー 1 2023/02/11 20:31
- C言語・C++・C# プログラミングの授業の課題です 1 2023/01/17 22:15
- C言語・C++・C# 宣言する関数の形が決まっている状態で、 str1とstr2の文字列をこの順に引っ付けてstrに保存し 2 2022/05/30 18:21
- C言語・C++・C# C言語のエラーについて 2 2022/07/11 13:56
- C言語・C++・C# Cのdoubleの浮動小数点表示について 3 2023/04/17 13:14
- C言語・C++・C# c言語配列の結合についてです。 なぜうまくいかないのでしょうか。 #include <stdio.h 4 2022/05/30 22:42
- C言語・C++・C# str[j++]の意味 2 2022/08/30 16:20
- C言語・C++・C# c言語でユーザ関数を利用して入力された文字列を反転させるプログラムを作りたいです。 3 2023/01/29 19:47
- C言語・C++・C# このプログラミング誰か教えてくれませんか 1 2022/06/02 15:27
- C言語・C++・C# カードシャッフルのブログラムを使ってc言語でブラックジャックをしたい 2 2022/04/12 15:13
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・思い出すきっかけは 音楽?におい?景色?
- ・あなたなりのストレス発散方法を教えてください!
- ・もし10億円当たったら何に使いますか?
- ・何回やってもうまくいかないことは?
- ・今年はじめたいことは?
- ・あなたの人生で一番ピンチに陥った瞬間は?
- ・初めて見た映画を教えてください!
- ・今の日本に期待することはなんですか?
- ・【大喜利】【投稿~1/31】『寿司』がテーマの本のタイトル
- ・集中するためにやっていること
- ・テレビやラジオに出たことがある人、いますか?
- ・【お題】斜め上を行くスキー場にありがちなこと
- ・人生でいちばんスベッた瞬間
- ・コーピングについて教えてください
- ・あなたの「プチ贅沢」はなんですか?
- ・コンビニでおにぎりを買うときのスタメンはどの具?
- ・おすすめの美術館・博物館、教えてください!
- ・【お題】大変な警告
- ・【大喜利】【投稿~1/20】 追い込まれた犯人が咄嗟に言った一言とは?
- ・洋服何着持ってますか?
- ・みんなの【マイ・ベスト積読2024】を教えてください。
- ・「これいらなくない?」という慣習、教えてください
- ・今から楽しみな予定はありますか?
- ・AIツールの活用方法を教えて
- ・最強の防寒、あったか術を教えてください!
- ・【大喜利】【投稿~1/9】 忍者がやってるYouTubeが炎上してしまった理由
- ・歳とったな〜〜と思ったことは?
- ・モテ期を経験した方いらっしゃいますか?
- ・好きな人を振り向かせるためにしたこと
- ・スマホに会話を聞かれているな!?と思ったことありますか?
- ・それもChatGPT!?と驚いた使用方法を教えてください
- ・見学に行くとしたら【天国】と【地獄】どっち?
- ・これまでで一番「情けなかったとき」はいつですか?
- ・この人頭いいなと思ったエピソード
- ・あなたの「必」の書き順を教えてください
- ・14歳の自分に衝撃の事実を告げてください
- ・人生最悪の忘れ物
- ・あなたの習慣について教えてください!!
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
UTF-8で5~6バイトになる文字コ...
-
エクセルシート名の制限を変更...
-
10Mバイトて文字数に すると何...
-
64bit対応
-
COBOLのCOMP形式について
-
C++ Builderで文字列をバイトに...
-
【VB2005】テキストボックス内...
-
VBAでShift-JISのURLエンコード
-
Javaで日本語1文字のバイト数
-
varchar(M)のMは文字数ですかバ...
-
ピクセル,dpiから容量(バイト...
-
「1TB」のHDDに日本語は何字入...
-
VB.NET LeftBの代用
-
クリップボードへのコピー
-
SQLで1バイト、2バイト混在...
-
CRC計算方法
-
GetWindowTextでアドレスバーか...
-
char str[256]の256の意味は?
-
機種依存文字をチェックしたい。
-
:(コロン)のKeyCode
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
エクセルシート名の制限を変更...
-
UTF-8で5~6バイトになる文字コ...
-
10Mバイトて文字数に すると何...
-
COBOLのCOMP形式について
-
char str[256]の256の意味は?
-
機種依存文字をチェックしたい。
-
バイト列とバイナリ列の違いが...
-
ピクセル,dpiから容量(バイト...
-
SQLで1バイト、2バイト混在...
-
「1TB」のHDDに日本語は何字入...
-
64bit対応
-
VBAでShift-JISのURLエンコード
-
Javaで日本語1文字のバイト数
-
ビットスワップとバイトスワッ...
-
3バイト文字(UTF-8)をprintfで...
-
【VB2005】テキストボックス内...
-
バイナリとBCDコード
-
この関数はどのプログラミング...
-
URLは最高何文字まで可能なので...
-
VB.NET LeftBの代用
おすすめ情報