ワイド文字のバイト数が取得できず困っています。

Question

ワイド文字のバイト数を求めたいのですが、文字数しか取得することが出来ません。
ワイド文字のバイト数を取得する事は出来ないのでしょうか？

Visual C++ 2008 Express Edhition の デバックモードで動かしています。

******************************
wchar_t s[256];
s = L"abcあいう";
int len = wcslen(s);
******************************

titokani · Accepted Answer

#5です。
>UTF-8で読み込んだファイルの中身を半角を1バイト、全角を2バイトとしてバイト数を計算したいのです。

ですから、なんのためにそんな計算がしたいのか、ということです。
そもそも、半角/全角というのはSJIS固有の概念といってもいいです。
なので、SJISに変換するのでない限り、意味の無い計算です。
＃細かいことを言うと、unicodeにも、半角/全角という言葉は出てきますが、意味が違います。

UFT-8には、SJISには存在しない文字がありますから、変換してしまうと、情報が落ちてしまいます。それは構わないのでしょうか？
情報が落ちて困るのなら、SJISに変換はできませんし、そうなると、半角/全角といった話も不要です。どうなのでしょうか。

S117 · Answer

#3です。補足ありがとうございます。

別枠で質問したのはいい判断だと思います。
しかし、知りたいバイト数とは一体何なのでしょうか。半角文字１バイト、全角文字２バイトだとすると、SJISですか？
開いているファイルはUTF-8ですよね。本当にSJISのバイト数でいいのですか？

また、念のため明記しますが、UTF-8のバイト数とSJISのバイト数は違うものになります。
補足をよろしくお願いします。

jacta · Answer

> UTF-8で読み込んだファイルの中身を半角を1バイト

UTF-8だと、半角カナは3バイト文字になりますが、それでも1バイトとして数えるのでしょうか？

titokani · Answer

#6です。
>http://okwave.jp/qa4406429.html
こちらの質問の続きだとしますと、
FILE *file1;
wchar_t s[256];
file1 = fopen( "C:\readme", "r, ccs=UTF-8");
while (fgetws(s, 256, file1) != NULL)
{
   :
   :
}
といった感じで前回の続きから文字を読んでこれます。これではなにか問題があるのでしょうか？

php504 · Answer

文字列のバイト数なら文字コード関係なしに
int len = strlen(s);
でいいのでは

titokani · Answer

#4です。
＞質問の通りにバイト数を取得したのです。
ワイド文字でのバイト数であれば、
(wcslen(s)+1)*2
です。これ以外はありえません。
全角、半角と言い出した時点ですでにワイド文字の話ではなくなるのです。
なので、「何での」バイト数が必要なのかが肝心なのです。
SJISでのバイト数が必要ならば、MBCSに変換するのが有効ですし、そうでないならば、また別の方法が必要となることでしょう。

titokani · Answer

>バイト数に関してですが、「abcあいう」だった場合は9バイトとしてカウントしたいのです。
>ただ、半角は1バイト、全角は2バイトとして計算したいので、他の方法を考えてみます。
ワイド文字は全角半角かかわらず、一文字2バイトです。
なので、1バイトとして計算したい文字と、2バイトとして計算したい文字とを自分で定義して、自分で計算するしかないですね。

っていうか、そんな自分で計算した値を使って、いったいなにがしたいのでしょうか？
もし、SJISでのバイト数を計算したいのなら、ワイド文字からMBCSに変換するなどしてから、バイト数を数えるほうが確実だと思います。

S117 · Answer

とりあえずまだ誰も突っ込んでないのでひとつ。
error C2106: '=' : 左のオペランドが、左辺値になっていません。

QNo.4406429
からの続きでしょうか？
だとすれば、ひょっとして知りたいのはUTF-8のときのバイト数でしょうか？
もしそうなら、この質問だけではそんなこと分かりませんので、補足をお願いいたします。
(QNo.4406429の質問を見ていれば分からないこともないですが、検索で表示した場合は意味不明になりますし、質問者の名前を確認しない場合もあります。またページの切れ目で気づかないとかあるので、注意してください）

ところで、ワイド文字についての知識は十分でしょうか？
前回の質問の内容からあてずっぽうでコードを書いていませんか？

bluecampus · Answer

ワイド文字は大抵1文字2バイトです。
いわゆる全角文字・半角文字関係なく。
(サロゲートペアの文字は2バイト*2)

Shift_JIS(=CP932)であるときは、たまたま1バイト文字に半角文字と呼ばれるものが、
2バイト文字に全角文字と呼ばれるものが当てはまっていただけです。

このようなルールでよいのであれば、対象の文字列からShift_JISの1バイト文字以外の文字数分プラスすればいいです。
(Unicode→Shift_JISは情報がおちる可能性があるためやらないほうが無難。)

jacta · Answer

単にワイド文字のバイト数を知りたいだけであれば、sizeof(wchar_t)とするだけです。

ワイド文字列のバイト数であれば、バイト数の数え方をまず定義してください。
すなわち、配列のバイト数なのか、ナルワイド文字を含まない文字列を構成するバイト数なのか、ナルワイド文字を含んだ文字列を構成するバイト数なのかです。

ワイド文字のバイト数が取得できず困っています。

#5です。

この回答への補足

#3です。

> UTF-8で読み込んだファイルの中身を半角を1バイト

#6です。

文字列のバイト数なら文字コード関係なしに

#4です。

この回答への補足

>バイト数に関してですが、「abcあいう」だった場合は9バイトとしてカウントしたいのです。

とりあえずまだ誰も突っ込んでないのでひとつ。

この回答への補足

ワイド文字は大抵1文字2バイトです。

単にワイド文字のバイト数を知りたいだけであれば、sizeof(wchar_t)とするだけです。

この回答への補足

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング