BCB5 日本語の1バイト目のチェック

Question

Borland C++ Builder5 を使っています。
日本語の1バイト目（または2バイト目）のチェックをしたいと考えています。
nthctype()関数を使えば良さそうなのですが、jstring.hをincludeしても、リンカエラーとなってしまいます。
他に何をincludeしたら良いのでしょうか？
あるいは、nthctype()関数にこだわらず、1バイト目の判定が出来る方法があったらご指導いただければ幸いです。
要は、ある文字が、日本語の1バイト目であるか、2バイト目であるか、それ以外であるかが分かればOKです。
なお、文字はS-JISで作成されています。

KoHal · Accepted Answer

別にヘルプに書いてある通りの関数で難しいことはないはず…、と思ったら、ヘルプに誤記がありますね。あらら。
AnsiStringのメソッドは先頭１始まりです。


　String str = "あAいBうCえDおE";
　String result;
　for ( int i=1; i<=str.Length(); ++i ) //範囲に注意
　{
　　if ( str.IsLeadByte(i) )
　　　result += String(i) + "バイト目はマルチバイト文字の先頭バイト
";
　　else if ( str.IsTrailByte(i) )
　　　result += String(i) + "バイト目はマルチバイト文字の後バイト
";
　　else
　　　result += String(i) + "バイト目はマルチバイト文字ではない
";
　}
　ShowMessage( result );


ちなみに、上記のように3種に分類する必要があるならこっちのほうがスマート。

　String str = "あAいBうCえDおE";
　String result;
　for ( int i=1; i<=str.Length(); ++i ) //範囲に注意
　{
　　switch ( str.ByteType(i) ) {
　　case mbLeadByte:
　　　result += String(i) + "バイト目はマルチバイト文字の先頭バイト
";
　　　break;
　　case mbTrailByte:
　　　result += String(i) + "バイト目はマルチバイト文字の後バイト
";
　　　break;
　　case mbSingleByte:
　　　result += String(i) + "バイト目はマルチバイト文字ではない
";
　　　break;
　　}
　}
　ShowMessage( result );

KoHal · Answer

BCBならAnsiString::IsLeadByte()がつかえます

jacta · Answer

移植性を全く考慮しないのであれば、_ismbbleadおよび_ismbbtrail関数がそれに当たります（使用方法はドキュメントを読んでください）。ただし、#3でも指摘されているように、_ismbbtrailが真を返したからといって、必ずしも2バイト目であるとは限りません。

移植性を考えるのであれば、正しい多バイト文字かどうかを判定するには、mblenを使うのがよいかと思います。すなわち、

char s[] = "あ";
if (mblen(s, 1) == 1)
　/* s[0]は単バイト文字 */
else
　/* s[0]は多バイト文字の1バイト目 */

といった具合です。
この方法を使うには、あらかじめsetlocale関数を用いてロケールを設定しておいてください。

noname#20242 · Answer

私もBLUEPIXYさんと同じ内容で回答しようとしてました。
でも、ちょっと注意が必要です。

isSJIS2()で0以外が返ってきた際、必ずしも漢字の2バイト目である保証はありません。
→1バイト目が漢字コードで且つisSJIS2()で0以外が返ってきた場合、漢字2バイト目という認識になります。

たとえば、いきなり isSJIS2('A')を実行すると漢字2バイト目と認識されてしまいます。

以上、ANo.#2へ補足させて頂きました。

BLUEPIXY · Answer

リンクできない原因はよく分かりませんが Shift_JIS ならこんな感じでいいのでは // シフトＪＩＳ漢字文字の第１バイト目か？ int isSJIS1(unsigned char ch){ return (ch >= 0x81 && ch <= 0x9F || ch >= 0xE0 && ch <= 0xFC); } // シフトＪＩＳ漢字文字の第２バイト目か？ int isSJIS2(unsigned char ch){ return (ch >= 0x40 && ch <= 0x7E || ch >= 0x80 && ch <= 0xFC); }

MrBan · Answer

BCCが手元に無いですが、<cctype>とisleadbyteでどうですか。

BCB5 日本語の1バイト目のチェック

別にヘルプに書いてある通りの関数で難しいことはないはず…、と思ったら、ヘルプに誤記がありますね。

BCBならAnsiString::IsLeadByte()がつかえます

移植性を全く考慮しないのであれば、_ismbbleadおよび_ismbbtrail関数がそれに当たります（使用方法はドキュメントを読んでください）。

私もBLUEPIXYさんと同じ内容で回答しようとしてました。

リンクできない原因はよく分かりませんが

BCCが手元に無いですが、<cctype>とisleadbyteでどうですか。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング