C言語について

Question

C言語について質問です。

ASCIIコードでは'0'が４８、'a'が９７になっていますよね。
このような感じで全角の平仮名や漢字などの文字をを数値として表す方法を探しています。
できれば簡単な例文なども付けていただけると助かります。

それではよろしくお願いします。

aris-wiz · Accepted Answer

私より前の回答者の方の回答を見れば分かると思いますが、
C言語では、漢字であろうと、半角英数であろうと、
数値で表現されています。

半角英数字などの１バイト文字は、0～255までの数値で
表現が可能でC言語のコード上に'A'とすると数値として扱われます。
しかし、複数バイト文字(マルチバイト文字)、
漢字などは2バイト(大雑把に言えば2文字)を
使って表される為C言語上での扱いは文字列として扱う事になります。
(そういう風にみなしてプログラムすると言う事であって
 C言語の規格で明確に決まっているわけではありません。
 バラバラに扱ってもそれは文字が崩れるだけの話です。)

以下のサンプルはマルチバイト文字のコードを
表示する簡単なサンプルです。

/*
 *  VC++6.0 WinXP Pro SP2
 */
#include <stdio.h>
int main( int argc, char** argv )
{
  /* 文字コードの表現範囲は符号なしのため unsigned */
  unsigned char c1,c2;

  printf( "Alt+半角/全角で全角入力
" );
  scanf("%c%c",&c1,&c2);
  printf("%02X %02X
", c1, c2);
  
  return 0;
}

sakusaker7 · Answer

Oh-Orangeさん、euc(euc-jp)は通常はそういう表現をしません。
2バイトで構成される文字の2バイト目も最上位ビットを立てます。
それから一文字が3バイトで構成されることもあります(JIS X 0212)。
半角カナは 0x8eを先行させて2バイトで構成されます。

文字コードの話
http://euc.jp/i18n/charcode.ja.html

Oh-Orange · Answer

★文字変換の処理を行いたいのですか？
・JISコード漢字は 0x2121～0x7E7E です。
　１バイト文字が 0x21～0x7E の範囲。
　２バイト文字も 0x21～0x7E の範囲。
・EUCコード漢字は 0xA121～0xAE7E です。半角カタカナも含めるとちょっと複雑になります。
　１バイト文字が 0xA1～0xAE の範囲。
　２バイト文字が 0x21～0x7E の範囲。
・シフトJISコード漢字は 0x8140～0xFCFC です。
　１バイト文字が 0x81～0x9F、0xE0～0xFC の範囲。
　２バイト文字が 0x40～0xFC の範囲、ただし 0x7F は除外。
・シフトJISコードの場合は次のようにしてコード化できます。
　『あ』という文字は
　１バイト目が 0x82
　２バイト目は 0xA0
　です。よって 0x82A0 が『あ』の文字コードになります。
　下にそのサンプルを載せます。

サンプル:
char moji[] = "あ";
int　code;

これが文字コードの計算(処理)
↓
code = (moji[0] << 8 | moji[1]);
printf( "『%s』の文字コードは 0x%04X です。
", moji, code );

gonbee774 · Answer

『文字コード』で検索してみました。
＃なお、ASCIIコードもですが、特にＣ言語の範疇というわけではないと思います。

参考URL：http://ash.jp/code/index.htm

C言語について

私より前の回答者の方の回答を見れば分かると思いますが、

Oh-Orangeさん、euc(euc-jp)は通常はそういう表現をしません。

★文字変換の処理を行いたいのですか？

『文字コード』で検索してみました。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング