”あいうえお”　を　”おえういあ”にするには？

Question

Ｃ言語にて、”あいうえお”　を　”おえういあ”に変換するには、どのようにすればよいのでしょうか？

教えてください。

kawa100 · Accepted Answer

2バイトの判定の範囲がleaz024さんのと違っています。僕も心配だから、スレが閉じられる前にどちらが正しいか知りたいです。 leaz024さんは、"aいbうえお"で、{1,2,1,2,2,2}という配列を用意しますが僕は、2バイトを調べたらそのまま処理をするアルゴリズムにしています。 2バイトの判定は"aいbうえお"の先頭から。最初は1バイトだから、outは?????????aになり、次のループで、outは???????いaになり、次のループで、outは???????いaになり、次のループで、outは??????bいaになり、次のループで、outは????うbいaになり、次のループで、outはおえうbいaになり、最後に0x0を付けています。 #include void main(){ 　char strin[] = "aいbうえお"; 　char out[11]; 　for(int i=0; i<11; i++){ 　　if((unsigned char)strin[i] > 0x80 && (unsigned char)strin[i] < 0xA0 || (unsigned char)strin[i] > 0xDF && (unsigned char)strin[i] < 0xF0){ 　　　out[9-i-1] = strin[i]; 　　　out[9-i] = strin[i+1]; 　　　i++; 　　}else{ out[9-i] = strin[i]; 　　} 　} 　out[10] = 0; 　printf("%s ",out); }

jmh · Answer

int mbcsize(unsigned char *s) {
　　if ((0xa0 <= *s && *s <= 0xff) || *s == 0x8e)
　　　　return 2;
　　else if (*s == 0x8f)
　　　　return 3;
　　else
　　　　return 1;
}

void strnrev(unsigned char *s, int n) {
　　int i, j;
　　for (i = 0, j = n - 1; i < j; ++i, --j) {
　　　　unsigned char c = s[i];
　　　　s[i] = s[j];
　　　　s[j] = c;
　　}
}

void strrev(unsigned char *s) {
　　unsigned char *t = s;
　　while (*t != '\0') {
　　　　int i = mbcsize(t);
　　　　strnrev(t, i);
　　　　t += i;
　　}
　　strnrev(s, t - s);
}

文字コード（ＥＵＣ）は、No.6 の leaz024 様の「参考ＵＲＬ」を参考にしました。
動作は未確認です。

leaz024 · Answer

No.4 kawa100さんの回答より

> leaz024さんは、"aいbうえお"で、{1,2,1,2,2,2}という配列を用意しますが
> 僕は、2バイトを調べたらそのまま処理をするアルゴリズムにしています。

そうですね。バイト数の配列なんて要りませんでしたね＾＾；
というわけで、「調べたらそのまま処理する版」です。
　　char *strrev(char *s)
　　{
　　　　long len;
　　　　int bytes, i;
　　　　char *buf, *p;
　　　　unsigned char uc;

　　　　len = strlen(s);

　　　　/* バッファに文字列をコピー */
　　　　buf = (char *)malloc(len + 1);
　　　　strcpy(buf, s);

　　　　/* 文字列を逆順にコピー */
　　　　for (p = buf; len > 0; ) {
　　　　　　uc = *(unsigned char *)p;
　　　　　　if (0x81<=uc && uc<=0x9F || 0xE0<=uc && uc<=0xFC) bytes = 2;
　　　　　　else bytes = 1;
　　　　　　len -= bytes;
　　　　　　for (i = 0; i < bytes; i++)
　　　　　　　　s[len + i] = *p++;
　　　　}

　　　　free(buf);

　　　　return s;
　　}

さっき書き忘れましたが、上記コードのコンパイルには strlib.h と string.h が必要です。
ちなみに main 関数は次のような感じになります。
　　int main() {
　　　　char strin[] = "aいbうえお";
　　　　char out[11];

　　　　strcpy(out, strin);　　　　　　　　/* コピーして */
　　　　printf("%s\n", strrev(out));　　　/* ひっくり返す */

　　　　return 0;
　　}

また、同じく No.4 kawa100さんの回答より
> 2バイトの判定の範囲がleaz024さんのと違っています。
> 僕も心配だから、スレが閉じられる前にどちらが正しいか知りたいです。

とのことですが、これは間違いなく 0x81～0x9F 及び 0xE0～0xFC です。
（↑これ専門分野なんで＾＾）
ついでに２バイト目の範囲は 0x40～0x7E 及び 0x80～0xFC です。
参考URLも２つほど挙げておきますね。
・http://www.kanzaki.com/docs/jcode.html#sjis
・http://www.opengroup.or.jp/jvc/cde/sjis.html

参考URL：http://www.kanzaki.com/docs/jcode.html#sjis,http://www.opengroup.or.jp/jvc/cde/sjis.html

episteme · Answer

”aいbうえお”の場合、一旦 UNICODE に変換というのもアリかと。

// sample, C++

#include <iostream>
#include <locale>
#include <algorithm>
#include <cstdlib> // mbstowcs/wcstombs

int main() {
std::locale::global(std::locale("ja"));
char input[] = "aいbうえお";
wchar_t wbuf[32];
size_t len = mbstowcs(wbuf, input, 32); // to UNICODE
std::reverse(wbuf, wbuf+len); // 反転
char output[32];
wcstombs(output, wbuf, 32); // from UNICODE
std::cout << output << std::endl;
return 0;
}

leaz024 · Answer

多バイト文字を扱う場合、その文字コードが何であるかによって処理方法が変わってきます。

Windowsで標準の文字コード「シフトJIS」では、全角文字の１バイト目が 0x81～0x9F 及び 0xE0～0xFC となっているので、文字列の頭から１バイトずつチェックして文字の並びを保存し、それにしたがって逆順にコピーします。
※２バイト目には、１バイト目やASCIIと重複するコードが含まれるので、後ろからチェックすることはできません。
※半角カナ（１バイト）は 0xA1～0xDF となっているので、上記のチェックだけで半角カナにも対応できます。

プログラムはこんな感じ。（動作確認済み）

　　char *strrev(char *s)
　　{
　　　　long len;
　　　　int *bytes, index, i;
　　　　char *buf, *p;
　　　　unsigned char uc;

　　　　len = strlen(s);

　　　　/* 文字の並びを検査(Shift_JIS) */
　　　　bytes = (int *)malloc(len * sizeof(int));
　　　　for (p = s, index = 0; *p != '\0'; index++) {
　　　　　　uc = *(unsigned char *)p;
　　　　　　if (0x81<=uc && uc<=0x9F || 0xE0<=uc && uc<=0xFC) bytes[index] = 2;
　　　　　　else bytes[index] = 1;
　　　　　　p += bytes[index];
　　　　}

　　　　/* バッファに文字列をコピー */
　　　　buf = (char *)malloc(len + 1);
　　　　strcpy(buf, s);

　　　　/* bytes[ ] にしたがって、文字列を逆順コピー */
　　　　for (p = s; --index >= 0; ) {
　　　　　　len -= bytes[index];
　　　　　　for (i = 0; i < bytes[index]; i++)
　　　　　　　　*p++ = buf[len + i];
　　　　}

　　　　free(bytes);
　　　　free(buf);

　　　　return s;
　　}

asaichi · Answer

”aいbうえお”のように、1バイト文字と2バイト文字が
混在している場合は、「その文字のバイト数」を意識し
ながら行わないといけません。

kawa100 · Answer

C言語では最後の0x0に注意。

”あいうえお” を ”おえういあ”にするには？

2バイトの判定の範囲がleaz024さんのと違っています。

int mbcsize(unsigned char *s) {

No.4 kawa100さんの回答より

”aいbうえお”の場合、一旦 UNICODE に変換というのもアリかと。

多バイト文字を扱う場合、その文字コードが何であるかによって処理方法が変わってきます。

”aいbうえお”のように、1バイト文字と2バイト文字が

<script language="JavaScript">

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

”あいうえお”　を　”おえういあ”にするには？