ファイルのテキストの中の文字列はどのような型で宣言されているか、
わかる人がいたら教えてください。
例えば、fopenでFILE宣言しているstreamにおとして、streamの中から1文字を
とる時にfgetcでintのiに入れますよね。この文字をprintするときに%cとやったら
ここで、型がint→charに変わってちゃんと表示されるのはわかるのですけれど、SJISの日本語2バイトからなっている物ではそれぞれの情報をi[0],i[1]に格納してそれぞれをchar型に変換して連続して表示しなければならない。そうすると、intが16ビットだとすると(32ビットの時もあるらしいので)、テキストファイルでは1文字が16ビット連続で表されているはずなのに、streamから16bitずつひっぱて8bitに直してから、また、連続して表示しなければ、出力ができないんですよ。
これはテキストファイルからstramのときに1文字の1byteにまた1byteが自動的に
てういているように感じるのですけれど、もし、わかる人がいたら教えてください。説明がわかりずらいですけれど。。。。
No.1ベストアンサー
- 回答日時:
ファイルの中身はどんな場合でもただの1byte単位の数字の羅列にすぎません。
そこには型の情報はありません。
2byteで一文字というのは読み出して使うプログラム側で管理する必要があります。
根本的な勘違いは、fgetc の働きにあります。
fgetc はファイルから 1byte(1文字ではない)を取り出すという関数でしかありません。2byteとってることはしないと言うことです。
戻り値はintですが、この時点ではまだ「文字」として扱っているわけではありません。
int(これが2byteでも4byteでも同じで)の変数の中に1byteの数字を入れているだけです。
だから、charに型キャストするんです。このキャストで上位バイトは捨てられます。
マルチバイト文字を扱うのでしたら、fgetwcという関数があります。こちらは1文字拾ってきてくれます。
(返す値は wint_t 型になります)
No.2
- 回答日時:
MS-DOSのOS系では通常テキストファイルの英数字文字は1文字を16進2桁で表され、それが間断なく続きます。
日本語などの漢字では英数字分2文字分を使用します。
ところが、C言語の処理系がつくられたころ、日本語は考慮されていませんでした。
(というか、外人が考案したものですから)
ですので、文字をいれるのに都合の良い1Byte変数を用意したわけです。
それがおわかりのようにchar型ですね。
そこで、日本語を使用するために2Byte文字使用するわけですが、
ここで、落とし穴があります。
** 重要 **
使用するOSによって、2Byte文字、つまり、int型の内容が1Byte区切りで反転しているものがあるのです。
いわゆるリトルエンディアンというもので、
これはintel系のマシンで採用されています。
具体的にいうと、int型は16bitで、16進数値が2文字入ります。
そこで、1234Hというものを表現するとき、1Byte目に34H、2Byte目に12Hをセットしなくてはなりません。
ところが、文字コードの場合、1Byte目に12H、2Byte目に34Hと表現しなくてはならないのです。
まとめると、テキストをプログラムの数字変数(integer)に2byteずつセットすると、必ず1byte毎に反転してしまのです。
たぶん、それが原因の事象だと思います。
尚、intel系はリトルエンディアンといい、反転しないのをビッグエンディアンといいます。
相互に変換することをエンディアン変換といいます。
それと、intが16bitしかつかわないのは16bitパソコンの名残であり、unix系など32bitOSはintが32bit使用します。
質問が悪かったです。聞きたいことが違っていましたけれど、知らない貴重な情報提供と協力してもらえたことに感謝します。ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- C言語・C++・C# c言語 プログラムのエラー 1 2023/02/11 20:31
- C言語・C++・C# c言語 int temp = 0; if(isdigit(arr[i])){ temp=arr[i] 2 2022/03/27 01:44
- C言語・C++・C# プログラミングの問題です。至急教えてください。 /***から***/の部分をプログラミングにしてほし 1 2022/10/13 11:48
- C言語・C++・C# このプログラミング誰か教えてくれませんか 1 2022/06/02 15:27
- C言語・C++・C# str[j++]の意味 2 2022/08/30 16:20
- C言語・C++・C# c言語の問題の説明、各所ごとに 5 2023/07/26 11:03
- C言語・C++・C# 宣言する関数の形が決まっている状態で、 str1とstr2の文字列をこの順に引っ付けてstrに保存し 2 2022/05/30 18:21
- C言語・C++・C# C言語初心者 構造体 課題について 2 2023/03/10 19:48
- C言語・C++・C# C言語のエラーについて 2 2022/07/11 13:56
- C言語・C++・C# c言語 コマンドライン引数 4 2023/02/09 18:47
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
テキストファイルの一部分を抽...
-
ATTファイルってどうやって開け...
-
Zbarというソフトについて
-
STM32 Nucleo-F446REでデータを...
-
テキストファイルを読み込んで...
-
既存のテキストファイルを開く方法
-
エクセルVBAでメールの自動作成...
-
テキストファイル内の文字の有...
-
N88Basic
-
テキストファイルの特定行の削...
-
pngからepsへの変換
-
[VB.NET] 処理の高速化を行いた...
-
Excel VBAが徐々に遅くなる
-
ファイル変換
-
パイソンでのテキストデータの...
-
C#(.Net)におけるエンコード...
-
VB(VBA)で、バイナリデータを使...
-
テキストファイル固定長データ...
-
エクセルのマクロについて教え...
-
accessでクエリをExcelにエクス...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
ATTファイルってどうやって開け...
-
Excel VBAが徐々に遅くなる
-
テキストファイルの一部分を抽...
-
既存のテキストファイルを開く方法
-
StreamReaderで読み込んだファ...
-
テキストファイルってページの...
-
WORDのVBAで差し込み印刷時、デ...
-
[VB.NET] 処理の高速化を行いた...
-
UTF-8とASCIIコードにおける互...
-
テキストファイルの特定行の削...
-
テキストファイル固定長データ...
-
VBA。開いているテキストファイ...
-
VB(VBA)で、バイナリデータを使...
-
C言語のソースからコメントを抜...
-
テキストファイルをSQLServerデ...
-
ファイル変換
-
テキストデータ変換(プログラ...
-
バイナリデータの中からMidのよ...
-
ExcelのVBAコードについて教え...
-
テキストファイル内容の、16進...
おすすめ情報