正規表現におけるバイト境界という単語の意味について教えてください。
http://e-words.jp/w/%E3%82%A2%E3%83%A9%E3%82%A4% …
上記のようなサイトを参考にしましたが、何を言っているのか理解できませんでした。
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
直接は関係ありません。
どんな文脈で出てきたのでしょうか?
----
ご存知かもしれませんが
コンピュータでは、文字は数値として扱います。
このとき、1バイト(8ビット)で1文字分、というのがよく使われています。
https://ja.wikipedia.org/wiki/ASCII
ところが、8ビットで表現できるのは256通りであり、英数だけならともかく、日本語やハングルやその他各国独自の文字を使おうとすると、全然足りません。
そこで、次のような方法が使われています。
・1文字8ビットではなく、1文字16ビット等を使う (UTF-16等)
・8ビットを複数使って、その組合せを1文字と見做す(Shift_JIS,EUC-JP,UTF-8等)
このとき、正規表現処理ルーチンが、この「多バイト文字」を正しく「1文字」として扱ってくれればいいのですが、
場合によっては、「1バイトの文字が複数」として扱います。
例えば、任意の1文字を . で表す、という正規表現があったときに、多バイト文字に対応している場合は「あ」という「1文字」にマッチしますが、そうで無い場合は、「あを構成するバイト列の1バイト目」といった、コンピュータにとっては「1文字」/人間が見た感じでは「文字の一部」にマッチします。
後者の場合に、「多バイト文字」を「1文字」として扱うための、前の文字の最後のバイトと、次の文字の最初のバイトの境界のことを言っているのかもしれません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 洋画 「トラ・トラ・トラ!」の字幕 3 2022/10/17 01:15
- メルカリ ブラックケアシャンプー 600ml 最安はどこ? 2 2022/04/04 05:16
- iPhone(アイフォーン) こちらWEB検索できるかが分かりません それからこちらの最安値があれば教えてください https:/ 2 2022/09/14 14:09
- スポーツサイクル 自転車のタイヤサイズのえらびかた 3 2023/06/17 21:45
- Windows 10 プロファイルエラーについて 2 2022/12/16 09:31
- 船舶・クルーズ Windows10のエクスプローラにて。 1 2022/10/10 20:11
- その他(パソコン・スマホ・電化製品) Google ドライブのようにXnBay ストレージ サーバのストレージスペースをコンピュータのエク 2 2023/04/28 19:09
- 電気・ガス・水道 ソーラーパネル初心者です 1 2023/01/01 13:46
- 憲法・法令通則 スマートウォッチなるものがあるようですが。 4 2023/03/17 14:54
- 政治 橋下徹氏「まずは国会議員から取り上げろ」……この人、たまに良いこと言いますね? 5 2023/01/07 15:14
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
COBOLのCOMP形式について
-
10Mバイトて文字数に すると何...
-
UTF-8で5~6バイトになる文字コ...
-
エクセルシート名の制限を変更...
-
char str[256]の256の意味は?
-
VBでShift_JISへurlエンコード...
-
COBOL PICTUREで X,S,Vの意味
-
ピクセル,dpiから容量(バイト...
-
バイナリとBCDコード
-
VBAでShift-JISのURLエンコード
-
この関数はどのプログラミング...
-
VB6で漢字の1バイト目か2バイト...
-
C/C++の型について
-
ビットスワップとバイトスワッ...
-
バイト配列 抜き出す
-
GetWindowTextでアドレスバーか...
-
全角半角を調べるライブラリ関...
-
最大長を用意せずにバイナリデ...
-
VB.NET LeftBの代用
-
(C#)1バイトの正規表現
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
UTF-8で5~6バイトになる文字コ...
-
10Mバイトて文字数に すると何...
-
エクセルシート名の制限を変更...
-
COBOLのCOMP形式について
-
char str[256]の256の意味は?
-
バイナリとBCDコード
-
「1TB」のHDDに日本語は何字入...
-
Javaで日本語1文字のバイト数
-
バイト列とバイナリ列の違いが...
-
SQLで1バイト、2バイト混在...
-
ピクセル,dpiから容量(バイト...
-
C++ Builderで文字列をバイトに...
-
64bit対応
-
ワイド文字のバイト数が取得で...
-
UCS-2の一覧表が欲しい
-
3バイト文字(UTF-8)をprintfで...
-
VBAでShift-JISのURLエンコード
-
機種依存文字をチェックしたい。
-
ビットスワップとバイトスワッ...
-
VBSでテキストファイルの文字列...
おすすめ情報
ご回答有難うございました。
>>・1文字8ビットではなく、1文字16ビット等を使う (UTF-16等)
>>・8ビットを複数使って、その組合せを1文字と見做す(Shift_JIS,EUC-JP,UTF-8等)
この二つは、具体的に何が違うのでしょうか。1バイトを複数使ってその組み合わせを1文字とみなすのは、16ビットを使って1文字を表すのとは違うのでしょうか。
>>後者
というのは、>>コンピュータにとっては「1文字」/人間が見た感じでは「文字の一部」
の>>人間が見た感じでは「文字の一部」で合っておりますか。