最近のJavascriptにおける
「1バイト文字も2バイト文字も一文字として判断する」
という特性を利用して、外字文字列のコードを抽出したいのですが…
対象としたいテキスト文字数が80万字ほどあり(^^;、
この量をTEXTAREAへpasteしてJavascriptで一気に処理できるか?
という点を知りたいのです。
まだテキストが手元にないので試せないのですが、
知識としてでも知ってる方がいたらお教え下さい。
ブラウザ環境はIE5.0+Winです。
要するにcsvテキストからシフトJISの0xF040~FFFCを含む行数を
抽出したいだけなので、perlで簡単な方法があればかまわないのですが…
No.2ベストアンサー
- 回答日時:
さすがに80万文字っていうのは無理じゃないでしょうか。
分割するにしても、いろいろと面倒そうですし、ご自分でも指摘していらっしゃるように、perlで簡単なスクリプトを作るのが現実的だと思います。アルゴリズムとしては、
1. 1byte読み込む
2. ~0x7f、または0xa1~0xdfなら、1.へ
3. 0xf0~0xffなら、外字用処理を行った後、1.へ
4. それ以外なら、1byteカラ読みして、1.へ
でいいでしょう。
回答ありがとうございます。
やはりperlですか。
「\」処理など変なミスがあると余計なロスが出そうで…
とりあえずそれで試してみます。
No.3
- 回答日時:
補足みました。
NNは2バイト文字を1文字としては扱いません(^_^; これはIEだけの仕様です。
IEは内部でUNICODEを使用しており、全角半角に関わらずすべての文字を2バイトコードとして扱っています。これが、全角と半角を両方とも1文字として扱える正体です。
NNは内部でUNICODEを使用していないので、2バイト文字は飽くまで2文字なのです。
ま、NNは使わないということであれば関係ないですね。
ちなみにもうプログラムはJavaScriptで書かれたのでしょうか。 処理重くないですか?
この回答への補足
プログラムは「桐」というDBソフトに
外字検出関数という便利なモノがあったのでそれを使うことになりました(^^;
NNの話ですが、4.75では
a = "あああ".length;
としたときに「3」と返します。
ちなみに4.01では「6」です。さらに、
A = "庁".charCodeAt(0);
などとしたときも、4.75ではIEと同じく「24193」と表示します。
ちなみにNN4.01では「-110」と表示されます。
NNはバージョンによって2バイト文字の判定が違うと思います。
No.1
- 回答日時:
えーとですね。
2バイト文字を1文字として数えるのはIEが昔からやってきたことで、NNでは逆に今でも2バイト文字は2文字です。
ですのでJavaScriptでやるのであればその辺の区分けが必要です。
Perl でできるんだったら Perl の方が簡単ですよ(^_^; わざわざ苦労することもないです。IEとNNの区分けも面倒ですし。
Perl では、文字列をシフトJISに変換したのち、
if ( $st =~ /([\xF0-\xFF][\x40-\xFC])/ )
おそらくはこれで、文字列$stの中に外字が含まれているかどうかが判別できるはずです。上記のif文では、$st に外字が含まれていればtrueを、そうでなければfalseを返します。
たしか。
正規表現はあんまし使わないので自信はないです。何度かテストしてみてください。
この回答への補足
回答ありがとうございます。
Javascriptの実行はIEで行い、公開する類のものではないので大丈夫です。
最近のNN(4.75)では2バイト文字は一文字と数えていた気がするのですが…
関数によって違うのかもしれません。
HTMLのINPUT MAXLENGTHは相変わらず2バイト文字=2文字ですが。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- JavaScript javascriptのちょっとした動作不良(原因は突き止めたのですが) 1 2023/06/15 19:58
- JavaScript Javascriptが機能せず原因が分からないので教えて頂きたいです 3 2023/06/04 14:50
- C言語・C++・C# VisualStudioのソースコードで漢字を使いたい 4 2022/05/21 10:16
- JavaScript フォームが空欄の時にフォームの外をクリックすると、エラーが出るコードを調べています。 1 2023/06/25 11:51
- その他(データベース) Accessのクエリで1フィールドの抽出条件設定をNullでなく全角半角含む空白のみの文字列でない文 1 2023/04/24 15:20
- その他(プログラミング・Web制作) 2つのテキストファイルを比べて文字列を特定する方法を教えて下さい 5 2022/05/01 15:22
- JavaScript 空白で入力フォームのボタンをクリックしたら、ブラウザの上部からjavascriptで 表示されるアラ 1 2022/05/20 11:16
- JavaScript HTMLでJavaScriptを使ってパスワードの強化判定のプログラムを作成しています。 一通り作っ 2 2022/10/19 01:41
- UNIX・Linux sedでの正規化 2 2022/05/10 11:39
- Excel(エクセル) エクセルで重複データから重複を削除して指定の列に抽出したい 11 2022/05/11 11:26
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「終了していない文字列型の定...
-
C#でTextBoxに数値のみ入力可能...
-
VB.NET2003 テキストボックスに...
-
JavaScriptでフォームの入力項...
-
エクセル 半角英数6文字以上 ...
-
ひらがな専用入力エリアのチェック
-
正整数の半角数字かどうか判定する
-
Excel VBA カタカナ セル判定...
-
入力フォームで、全角カタカナ...
-
gas 全角数字を半角数字に変換
-
VC#でテキストボックスに変数の...
-
”吴”とはなんですか?
-
JavaScriptの負荷について
-
ページ遷移時にアコーディオン...
-
デザイン時のVisible=Falseは実...
-
htmlのfileタグに自動で値を入...
-
if(1){...}とはどういうことで...
-
JavaScriptで ブラウザの閉じる...
-
jQuery ui Datepicker 明日以降...
-
javascriptでのmdb接続について
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「終了していない文字列型の定...
-
VB.NET2003 テキストボックスに...
-
Access VBAで、数字だけをチェ...
-
gas 全角数字を半角数字に変換
-
VBAによる第3、4水準文字の判定...
-
正整数の半角数字かどうか判定する
-
ハイフンだけ置換したい。
-
エクセルVBA/ Formatで文字列が...
-
Visual Basic 6.0 のテキストボ...
-
エクセル 半角英数6文字以上 ...
-
JavaScriptに関する質問です。 ...
-
禁止文字チェック
-
正規表現について
-
外字のチェック
-
Javascript 全角カナ+半角スペ...
-
Excel VBA カタカナ セル判定...
-
文字認証の問題
-
入力された文字を1文字ずつチ...
-
C#でTextBoxに数値のみ入力可能...
-
VC#でテキストボックスに変数の...
おすすめ情報