最近のJavascriptにおける
「1バイト文字も2バイト文字も一文字として判断する」
という特性を利用して、外字文字列のコードを抽出したいのですが…
対象としたいテキスト文字数が80万字ほどあり(^^;、
この量をTEXTAREAへpasteしてJavascriptで一気に処理できるか?
という点を知りたいのです。
まだテキストが手元にないので試せないのですが、
知識としてでも知ってる方がいたらお教え下さい。
ブラウザ環境はIE5.0+Winです。
要するにcsvテキストからシフトJISの0xF040~FFFCを含む行数を
抽出したいだけなので、perlで簡単な方法があればかまわないのですが…
No.2ベストアンサー
- 回答日時:
さすがに80万文字っていうのは無理じゃないでしょうか。
分割するにしても、いろいろと面倒そうですし、ご自分でも指摘していらっしゃるように、perlで簡単なスクリプトを作るのが現実的だと思います。アルゴリズムとしては、
1. 1byte読み込む
2. ~0x7f、または0xa1~0xdfなら、1.へ
3. 0xf0~0xffなら、外字用処理を行った後、1.へ
4. それ以外なら、1byteカラ読みして、1.へ
でいいでしょう。
回答ありがとうございます。
やはりperlですか。
「\」処理など変なミスがあると余計なロスが出そうで…
とりあえずそれで試してみます。
No.3
- 回答日時:
補足みました。
NNは2バイト文字を1文字としては扱いません(^_^; これはIEだけの仕様です。
IEは内部でUNICODEを使用しており、全角半角に関わらずすべての文字を2バイトコードとして扱っています。これが、全角と半角を両方とも1文字として扱える正体です。
NNは内部でUNICODEを使用していないので、2バイト文字は飽くまで2文字なのです。
ま、NNは使わないということであれば関係ないですね。
ちなみにもうプログラムはJavaScriptで書かれたのでしょうか。 処理重くないですか?
この回答への補足
プログラムは「桐」というDBソフトに
外字検出関数という便利なモノがあったのでそれを使うことになりました(^^;
NNの話ですが、4.75では
a = "あああ".length;
としたときに「3」と返します。
ちなみに4.01では「6」です。さらに、
A = "庁".charCodeAt(0);
などとしたときも、4.75ではIEと同じく「24193」と表示します。
ちなみにNN4.01では「-110」と表示されます。
NNはバージョンによって2バイト文字の判定が違うと思います。
No.1
- 回答日時:
えーとですね。
2バイト文字を1文字として数えるのはIEが昔からやってきたことで、NNでは逆に今でも2バイト文字は2文字です。
ですのでJavaScriptでやるのであればその辺の区分けが必要です。
Perl でできるんだったら Perl の方が簡単ですよ(^_^; わざわざ苦労することもないです。IEとNNの区分けも面倒ですし。
Perl では、文字列をシフトJISに変換したのち、
if ( $st =~ /([\xF0-\xFF][\x40-\xFC])/ )
おそらくはこれで、文字列$stの中に外字が含まれているかどうかが判別できるはずです。上記のif文では、$st に外字が含まれていればtrueを、そうでなければfalseを返します。
たしか。
正規表現はあんまし使わないので自信はないです。何度かテストしてみてください。
この回答への補足
回答ありがとうございます。
Javascriptの実行はIEで行い、公開する類のものではないので大丈夫です。
最近のNN(4.75)では2バイト文字は一文字と数えていた気がするのですが…
関数によって違うのかもしれません。
HTMLのINPUT MAXLENGTHは相変わらず2バイト文字=2文字ですが。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
gas 全角数字を半角数字に変換
-
「終了していない文字列型の定...
-
正整数の半角数字かどうか判定する
-
JavaScriptでフォームの入力項...
-
Access VBAで、数字だけをチェ...
-
ハイフンだけ置換したい。
-
JavaScriptの正規表現の全角ス...
-
VC#でテキストボックスに変数の...
-
JavaScriptで ブラウザの閉じる...
-
contenteditableで編集した内容...
-
PDFフォームで条件つき金額を表...
-
csvファイルを読み込み、該当項...
-
GoTo文とかSelect文の処理の仕...
-
ローカルのレジストリを読みたい
-
Excel vba 配列内の最大値を求...
-
javascriptで「オブジェクトを...
-
JSPの処理の途中で、JavaScript...
-
「戻る」ボタン使用時のフォー...
-
VBScriptでのforms[0]など配列...
-
フォームバリデーションする際...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
VB.NET2003 テキストボックスに...
-
gas 全角数字を半角数字に変換
-
VBAによる第3、4水準文字の判定...
-
「終了していない文字列型の定...
-
正整数の半角数字かどうか判定する
-
エクセルVBA/ Formatで文字列が...
-
VC#でテキストボックスに変数の...
-
Excel VBA カタカナ セル判定...
-
JavaScriptでこの正規表現を利...
-
禁止文字チェック
-
エクセル 半角英数6文字以上 ...
-
正規表現について
-
C#でTextBoxに数値のみ入力可能...
-
Visual Basic 6.0 のテキストボ...
-
javascript 文字列の最後から1...
-
Vba SelStart、SelLen教えてく...
-
Javascript 全角カナ+半角スペ...
-
文字数の制限について
-
漢字などを正規表現でパターン...
-
”吴”とはなんですか?
おすすめ情報