秀丸の正規表現(1バイト文字,2バイト文字の表現)

Question

「英文-日本文」がセットになったデータがあります。これを英文と日本文の間で切り分けたいと思っています。Perlなどを使えばより簡単かもしれませんが、Perlはあまり知らないので、秀丸の正規表現でやりたいと思っています。そこで、1バイト文字、2バイト文字の表現の仕方が必要になってくると思うのですが、どう書いたらいいのでしょうか。

(参考データ)
This is a pen. これはペンです。
を
This is a pen. /// これはペンです。
のようにしたいです。

noname#102878 · Accepted Answer

> 第３水準の「・」まででも大丈夫かも。

ほらインターネットじゃ文字化けしちゃった・・・

\f[\ -~]\f[、-熙]
これの「熙」を別の文字に変えてください。

IMEパッドの「文字一覧」を起動。
漢字一覧を一番下までスクロール。
「・」が連続してますが、そこから上へちょっと戻ると漢字がでてきます。
私はWindowsXP IME2002(8.1.4004.0)ですが、シフトJISの0xfc4bの文字が一番最後の漢字みたいです。
「熙」をその文字に変えてみてください。

Bo_Bo · Answer

>文頭に///が入ったり、[ や ] の前後に///が入ったり、/// が2つ以上入る行が多かったです。 

これは予想していた結果です。そこから寄せられる補足を参考に、完成形に近づけようと考えていました。 

“[ や ] の前後に・・・”これ [] は１バイトの文字ですよね？ 
英文と言うのを何を指しているのかを、まだ理解できません。 
参考となる元の文章（十行程度）と、こうなって欲しい（こうならないで欲しい）結果を提示してもらえると回答しやすいのですが。特に半角の記号や空白の扱い。 
（場合によっては、マクロを組めるかも） 

よく分からないので、正規表現パターンの例。 

[\x20-\x7E] ==> 制御コード以外のASCII文字（半角空白からチルダ (~)まで） 
[0-9A-Za-z] ==> 英数字 
[_A-Za-z]+  ==> 英単語（ \w ） 
[■-●]     ==> ２バイト文字

■は全角空白
●はIMEパットの文字一覧を表示して、一番最後までスクロールします。その後、徐々にスクロール・アップして黒にそっくりな漢字が出てきたらそれです。（OKWebでこの漢字をはじかれる）

Bo_Bo · Answer

ANo.#7 の Bo_Bo です。

>秀丸のマクロは使ったことがないので、正規表現を使った置換でお願いできますか。

ANo.#7 で回答したマクロは、「正規表現を使った置換」です。（完成形ではありませんが）
"[\x20-\x7E]+" とあるのが正規表現で、英文の半角空白からチルダ (~)まで
( !"#$%&'()*+,-./0～9:;<=>?@A～Z[\]^_`a～z{|}~ )
を表しています。

適当なファイルを開いて、「検索」メニューから「置換」とし、
　検索欄に ==> [\x20-\x7E]+
　置換欄に ==> ///\0///
　「正規表現」にチェック
　「置換の前に確認」にチェック
として、試しに実行してみてください。英文が "///" で挟み込まれると思います。
（マクロは単にこれを表しているだけです。）

しかし、これには不備な点があります。
「英文と日本文の間で切り分けたい」と言うのを、何を「英文」とし、何を「日本文」とするかで不具合が出る可能性があります。
「日本文」と解釈して欲しい文の中に、半角の空白、括弧や円記号などがあると、正しい置き換えが出来ません。

何かの規則性が見つかれば、もう少しお役に立てるかもしれません。
（英文は必ず行頭から始まるとか、日本文は行の最後に記述されているとか）

Bo_Bo · Answer

ANo.#7 の回答を訂正します。

// ASCII 文字列を '///' で囲む
$sb = searchbuffer;
#so = searchoption;
$rb = replacebuffer;
disabledraw;
replaceallfast "[\x20-\x7E]+", "///\0///", regular; // 半角空白からチルダ '~' まで
//replaceallfast "[\x21-\x7E]+", "///\0///", regular; // 半角空白を含まないバージョン
enabledraw;
setsearch $sb, #so;
setreplace $rb;
endmacro;

Bo_Bo · Answer

取りあえず、以下のマクロでどうでしょうか。

// ASCII 文字列を '///' で囲む
$sb = searchbuffer;
#so = searchoption;
$rb = replacebuffer;
replaceallfast "[\x20-\x7E]+", "///\0///", regular; // 半角空白からチルダ '~' まで
//replaceallfast "[\x21-\x7E]+", "///\0///", regular; // 半角空白を含まないバージョン
setsearch $sb, #so;
setreplace $rb;
endmacro;

noname#102878 · Answer

> 漢字の終わりは数パターンあり、どれを採用していいのか分かりませんでした。

「熙」は第２水準の最後の文字です。（だったと思います）
IMEの文字パレットで確認してみてください。(Shift-JIS)

さらにその後ろにもNEC外字やIBM外字などもあります。カッコ株なんてのもありますね。

扱いたい文書の使用環境が狭いのであれば(Windowsであれば)第３水準の「・」まででも大丈夫かも。

noname#102878 · Answer

これではどうでしょうか。

検索：\f[\ -~]\f[、-熙]
置換：\1///\2

coco1 · Answer

ちょっと訂正です。

置換前：^[a-zA-Z \?!\.]+\f[ぁ-椀、。]+

coco1 · Answer

英文が文字だけでなく記号やスペースもあることを考慮する必要がありますが、基本的には次の構文でいいでしょう。

置換前：^[a-zA-Z ].+\f[\?\!\.][ぁ-椀]+
置換後：\0///\1

ちなみに
置換前：大文字小文字のアルファベット、空白を数文字含み「.か？か！」で終わっている文字列と日本語の文字列を、「．か？か！」の前後で\0と\1の要素に分ける

置換後：検索結果の\0と\1を///で結ぶ

という構文です。

その他の区切り文字がある場合には[\?\!\.]の中にその要素を追加してやればいいでしょう。

helpにわかりやすい解説があります。とりあえずこれで試してみて下さい。コツがわかると思います。

taknt · Answer

秀丸のヘルプに正規表現について 詳しく書かれてありますが、それは 読んだでしょうか？

［a-z^0-9］
とすると 半角の小文字アルファベットとカレットと半角の数字にマッチします。

これぐらいしか 該当しそうなのは なさそうですね。

秀丸の正規表現(1バイト文字,2バイト文字の表現)

> 第３水準の「・」まででも大丈夫かも。

>文頭に///が入ったり、[ や ] の前後に///が入ったり、/// が2つ以上入る行が多かったです。

ANo.#7 の Bo_Bo です。

ANo.#7 の回答を訂正します。

取りあえず、以下のマクロでどうでしょうか。

> 漢字の終わりは数パターンあり、どれを採用していいのか分かりませんでした。

この回答への補足

これではどうでしょうか。

この回答への補足

ちょっと訂正です。

英文が文字だけでなく記号やスペースもあることを考慮する必要がありますが、基本的には次の構文でいいでしょう。

この回答への補足

秀丸のヘルプに正規表現について 詳しく書かれてありますが、それは 読んだでしょうか？

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

秀丸のヘルプに正規表現について詳しく書かれてありますが、それは読んだでしょうか？