正規表現を使った文字列の検索及び置換について

Question

正規表現の検索及び置換について質問させていただきます。下記のような文字列があったとします。「私は、で、　です。」この文章から　　　の部分を検索して、それぞれ　<外字0001F040> 　<外字0002F041> 　<外字0003F042> と置き換え、最終的には、　「私は、<外字0001F040><外字0002F041>で、<外字0003F042>です。」という文字列にする関数を作成したいと思っておりますが、どのようにソースを作ればよろしいのでしょうか？アドバイスや具体的なソースコードをいただけると非常に助かります。現在、途中までソースを作成しているのですが、文字数制限でソースの半分も入りきらなかったため大雑把に書かせていただきます。 ※※※以降の処理が分かりません。検索結果に対して文字列置換を行っても元の文字列内の置換にはならない？ Private Function GaijiChange(ByVal pNaiyo As String) As String Dim wNaiyo As String = "" ' 置換後文字列 Dim wGaijisyurui As String = "" Dim wGaijicode As String = "" Dim wChangeWord As String = "" Dim wChangeStr As String = "" Dim Work As String = "" ' 正規表現でタグを検索 Dim wSeikiHyogen As String wSeikiHyogen = "" '正規表現 Dim wRegex As New System.Text.RegularExpressions.Regex( _ wSeikiHyogen, System.Text.RegularExpressions.RegexOptions.IgnoreCase) ' 文字列にに含まれるタグを全て検索 Dim wMc As System.Text.RegularExpressions.MatchCollection = wRegex.Matches(pNaiyo) For Each m As System.Text.RegularExpressions.Match In wMc ' 検索結果からgaijisyuruiを取得 wGaijisyurui = ' 検索結果からgaijicodeを取得 wGaijicode = ' 置換文字列作成 wChangeWord = "<外字" & wGaijisyurui & wGaijicode & ">" ' 検索結果を置換 ' ※※※ Next Return wNaiyo End Function 以上、宜しくお願いいたします。

nda23 · Accepted Answer

#2です。正規表現の構文は下記を参照してください。 http://msdn.microsoft.com/ja-jp/library/cc392020.aspx いきなりコードを提示したので、説明を付け加えますね。先ず、文中にあるタグ部分とそれ以外の部分を分けて考える必要があります。タグ部分を取り出すには "<"ではじまり、">"で終わるという部分列ですので、正規表現は"<.+?>"となります。 "."は「任意の文字」、"+"は「1個以上」、"?"は「最短」ということです。「最短」は次の意味です。例：「AAA

BBBCCC」これに対して"<.+>"を指定すると、"

BBB"が抜き出されます。つまり、規定は「最長」なので、">"が見つかるまで、なるべく沢山の文字を含めようとします。 "<.+?>"これだと、「最短」なので、最初に見つかる">" までを含めるようにするので、"

"が抽出されます。よって、"<[^>]+?>"は考えすぎでしたね、間違いではないのですが、冗長でした。更に外字タグ以外のタグがあると困るので、正確には以下のようになります。長いので２行に分けます。 "<\s*gaiji\s+gaijisyurui\s*=\s*['""]{0,1}.{4}['""]{0,1} \s+gaijicode\s*=\s*['""]{0,1}.{4}['""]{0,1}\s*/\s*>" "\s"は空白（タブ含む）を表わし、"*"は「0以上」です。よって、")から、余分な文字を除去すれば目的のものが得られますね。余分な所とは「gaijisyurui」の前、「gaijicode」までの間、「gaijicode」の後の３部分です。１個ずつ３回に分けて処理してもよいのですが、１度でやるため、３パターンを "|"(垂線)でOR結合しました。 "(<\s*gaiji\s+gaijisyurui\s*=\s*['""]{0,1})|" "(['""]{0,1}\s*gaijicode\s*=\s*['""]{0,1})|" "(['""]{0,1}.+>)" 上記に該当する部分をReplaceメソッドで空文字列に置換することで、種類とコードだけが残ることになります。後は"外字"と">"を補えば目的の文字列になります。尚、１パターンずつ処理する時は"()"は不要です。以上の点を踏まえて、先に示したのコードを修正して下さい。正規表現は「慣れ」が必要で、文献など読んでも実際に「練習」を繰り返さないと身に付かないものです。

Wendy02 · Answer

私は、ここ最近いつも、Webサイト解析をしているので、以下のような書き方をしてしまいましたが、
>[0-9a-zA-Z]{4}と、[A-z\d]{4}の違いがよくわかりません。

正しくは、ignorecase で、[A-Z\d]{4} でよかったです。私の悪い癖です。問題は発生しないはずですが、他の人から、突っ込まれる前に書いておきます。すみません。

>IgnoreCaseは、大文字と小文字を区別するオプションだったと思うのですが、
それは逆です。Ignore は、無視するという意味ですから、CASE =Caps を Ignore 無視するという意味です。

Dim r As New System.Text.RegularExpressions.Regex( _
"[A-Z0-9]+")
', _ System.Text.RegularExpressions.RegexOptions.IgnoreCase)
で、AaBbCcDd を検索してみればその違いは分かるはずです。

$1$2は、正規表現のパターンの() で囲った順番です。本来は、同時に取れますが、元のご質問のコードを生かしました。

正規表現の置換はここにあります。
http://msdn.microsoft.com/ja-jp/library/ewy2t5e0(v=VS.80).aspx

Wendy02 · Answer

たぶん、現実は、その部分を抜き出すところが肝心な所になるのではないかと思いますが、関数を修正してみました。

ところで、これって16進の文字コードですよね。[0-9a-zA-Z]{4}
IgnoreCaseを入れているわけだから、[A-z\d]{4} じゃないかしら。

質問コードをそのまま直してみました。

Private Function GaijiChange(ByVal pNaiyo As String) As String
　　Dim re As New System.Text.RegularExpressions.Regex( _
　　　 "<gaiji\s*gaijisyurui=""([A-z\d]{4})""\s*gaijicode=""([A-z\d]{4})""\s*/>", _
　　　 System.Text.RegularExpressions.RegexOptions.IgnoreCase)
　　Dim wNaiyo As String = "" ' 置換後文字列
　　Dim wGaijisyurui As String = ""
　　Dim wGaijicode As String = ""
　　Dim wChangeWord As String = ""
　　Dim wChangeStr As String = ""
　　Dim Work As String = ""
　　Dim wMc As System.Text.RegularExpressions.MatchCollection = re.Matches(pNaiyo)
　　wNaiyo = pNaiyo
　　For Each m As System.Text.RegularExpressions.Match In wMc
　　　　wGaijisyurui = re.Replace(m.Value, "$1")
　　　　wGaijicode = re.Replace(m.Value, "$2")
　　　　wChangeWord = "<外字" & wGaijisyurui & wGaijicode & ">"
　　　　wNaiyo = wNaiyo.Replace(m.Value, wChangeWord)　'※
　　Next
　　Return wNaiyo
End Function

nda23 · Answer

先ずタグ部分を抜き出し、変換して結合させます。

Function GaijiChange(ByVal 文字列 As String) As String
　　'★タグ部分を抜き出す正規表現
　　Dim 検索表現 As Regex = New Regex("<[^>]+?>")
　　'★タグ内部の除去したい文字列を表わす正規表現
　　Dim 置換表現 As Regex = New Regex( _
　　"(<\s*gaiji\s+gaijisyurui\s*=\s*"")|" & _
　　"(""\s+gaijicode\s*=\s*"")|" & _
　　"(""\s*/\s*)", RegexOptions.IgnoreCase)

　　Dim 一致 As Match　　'★タグ部分を表わすオブジェクト
　　Dim 戻り値 As String = "" '★戻り値用文字列
　　Dim 前回位置 As Integer = 0 '★前回処理した文字位置

　　'★タグ部分を抜き出してループする
　　For Each 一致 In 検索表現.Matches(文字列) '一致集合
　　　　'★タグとタグの間の文字列を結合させる
　　　　戻り値 = 戻り値 & 文字列.Substring(前回位置, _
　　　　　　　　　　　　　　　　　　　　一致.Index + 1 - 前回位置)
　　　　'★処理位置を更新する
　　　　前回位置 = 一致.Index + 一致.Length
　　　　'★"外字"とタグ内の不要な文字を除去して結合
　　　　戻り値 = 戻り値 & "外字" & _
　　　　置換表現.Replace(一致.Value, "")
　　Next
　　'★最後のタグの後方を結合する
　　戻り値 = 戻り値 & 文字列.Substring(前回位置)
　　'★戻り値を返す
　　Return 戻り値
End Function

ポイント
(1)一致.Index + 1 - 前回位置
　これで１文字多く繋がる。１文字とは"<"である。
(2)置換表現
　要するに種類とコード以外の部分を全部除去する。
　パターンが３個あるのでOR結合させた。

mitarashi · Answer

VBAじゃ無さそうですが、VBAでやってみます。ご提示のコードを少しひねって下記の様にできます。 Sub test() Dim regEX As Object, Matches As Variant, match As Variant Dim buf As String, replaceString As String buf = "私は、で、です。" Set regEX = CreateObject("VBScript.RegExp") With regEX .MultiLine = False .Pattern = "" .ignorecase = True .Global = True End With Set Matches = regEX.Execute(buf) For Each match In Matches replaceString = "<外字" & match.submatches(0) & match.submatches(1) & ">" regEX.Pattern = match buf = regEX.replace(buf, replaceString) Next match Set Matches = Nothing Set regEX = Nothing Debug.Print buf End Sub でも、下記で十分な気もします。ご参考まで。 Sub test2() Dim buf As String buf = "私は、で、　です。" buf = replace(buf, "gaiji gaijisyurui=", "外字") buf = replace(buf, " gaijicode=", "") buf = replace(buf, """", "") buf = replace(buf, " /", "") Debug.Print buf End Sub

正規表現を使った文字列の検索及び置換について

#2です。

私は、ここ最近いつも、Webサイト解析をしているので、以下のような書き方をしてしまいましたが、

たぶん、現実は、その部分を抜き出すところが肝心な所になるのではないかと思いますが、関数を修正してみました。

先ずタグ部分を抜き出し、変換して結合させます。

VBAじゃ無さそうですが、VBAでやってみます。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング