javascriptのreplaceについて

Question

javascriptを使って青空文庫のルビを削除したいと考えています。例えば以下のような文章です。「みんながうまそうに食べている最中（さなか）に、こんな話は禁物だ。… これを「みんながうまそうに食べている最中に、こんな話は禁物だ。… というようにしたいと思っています。そこで、以下のようなコードを書いたのですが、どうもうまく動いてくれません。 ----------------------------------------------------------------------- doc = temp.replace(/(.+)<\/rb>.+<\/rp>.+<\/rt>.+<\/rp><\/ruby>/gi, "$1"); 処理結果：「みんながうまそうに食べている最中（さなか）に、こんな話は禁物だ。… ----------------------------------------------------------------------- どこが誤っているのでしょうか？ご指導お願いします。

duron · Accepted Answer

正規表現で「.+」とすると任意の文字1文字以上となりますので(.+)に該当するのは

「最中・・・」から最後に出現するルビの部分になってしまいます。
「.+?」とすれば最小の文字列でマッチングする部分、となりますので
doc = temp.replace(/<ruby><rb>(.+?)<\/rb><rp>.+?<\/rp><rt>.+?<\/rt><rp>.+?<\/rp><\/ruby>/gi, "$1");
とすればうまくいくのではないかと思います。

おいしい最中(もなか)が食べたくなってきました・・・。

think49 · Answer

おそらく質問文中と同じ論理構造とは限らないのですよね…。もう少し簡単に考えてみてはどうでしょうか。・rt要素, rp要素を子要素を含めて削除する・ruby要素, rb要素を子要素を残して削除する (※以下、全角空白は半角空白に置換してください) ---

みんながうまそうに食べている最中（さなか）に、こんな話は禁物だ。

みんながうまそうに食べている最中さなかに、こんな話は禁物だ。

---

H240S18B73 · Answer

ExtendScript Toolkit上では動きました

＜が処理の段階ではエスケープされてて
&ltになってるとかじゃないでしょうか

でも#1の方のいわれてるように
最小一致にはしておいたほうがいいかと思います

think49 · Answer

#2 です。
以下、正規表現で実装するケースです。(#2 と考え方は同じ)

https://gist.github.com/743362 を取り込んで、

---
(function () {
　function AozoraBunko (string) {
　　this.string = string + '';
　　return this;
　}
　AozoraBunko.prototype.removeAllTags = function (tagName /*, deep*/) {
　　this.string = removeAllTags (this.string, tagName, arguments[1]);
　　return this;
　}

var aozoraString, aozora;

aozoraString = [
　　'みんながうまそうに食べている\u003Cruby\u003E\u003Crb\u003E最中\u003C/rb\u003E\u003Crp\u003E（\u003C/rp\u003E\u003Crt\u003Eさなか\u003C/rt\u003E\u003Crp\u003E）\u003C/rp\u003E\u003C/ruby\u003Eに、こんな話は禁物だ。',
　　'みんながうまそうに食べている\u003Cruby\u003E\u003Crb\u003E最中\u003C/rb\u003E\u003Crt\u003Eさなか\u003C/rt\u003E\u003C/ruby\u003Eに、こんな話は禁物だ。'
　].join('
');
　aozora = new AozoraBunko(aozoraString).removeAllTags('rt', true).removeAllTags('rp', true).removeAllTags('rb', false).removeAllTags('ruby', false);

alert([aozoraString, aozora.string].join('
\u3000\u2193
'));
})();
---

# 全角空白は半角空白に置換してください。

think49 · Answer

#2, 4 です。

https://gist.github.com/743362 を更新して function removeTagsAll を入れ子のタグにも対応してみました。
"<ruby><ruby>hogehoge</ruby></ruby>" のようなタグの対応関係を認識して "hogehoge" に置換してくれます。(ruby要素は入れ子にならない仕様のようですが、念のため)
関数名が「removeAllNodes → removeNodesAll」「removeAllTags → removeTagsAll」に変更されているので、#2, 4 のコードを利用する場合は適宜修正してください。

元々のフォーマットが XHTML に準拠しているならDOM操作。
そうでないなら、正規表現で置換するという選択肢もありかなと思います。

javascriptのreplaceについて

正規表現で「.+」とすると任意の文字1文字以上となりますので(.+)に該当するのは

おそらく質問文中と同じ論理構造とは限らないのですよね…。

ExtendScript Toolkit上では動きました

#2 です。

#2, 4 です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング