この人頭いいなと思ったエピソード

以前同様の質問をしましたが、
具体的に内容を書きます。

XMLファイルを読み込みで、
余分な空白や空行をとるため、
下記のソースを実行しました。

xml_str = xml_str.gsub(/>\s+/, ">")
xml_str = xml_str.gsub(/\s+</, "<")

すると、Segmentation Faultが発生します。

困るのは、必ずある条件で発生するのではなく、
ソースの修正に合わせて(XMLの方ではなく)
起こったり、起こらなかったりするのです。

ネットで調べた結果
なんとなくgsubとstrip的なことを組み合わたときに
発生するのかな?という気もしています。

もし、回避方法をご存知の方がいましたら
教えてください。

ちなみに、
自分でgsubメソッドも作ってみましたが、
result << t_str[pre_pos..pos - 1]
で同じエラーが発生しました。
もうお手上げです(TT)
patternは正規表現です

def self.gsub(str, pattern, replacement = "")

t_str = str
pre_pos = 0
pos = t_str =~ pattern
return t_str unless pos

result = ""
while pos
rep_str = Regexp.last_match[0]
len = rep_str.length

result << t_str[pre_pos..pos - 1]
result << replacement
pre_pos = pos + len
pos = t_str =~ pattern
end

result << t_str[pre_pos..-1]

return result

end

A 回答 (1件)

Ruby自体のバグのようですから、ソースの修正によって発生したりしなかったりするということもあるでしょう。

差し支えない範囲で、再現するに足るソースとXMLデータをいただければRubyを修正できる可能性もあります。あるいは、新しいバージョンのRubyでは修正されていることを確認できるかも知れません。

(1) xml_strを取得する部分も含めて、完全なソースをいただけますか?
xml_str = xml_str.gsub(/>\s+/, ">")
xml_str = xml_str.gsub(/\s+</, "<")

(2) 差し支えない範囲で、再現に足るXMLデータをいただけますか

(3) 念のため、Rubyのバージョン(ruby -vの結果)を再度いただけますか。

この回答への補足

ご回答いただき、ありがとうございます。

ソースについては(1)のソースより前は
File.readくらいです。
ただ、XML自体は5万行ほどあります。
大変申し訳ないのですが、
仕事用なのでデータを出すことができません。
下記のものが5000個くらい並んでいます。
<?xml version="1.0" encoding="UTF-8"?>
<kanji>
<KanChar char="亜">
<read>
<On>ア</On>
<Kun>つ…ぐ</Kun>
<Name>つぎ</Name>
<Name>つぐ</Name>
</read>
</char>



</kanji>

ファイルはUTF-8になっています。

ruby -vの出力は以下のとおりです
ruby 1.9.1p376 (2009-12-07 revision 26041)

実行環境はlinuxです。
このバグの対応方法に行き詰まっています。
最悪、Cでソースを作って、読み込ませようかと思っていますが、
正規表現までの対応まで考えると
頭の痛いところです。

お手数かけますが、
ご対応いただけましたら、本当に助かります。

補足日時:2010/03/12 21:13
    • good
    • 0
この回答へのお礼

次の2点を行ったことで、
今のところうまく動いているような気がします。
(1)結局、Cのgsubを作りました。
(2)処理の前後でガベージコレクションを止める(GC.disable)

ご回答ありがとうございました。

お礼日時:2010/03/16 16:17

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!