プロが教える店舗&オフィスのセキュリティ対策術

UTF8の和文から正規表現で抜き出すと、
行末が「。」の場合に一個の改行コードで二個の改行になってしまいます。
ShiftJISならば、\rを取ればよいのですが、
UTF8では色々やってみても上手く出来ず、どうしたらよいのでしょうか?

A 回答 (3件)

なでしこのほうはなにがしかのプログラムを組んでいるだろうと思われるので


ちょっとわかりませんが、
Speeeedは、文字コードの指定ができないようですけど
検索パターンと、置換パターンにそれぞれどのような指定をされましたか?

可能ならなでしこのプログラムを見せていただきたいのですがどうでしょうか?

この回答への補足

間違えました。
「Speeeeed」はUTF8には未対応でした。
SJISコードのtxtを処理したときでした。

「なでしこ」で書くとこんな感じです。
変数1を「^検索文字列(.*)」で正規表現マッチ
もし、それが空でないならば、変数2に抽出文字列を配列追加

補足日時:2008/05/29 08:44
    • good
    • 0

なんというソフトで、どのように操作して抜き出しをしたのでしょうか?

この回答への補足

今回は、「なでしこ」と言う言語で実行したときの動作ですが、
以前にフリーの置換ソフト「Speeeeed」を使って正規表現置換したときも、二つの改行に見えるのに、一個の改行として処理されることがありました。

どちらも、UTF8のtxtですが、いったいどんな改行コードなんだろうと判らずにいます。

そういえば、どちらも文末で起きていました。
文書末を表すコードとかがくっついていたのでしょうか?

補足日時:2008/05/28 17:02
    • good
    • 0

異常が再現できる最小限のサンプルコードを提示してください。

この回答への補足

UTF-8Nエンコードの外部txtを読ませるので、異常が再現できる最小限のサンプルコードというのはちょっと判りません。

一行ずつ読んで、行頭に特定の文字列があったら、文字列の後の文をtxt出力します。
それをエディタ等で開くと空行が見えますが、空行扱いではないという感じです。

補足日時:2008/05/28 09:49
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!