sedでの最短一致の書き方

Question

csvデータのように二重引用符が現れるデータで、"となっていない " までを最短一致させるにはどう書けばよいでしょうか。

ab"cd"e"fg"hi というデータから
e"fg"hi が得られるsedの命令をお教え下さい。

[^ ]でのクラス化で否定を使うようですが、うまくできません。
下のxxxの部分をお示し下さい。
$ echo ab\"cd"e"fg"hi | sed -e 's/xxx//'

2018年7月15日

kon77 · Accepted Answer

私はそのような場合、以下のようにして処理しています。

s/\"/_ESC_g6d3n8h7v5x7n8_/ ; s/^[^(^")]*"// ; s/_ESC_g6d3n8h7v5x7n8_"/\"/

「"」を一旦「_ESC_g6d3n8h7v5x7n8_」に置換し、メインの置換処理を行ってから戻しているだけです。

範囲は、「行頭」から「"となっていない"」までです。

入力のテキストに「_ESC_g6d3n8h7v5x7n8_」が含まれる場合はうまく行きませんので、100点の方法ではないです。

もっと正攻法でスマートな方法がある気がするので、そこは私も知りたい所です。

runix2007 · Answer

そうだね

Tacosan · Answer

「sed」といってもものによって正規表現は違うのだが, 例えば
^(\"|[^"])*"
くらいかな? もっとエスケープしないといけないかもしれんがそこはてきとうに.

kon77 · Answer

No.2です。

「_ESC_g6d3n8h7v5x7n8_」に意味は全く無いです。

入力テキストの内容の一部と重複しづらい文字列にしているだけです。

使う文字に関しましては、記述が楽な意味を持たない無難な文字を使っているだけです。

サーバーなんかの処理ですと、ユーザーから様々なデータが送られてくると思いますので、こういう文字列では駄目だと思うのですが、ローカルで事務的な作業を行う程度なら、現実的に考えてこの文字列が重複する事はなかなかありえないと思い、このような文字列を使った次第です。

kmee · Answer

ちょっと確認してみました。
Rubyの場合
・CSVモジュールが利用できる
・1行が配列に変換される。
　配列の長さは「その行の項目数」と同じになる。行毎に違えば、それぞれ別になる
・\" というのは、CSV標準の方法ではないためか、対応していない

以上より、
・1行読みこむ
・\" → "" へ変換する
・CSV.parseで分割する
・列数を数える
というプログマムで目的は達成できそうです。

ーーー
https://docs.ruby-lang.org/ja/latest/class/CSV.html
のサンプルを元に

require 'csv'
# ファイルから一行ずつ
CSV.foreach("file.csv") do |row|
  p row
end

で確認したところ「Unclosed quoted field」とエラーに。

http://www.kasai.fm/wiki/rfc4180jp
> 2. CSVの書式の定義
> 7. フィールドがダブルクォーテーションで囲まれている場合、
> フィールドの値に含まれるダブルクォーテーションは、
> その直前にひとつダブルクォーテーションを付加して、
> エスケープしなければならない。

\" → "" に書き換えて再度実行
["ab", "12", "c\"d", "34", "5", "e", "67"]
["fg", "8", "h", "i", "j"]
["kl", "9"]

kmee · Answer

PerlとかPythonとかRubyとかで、CSV操作用モジュールを使う
 という選択肢は無いのですか?

Tacosan · Answer

すみませんが, なにをしたいのかがわかりません. 「\"となっていない " までを最短一致させる」とあるのですが, 「どこから」\"となっていない " までを最短一致させる, というのでしょうか?

下の例, 「ab\"cd"e"fg"hi というデータからe"fg"hi が得られる」も上に書いてあるものとは食い違いがあるようにしか見えません.

sedでの最短一致の書き方

私はそのような場合、以下のようにして処理しています。

そうだね

「sed」といってもものによって正規表現は違うのだが, 例えば

No.2です。

ちょっと確認してみました。

PerlとかPythonとかRubyとかで、CSV操作用モジュールを使う

すみませんが, なにをしたいのかがわかりません. 「\"となっていない " までを最短一致させる」とあるのですが, 「どこから」\"となっていない " までを最短一致させる, というのでしょうか?

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング