macのターミナルでファイル内の文字列を置換する方法について

Question

お世話になります。

現在テキスト・エディターで文字列の置換作業を行っております。
エディターで置換を行った後に、ターミナルで特定文字列の抽出作業を行っているのですが、文字列置換作業もターミナルから行う事ができれば、文字列置換と文字列抽出の一連の作業を全てターミナルで行う事が出来るため、可能であれば文字列置換もターミナルから行いたいと思っております。


現在エディターで行っている置換内容は下記の通りになっております。（正規表現利用）

/test/(apple.*?)/
↓

\1


※「/test/(apple.*?)/」を「
\1
」に置換すると言う意味です。

これをターミナルコマンドから該当ファイル(ファイル名は「wordtest1.txt」)内の文字列を一括で置換するには、どのように記述すれば良いでしょうか？
置換後は別名ファイルで保存したいと思っています。
元ファイル「wordtest1.txt」を読み込んで文字列置換を行い、「wordtest2.txt」として保存。

お力を貸して頂ければ助かります。
よろしくお願い致します。

kmee · Accepted Answer

perl には s/// による置き換えがあります。
これは エディタの置換機能に対応させると
s/検索パターン/置換文字列/
となります。パターンや置換文字列に / を含む場合、 パターン中の / を /と書くか、区切り用の文字を / から別の文字に変えるかします。

正規表現は言語、コマンド等によって違うので注意しましょう。

よりくわしくは、PerlDoc  等を参考にしてください。

http://perldoc.jp/docs/perl/5.18.1/perlretut.pod
http://perldoc.jp/docs/perl/5.14.1/perlre.pod

おまけ:
○連続してコマンドを実行する方法:
→シェルスクリプトを使います。例えば

perl -npe 's|/test/(apple.*?)/|
$1
|;' wordtest1.txt > wordtest2.txt
grep -o ^apple.*$ wordtest2.txt > wordtest3.txt
awk '!a[$0]++' wordtest3.txt > wordtest4.txt

というファイル wortest.sh を作って
sh wordtest.sh
で連続で行えます。

→ コマンドを ; で区切ると、1行で書いたものを連続で実行します
perl -npe 's|/test/(apple.*?)/|
$1
|;' wordtest1.txt > wordtest2.txt ; grep -o ^apple.*$ wordtest2.txt > wordtest3.txt ; awk '!a[$0]++' wordtest3.txt > wordtest4.txt

→ 中間ファイル (wordtest2.txt, wordtest3.txt)が不要なら、パイプが使えます。
パイプは前段の標準出力と後段の標準入力を継げます
perl -npe 's|/test/(apple.*?)/|
$1
|;' wordtest1.txt  grep -o '^apple.*$' | awk '!a[$0]++' > wordtest4.txt

→ 並び順が変ってよいのなら、 awk の部分は sortコマンドの -uオプションが使えます。
→ 3つの内容をperlで一つに纏めることができます。

kmee · Answer

#2に書いたURL や
http://perldoc.jp/docs/perl/5.20.1/perlop.pod#Regexp32Quote-Like32Operators
「Perl 正規表現 置換」等で調べてみてください。

s|/test/(apple.*?)/|
$1
|g
と、gオプションを付けることで、1行に複数あった場合にその全てが対象になります。

どのエディタを使っているかがわかりませんが。
現在なら、無難なのはUTF-8だと思います。

kmee · Answer

バックスラッシュと円記号にはややこしい歴史がありまして。
正しくASCIIコード0x5cのバックスラッシュでないと、プログラムとしては期待した動作をしてくれません。

od -t x1c wordtest.sh
で、各文字の文字コード付きのダンプリストが出力されます。
これで、バックスラッシュの上がどうなっているか、確認してください。

5cになっていなかったら、5cになるように工夫が必要です。
Option+\で入力してみるとか
保存に使ったエディタで、文字コードを変えてみるとか。

kmee · Answer

○ ; て継ぐのは、1行で書くためのものです。
ターミナルでコマンド入力するときとか。

ファイルに保存して実行させる場合には、1行に1コマンド書けば、 ; は不要です。

cat test/* > wordtest1.txt
perl -npe 's|/test/(apple.*?)/|
$1
|;' wordtest1.txt > wordtest2.txt
grep -o '^apple.*$' wordtest2.txt > wordtest3.txt
awk '!a[$0]++' wordtest3.txt > wordtest4.txt

○ ^apple.*$ のような文字列をそのまま書くと、*とか$とかがシェルで展開されることもあります。
引用符でくくる等するのがよいでしょう。

○「うまくいかない」だけだと判断しかねます。
・なにかエラーになっているなら、そのエラーを書く
・せっかく中間状態がファイルに残っているのですから、どのファイルが期待と違う調べる。
　そうすれば、どこに間違いがあるかの目安になる。
・sh -x wordtest.sh 
　と-xオプションを付けると、実際に実行する内容が出力されるので、期待通りになっているか確認する

kmee · Answer

MacOSのターミナルでは、UNIX標準のものが使えます。

定番は sed 
https://developer.apple.com/library/mac/documentation/Darwin/Reference/ManPages/man1/sed.1.html

ただ、 *?はそのままsedでは使えないので、正規表現の機能が豊富な perl で「ワンライナー」というのがいいかもしれません。

macのターミナルでファイル内の文字列を置換する方法について

perl には s/// による置き換えがあります。

#2に書いたURL や

バックスラッシュと円記号にはややこしい歴史がありまして。

○ ; て継ぐのは、1行で書くためのものです。

MacOSのターミナルでは、UNIX標準のものが使えます。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング