アプリ版:「スタンプのみでお礼する」機能のリリースについて

Cygwinを使用しています。あるディレクトリ以下のすべてのHTMLファイルから、リンクされているURLを抜きだしてテキストファイルに出力したいのですが、
grep -r 'href="http' ディレクトリ
とやってURLをふくむ行を抜きだしたあと、どうすればいいのか分からなくなってしまいました。sedやawkを使えばできるかと思っているのですが・・・。

初歩的な質問で申し訳ありませんが、よろしくお願いしますm(_ _)m

A 回答 (2件)

一行にひとつのリンクしかないなら、コマンドラインで



 $ cat ファイル名 | tr 'A-Z' 'a-z' | grep "href=" | sed -e 's/[^\n]*href=["'\'']//' | sed -e 's/["'\'' >][^\n]*//' > 出力ファイル名

たとえばこんな感じ。
    • good
    • 0
この回答へのお礼

sedでURL以外のところを消す、という方法でしょうか。
それでやってみます。ありがとうございます。

お礼日時:2004/08/14 18:58

ファイルにリダイレクトしましょう。



grep -r 'href="http' ディレクトリ > url.txt

とやれば、grepの結果がurl.txtというテキストファイルに吐き出されます。
あとはviやらlessやらで見ることができます。
    • good
    • 0
この回答へのお礼

あ、リダイレクトは知っていました。
不要なタグなどを除去し、URLだけの状態にしたかったんです。言葉足らずで申し訳ありません。

お礼日時:2004/08/14 18:54

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!