既出かもしれませんが、ホームページの更新作業を任されたのですが、今までのHTMLページのタグを除いてテキストデータを抽出できる、フリーソフトなるものはあるのでしょうか?

このQ&Aに関連する最新のQ&A

A 回答 (3件)

ありますよ。



【Vector:Html To Text (Windows95/98/Me / インターネット&通信) - ソフトの詳細】
http://www.vector.co.jp/soft/win95/net/se096087. …
    • good
    • 0
この回答へのお礼

ありがとうございました。
おかげで解決しました。

お礼日時:2009/09/10 15:40

特別なソフトを使わずに、テキストで保存じゃダメなんですか?

    • good
    • 0

>フリーソフトなるものはあるのでしょうか?


一杯ある。
    • good
    • 1

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QVBAを使ってHTMLソースから特定の文字列を抽出したいと思っています

VBAを使ってHTMLソースから特定の文字列を抽出したいと思っています。
正規表現を利用してタグに挟まれた文字を抽出したいのですがうまくいきません。
タグごと抽出する方法でも構わないので教えてください。

例えば
<a href="www.yahoo.com△">○○○</a>   ・・・<1>
※△は(www.yahoo.com)+(半角数字1文字)
※○○○は1文字以上の全角文字

このようなパターンの文字列(<1>を丸ごと)を抜き出すには
どのような正規表現を書けばよいでしょうか?
単に<a href ではじまって </a>  で終わる文字列であれば
<a href.*</a>
で良いと思うのですが、もう少し範囲を絞れば目的の文字列だけを抽出できるので
ぜひ実現させたいと思っています。宜しくお願いします。

Aベストアンサー

 正規表現による抽出にこだわらないでしたら、
>例えば
の答えは、[Links プロパティ] により、 下記のような方法で
>タグごと抽出する
こともできますし、
>もう少し範囲を絞れば目的の文字列だけを抽出
することもできます。

Sub test()
 Dim objIE As Object
 Dim i As Long
 Set objIE = CreateObject("InternetExplorer.Application")
 With objIE
  .navigate "http://www.yahoo.com/"
  While .Busy Or .ReadyState <> 4: DoEvents: Wend
  With .Document
   For i = 0 To .Links.Length - 1
    Cells(i + 1, 1) = .Links(i).outerHTML
    Cells(i + 1, 2) = .Links(i).outerText
   Next
  End With
 End With
 objIE.Quit
 Set objIE = Nothing
End Sub

 正規表現による抽出にこだわらないでしたら、
>例えば
の答えは、[Links プロパティ] により、 下記のような方法で
>タグごと抽出する
こともできますし、
>もう少し範囲を絞れば目的の文字列だけを抽出
することもできます。

Sub test()
 Dim objIE As Object
 Dim i As Long
 Set objIE = CreateObject("InternetExplorer.Application")
 With objIE
  .navigate "http://www.yahoo.com/"
  While .Busy Or .ReadyState <> 4: DoEvents: Wend
  With .Document
   For i = 0 To .Links.Lengt...続きを読む

QWebページからテキストを自動で抽出するプログラム

複数のWebページ(html)からテキストだけを抽出する作業を自動で行うツールが必要なのですが、知っているのがあれば教えて欲しいです。
または、それを開発するにはどの言語が教えてくださると嬉しいです。

Webページのテキストの一部でもいいですが、すべてを抽出しても構いません。

Aベストアンサー

「テキストだけ」という条件は、HTMLソースコードからHTMLタグ部分を削除するという感じでしょうか?

であれば、web関係の関数を持ってる言語ならどんな言語でもいけると思いますよ。

なので、もう少し条件が必要です。
・ツールをwindowsから使えるGUIアプリで使いたいのか
・どこかサーバ上で動作させる
・webページの更新まで自動でやるのか
etc・・・

ちなみにPHPならサーバ上で動かす前提ですが、下のようなコードで出来ます。

//webページを読み込む
$res = file_get_contents('http://example.com');

//HTMLタグを除去する
$result = strip_tags($res);

$resultをファイルに保存する

という感じで一つのwebサイトを読み込むことが
出来るので(head内をどうするかとか、詳細は積める必要があります)
これに加えて、何らかの形で読みこみ先URLを保存しておいて、
ループで全部処理するような形にすれば自動的に処理が行えます。

Qphpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきま

phpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきません。

<span class="a">あ</span>
<span class="b">い</span>

<span class="a">う</span>
<span class="b">え</span>

<span class="a">お</span>
<span class="b">か</span>

このようなソースから「あいうえお」の部分だけを抜き出したいのです。

以下のようにしているのですが、改行が無い場合は上手く取得できるのですが、
以下のような形で途中に改行が入っている場合、上手く取得できません。

<span class="a">あ
</span>

このような場合でも取得できるようにするにはどうすればよいでしょうか。

$lines = file("http://~~");

foreach ($lines as $line) {

preg_match('/<span class="a">(.*?)<\/span>/ms', $line, $match);

preg_match('/<span class="b">(.*?)<\/span>/ms', $line, $match);

}

msをつけておりますが、
この場合は1行1行ループしているために意味がない状態になるのでしょうか。

どのようにすれば取得させることができるのでしょうか。
お手数をおかけしますが何卒よろしくお願い致します。

phpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきません。

<span class="a">あ</span>
<span class="b">い</span>

<span class="a">う</span>
<span class="b">え</span>

<span class="a">お</span>
<span class="b">か</span>

このようなソースから「あいうえお」の部分だけを抜き出したいのです。

以下のようにしているのですが、改行が無い場合は上手く取得できるのですが、
以下のような形で途中に改行が入っている場合、上手く取得できません。

<span class="a">あ
</span>

このような...続きを読む

Aベストアンサー

結果の用途がわからないので適切な回答かどうか、ですが次のようなのではどうですか。

$content=file_get_contents("xxx.htnl");

$content=preg_replace("/<span[^>]*>|<\/span>|[\r\n]/","",$content);
print $content;
または、
$content=preg_match_all("/<span[^>]*>[\r\n]*(.+)[\r\n]*<\/span>/",$content,$match);
foreach($match[1] as $str){ print $str; }

Qwebページを簡単にテキスト化

webページをあとでまとめてipodのメモ機能で読むために
プレーンなテキストにしたいのですが、そのようなソフトはありますか?
また、おすすめはありますでしょうか。

Aベストアンサー

こんにちは。

HtoX/HtoX32/HtoX32c HTML=>TEXT変換

エクスプローラの右クリックメニューから実行できて便利。

参考URL:http://win32lab.com/index.html

Qtxtファイルから特定の文字列が書かれた行だけを取得や削除するソフト

txtファイルで
特定の文字列が書かれた行だけを
取得や削除するソフトや方法を探しています。
フリーで無いなら、シェアウェアなどになってもかまいません

例えば
(12)と書かれた文字列がある行だけを抜きだしたり
逆に(12)と書かれた文字列がある行だけを削除したり
したいです。

そのソフトの操作方法も教えてくださると助かります。

では、回答を心よりお待ちしております。

Aベストアンサー

NoEditor
http://www.vector.co.jp/soft/winnt/writing/se300436.html

というフリーのテキストエディタをインストールすると、YokkaGrepというソフトがセットでインストールされます。

検索ディレクトリ、検索文字列(正規表現も可)、ファイル名(ワイルドカードで複数のファイルの検索も可)などをセットして検索できます。

検索結果をテキストファイルやcsvファイルに出力することや、検索文字列を含む行を削除などの機能もあります。

grepで検索すると、他にも似たような機能のソフトがあると思いますが、NoEditor付属のYokkaGrepは、お勧めです。

Qエクセルで、条件に一致した行を別のセルに抜き出す方法

エクセルで、指定した条件に一致するセルを含む行をすべて抜き出す方法が知りたいです。

たとえば、

<A列> <B列> <C列>
7/1 りんご 100円
7/2 ぶどう 200円
7/2 すいか 300円
7/3 みかん 100円

このような表があって、100円を含む行をそのままの形で、
別のセル(同じシート内)に抜き出したいのですが。

7/1 りんご 100円
7/3 みかん 100円

抽出するだけならオートフィルターでもできますが、
抽出結果を自動的に、別の場所に、常に表示させておきたいのです。

初歩的な質問だと思いますが、検索しても分からなかったので、よろしくお願いします。

Aベストアンサー

同じ質問が結構よく出てますが、そんなに初歩的でもありません
別シートのA1セルに「100円」と入力し、そのシートの任意のセルに以下の式を貼り付けて下さい。後は、下方向、右方向にコピー。
日付のセル書式は「日付」形式に再設定してください

=IF(COUNTIF(Sheet1!$C:$C,$A$1)>=ROW(A1),INDEX(Sheet1!A:A,LARGE(INDEX((Sheet1!$C$1:$C$500=$A$1)*ROW(Sheet1!$C$1:$C$500),),COUNTIF(Sheet1!$C:$C,$A$1)-ROW(A1)+1)),"")

データ範囲は500行までとしていますが、必要に応じて変更して下さい

QブログのHTMLから本文を抽出したい

いつもお世話になっています。

ブログのHTMLから本文を抽出したいと思っています。

ヤプログを例にとると、ヤプログのHTMLは以下のようになっています。

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">


<!-- entry -->

 <td class="entry_title">
 <h3>タイトル<span class="date">2005年10月29日(土)</span></h3>

<td class="entry_text">

<div class="entry_layer"><div style="text-align: center;">
<img src="/cafe_life/img/25/cafe67.jpg" border="0">
</div>

<br>
今日はとてもいい天気だったので、<br>
渋谷に買い物に行きました。<br>

<br>
新しいiMacが欲しいなぁ~<br>

<br>
</div>


<!-- entry -->


</html>

そこで、本文を抽出するのに、
<td class="entry_text"> から<!-- entry -->までをHTMLから抽出し、
さらにそれに対してタグを除去するようにしてブログの本文の

「今日はとてもいい天気だったので、
 渋谷に買い物に行きました。
 …
 新しいiMacが欲しいなぁ~」

を抽出させたいと思っています。

このようにするにはプログラムをどのように作成すればよいでしょうか?

よろしくお願いします。

いつもお世話になっています。

ブログのHTMLから本文を抽出したいと思っています。

ヤプログを例にとると、ヤプログのHTMLは以下のようになっています。

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">


<!-- entry -->

 <td class="entry_title">
 <h3>タイトル<span class="date">2005年10月29日(土)</span></h3>

<td class="entry_text">

<div class="entry_layer"><div style="text-align: center;">
<img src="/cafe_life/img/25...続きを読む

Aベストアンサー

HTMLはXMLと違って必ず開始タグ+終タグの関係になっていないので、
ちょっと面倒くさいですが、本文がどこ(どのタグ)から始まり
どこで終わりかが分かっていればString#indexOf、String#substringで
目的の文字列(タグつき本文)が取得できます。

次に余計なタグ(div)を削除し、改行タグ(br)を改行コード(\r\n)に
変換すれば読める文字列になるかと思うのですが。
(もしかしたら文字コードの変換が必要になるかもしれませんが)

変換はString#replaceかString#replaceAllを使ってください。jdkのバージョンによっては後者は使えませんが。

参考URL:http://java.sun.com/j2se/1.4.2/docs/api/index.html

QHTMLからテキスト文抽出

javaである特定のURLからテキストだけをを抜き出すソフトウェアを開発したいのですが、
どのようなオープンソース等を使えばいいでしょうか?
なにかアドバイスください。

Aベストアンサー

http://htmlparser.sourceforge.net/
とか

QEXCELで、特定の文字を含むセルを抽出したいのですが。

仕入れ帳のようなシートで、B列に商品名があります。
商品名に特定の文字(数字又は文字)を含む時、空白列のC列に、その文字を抽出する方法をご教示ください。B列の商品名は変化させずにです。
意図は、当シート内で並べ替えをする時に、C列をキーとするためです。
商品名が、各種文字と数字で構成されており、そのままでは、希望する並べ替えができないのです。
宜しくお願い致します。

Aベストアンサー

「IF」関数、「ISERR」関数、「FIND」関数を組合せれば可能ですね。
たとえば、文字「a」を検索するなら、B2セルを対象として、C2セルに、

=IF(ISERR(FIND("a",B2)),"","aが入っています")

と入れます。

注意事項として、アルファベットを検索する場合、大文字と小文字を区別します。
つまり、上の例ではB2セルに「a」があれば、「aが入っています」、と表示されますが、「A」では表示されません。
(「FIND」を「SEARCH」にすれば「a」・「A」どちらでも表示される)

Q

<div ~ </div> で囲まれたテキスト文字を取得する方法はありますか?

「 <div class="TEST" id="TEST">?</div> 」

上記のような、?部分の表示内容によって、処理を分けたいのです。

Aベストアンサー

手っ取り早いのはinnerHTMLとか・・・
きちんとやるならDOMで処理が必要

<script>
function check(){
var tag=document.getElementById("TEST");
alert(tag.innerHTML)
}
</script>
<div class="TEST" id="TEST">?</div>

<input type="button" value="check" onclick="check()">


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング

おすすめ情報