こんばんは
HTML、テキストファイル、pdfファイルなどの英文のソースがあったときに、そこで使われている英単語を抽出してテキストファイルやExcelなどで英単語のリストを作りたいのですが、何かよい方法はあるでしょうか?少し調べてみたのですが、形態素解析などをすることになるのでしょうか?どなたか教えていただけると幸いです。
例えば、
「No other region has demonstrated the fragility of both human society and the international community more markedly than Africa.」
という英文があったとき、
Africa
and
demonstrate
has
other
region
…
のように単語を抽出してくれて、できればその意味も
Africa:アフリカ
and:そして
demonstrate:証明する
has:持つ
other:他の
region:地域
…
のようにできるととても助かります。
A 回答 (4件)
- 最新から表示
- 回答順に表示
No.4
- 回答日時:
英文から単語を抽出し、その頻度や使われ方を研究するためのツールがあります。
corpus(言語資料), concordance(用語索引), linguistic tool(言語学用ツール),などで検索するとツールと使い方の説明サイトがあります。
ツールはGUI化されていても動作レベルはCUIレベルで動いている感じで、操作感もそれにちかいものが多いです。
DOSツールやプログラミング経験者であれば簡単ですが、でない場合はちょっと最初の敷居が高いと思います。
日本語で検索されるならとりあえず”コンコーダンスプログラム”でいくつか出てきます。
とりあえずこれらのツールが使えると単語が切り出せます。
訳語を付けるには、単語リストを引数に取って辞書を検索~出力するツールが必要です。
一番簡単な方法は多分Grepを使って単語リストの載っている辞書ページへのリンクを吐き出させることでしょうか。その場合、辞書は英単語、訳語と割と短い文でないとリンクを開かないとリンク先表示が短いGrepでは内容が見えないかも知れません。GrepもいろいろなものがWebにあります。
完全なツールは見たことがありませんが、テキスト系の辞書はWebにも有る程度転がっているので、プログラムが作れるなら自分用のものを作ることは可能かと思います。
PDFはPDFリーダーだと通常文字等の抜き出しができません。PDFライターや相当品のツールをお持ちなら、プロテクトのかかっていないPDFから文字を抜き出しテキストファイルにして処理が可能です。
HTMLの場合、ソースコードにはタグが散らばっています。これをテキスト化するツールはウエブにいろいろあります。(コンこーダンスプログラムは通常プレーンのテキストしか使えない仕様がほとんどです)
No.3
- 回答日時:
先ほど tinantum さんの回答履歴を見させて頂いたところ、数学の専門家の方らしく、Mathematica の経験もあるようですね。
パソコンに詳しくない質問者かと思って書いていた回答を、急いで書き直しました。「英文から英単語の抽出をしたい」だけ、つまりは単語の切り分けだけならば、なにかのプログラム言語を少し勉強して頂ければ、実現できると思います。もちろん GUI は無しです。Mathematica の言語がどのようなものかは分かりませんが。
英語は単語がスペース等で区切られていますので「ファイルを読み込み、1文字目から文字を判別していき、スペースやカンマなどが出たら、そこまでを1単語とする」と言う処理をするプログラムを書けば良いということになります。実際は、ソートや重複処理などもありますが。
テキスト処理の得意なスクリプト、ライトウェイトランゲージといわれるものが適していると思われます。Perl, Python, Ruby など色々あります。マクロ内蔵のテキストエディターなら、そのマクロで組めるかもしれません。Word 等のワープロソフトでも組めるかもしれませんが、大きなファイルでの処理に不安があります。また、その程度の処理であればフリーのソース、その処理ができるように書かれているスクリプト、マクロがネットで見つかるかも知れません。
ただ pdf は面倒だと思います。pdf をテキストファイルに変換する必要があると考えます。pdf は知識薄なので詳しく書けません。HTML はタグを除去する作業を追加する必要が出てきます。
次に「意味をつける」となると、一気に難度が上がります。英語1単語に日本語訳をつけるには、日本語訳のデータベースが必要になると思いますが、フリーは「英辞郎」くらいしか思い浮かびません。
ただし通常、英日データベースでは英語一単語に対し、日本語訳がゾロゾロ出てきます。have を「英辞郎」で調べたら、大項目だけで10でてきました。そのまま使ってしまうと、英語1単語に対し、日本語訳数行~十数行というバランスの悪いリストになりそうです。
「形態素解析」が何に使われるかについて、Wikipedia を確認してみました。Wiki によると、英語における形態素解析は割合と簡単なようですが、合成語と品詞判別の問題が残るそうです。今回問題となるのは合成語の方ではないでしょうか。
tinantum さんが対象として想定されているのは、数学関係の本でしょうか。そうでなくても専門書であれば合成語が多いと思われます。例えば tinantum が回答されていた質問の中にあった「内積空間」を「英辞郎」で調べると、英語では Inner product space となるようです。英文の中にこの単語が出てきたとして、これが 3 単語で1つと認識されずに日本語訳されると、3つそれぞれの英単語に結構な量の別の訳が出てきます。
で、英語の形態素解析ソフトを調べてみたのですが、見つからないですね。どうやら 1段階上の自然言語処理までいってしまうようです。
長くなってしまったので自分なりの結論ですが「英単語の抽出は比較的易しい」、「それに日本語訳をつけるのは難しく、できても使用しにくいリストになりそうだ。良いリストにするには、高度な技術がいる」となるでしょうか
ところでこの質問、パソコン・プログラム関係のカテゴリーに質問されてますでしょうか。そっちの方が専門かな?と思いますが。なお、すでにお知りのことばかり、答えていたらすいません。
大変詳細にご回答くださりありがとうございます.
>パソコンに詳しくない質問者かと思って書いていた回答を、急いで書き直しました。
実は,実際にパソコンはぜんぜんわかっておりません..
プログラムもFortranやMathematicaで見よう見真似で使ったことがあるくらいで,
>テキスト処理の得意なスクリプト、ライトウェイトランゲージといわれるものが適していると思われます。Perl, Python, Ruby など色々あります
この辺りのテキスト処理のプログラムは全く触れたことがありませんでした.これを機会に少し勉強してみようかと思います.
英語の学習目的で,このような目的のものができればよいと思ったのですが,意外に面倒そうですね..今回は数学とは全く関係なかったのですが,趣味で行っている少林寺拳法の英語の講座を行うことになったので,英語があまり得意で無い方にも学習しやすいように,英文と使われている単語とその意味のリストをつけておければ,,と思った次第でした.
> ところでこの質問、パソコン・プログラム関係のカテゴリーに質問されてますでしょうか。そっちの方が専門かな?と思いますが。
そうですね,こちらでも聞いてみたいとおもいます.
ご丁寧なアドヴァイス,どうもありがとうございました.
大変参考になりました.
No.2
- 回答日時:
英単語のリストなら、ネットにもありますが、ある特定の文章の中の単語のリストなら、秀丸エディターとかワードでできるのではないでしょうか?
No other region has demonstrated the fragility of both human society and the international community more markedly than Africa.
だったら、まずテキストファイルにして、半角スペースのところで改行して(正規表現の置き換えを使って)、それから、できた単語をアルファベット順に並び替えて(もちろん手動ではありませんよ)、そして、重複する単語を削除(これはワードのマクロでできるはずです)すれば、かなり大きなデータでも、使われている単語のリストを作ることができます。各単語の横に意味を出力する方法はわかりません。
ご回答ありがとうございます.
なるほど,秀丸でできそうな気がしてきました.
ワードのマクロとか使ったことはないのですが,何かお勧めのサイトなどあればお教えいただけますか?
よろしくお願いします.
No.1
- 回答日時:
既にご存知のことかも知れませんが、
当該文章をメモ帳にはりつけてテキストデータとした後、excelのテキストファイルウイザードを使用しスペース(時にカンマ等)区切りなどで区切ると1セル1単語で、1行19セルに収まります。しかし、その後の処理は素人ですのでわかりません。電子辞書の開発者やデータベースの専門家なら助言が得られるとおもいますので、そちらの方面のカテにても質問されるのはいかがでしょうか。
ご回答ありがとうございました.
教えていただいたテキストファイルのインポート,確かにできました.
あとはこれを一列に並び変えたり,重複を消したり,などすればよさそうですね.
>電子辞書の開発者やデータベースの専門家なら助言が得られるとおもいますので、そちらの方面のカテにても質問されるのはいかがでしょうか。
そうですね.アドヴァイスありがとうございます.
このようなことができれば英語の学習にとても役立つと思うのですが,あまり知られた方法はないですかね・・.
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 英語 There are various anatomical and mucogingival cond 3 2022/05/05 10:28
- 英語 Whatever the total, 15 English is more widely scat 2 2022/12/10 09:36
- 英語 more than doubled 5 2023/01/14 22:12
- 英語 「再び」の接頭辞”re-"を有する単語と文末に"again"を付けた表現のニュアンスに違いについて 1 2022/12/13 12:40
- 英語 下記の英文の日本語訳をお願いします。 1 2023/03/02 10:01
- 英語 課題でこの英語の文章のSVOの分析や()等の括りを出されたため、できるだけ完璧にしたいのですが、自身 1 2022/12/16 13:29
- 英語 英語3 課題でこの英語の文章のSVOの分析や()等の括りを出されたため、できるだけ完璧にしたいのです 1 2022/12/18 02:25
- 英語 The cause of the infection in these cases and in o 1 2023/05/01 10:55
- 英語 下記の英文を日本語に訳して、その意味を教えてください。 1 2023/03/09 14:13
- 英語 英単語帳ってどのように使えばいいですか? 英単語の意味を赤シートで隠して意味を答えるのか 英単語を隠 5 2022/05/05 13:16
このQ&Aを見た人はこんなQ&Aも見ています
関連するカテゴリからQ&Aを探す
医師・看護師・助産師
薬剤師・登録販売者・MR
医療事務・調剤薬局事務
歯科衛生士・歯科助手
臨床検査技師・臨床工学技士
理学療法士・作業療法士・言語聴覚士
臨床心理士・心理カウンセラー・ソーシャルワーカー
介護福祉士・ケアマネージャー・社会福祉士
弁護士・行政書士・司法書士・社会保険労務士
フィナンシャルプランナー(FP)
中小企業診断士
公認会計士・税理士
簿記検定・漢字検定・秘書検定
情報処理技術者・Microsoft認定資格
TOEFL・TOEIC・英語検定
建築士
インテリアコーディネーター
宅地建物取引主任者(宅建)
不動産鑑定士・土地家屋調査士
マンション管理士
電気工事士
美容師・理容師
調理師・管理栄養士・パティシエ
シェフ
保育士・幼稚園教諭
教師・教員
国家公務員・地方公務員
警察官・消防士
その他(職業・資格)
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「T.T.」とは何の略ですか?(...
-
ビジネスの英語で、承認者、作...
-
格とかバージョンの違いを表す...
-
thanがないのにerを使った比較級?
-
KidsとKid’sの違いは?
-
中学3年です。when とthen の...
-
ターゲット1900 例文、派生語の...
-
shippingとshipmentの違い
-
建築 英語
-
英語圏でテクノロジー「technol...
-
接頭語 unが付く単語とinが付く...
-
複数形
-
the one と that の違いは?
-
アルファベットそれぞれで始ま...
-
英検についてです。 私は私立に...
-
both 以上の数の表現
-
英検準一級の勉強法について教...
-
「迎えに行く」という意味の「p...
-
tageとは?
-
階段 steps stairs 違いはあり...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
ビジネスの英語で、承認者、作...
-
格とかバージョンの違いを表す...
-
「T.T.」とは何の略ですか?(...
-
thanがないのにerを使った比較級?
-
ターゲット1900 例文、派生語の...
-
英語圏でテクノロジー「technol...
-
KidsとKid’sの違いは?
-
フランス語で可愛い言葉
-
中学3年です。when とthen の...
-
shippingとshipmentの違い
-
both 以上の数の表現
-
英検2級ってレベル高いですか?...
-
接頭語 unが付く単語とinが付く...
-
建築 英語
-
funeralの覚え方
-
英検準一級本番まであと20日で...
-
「迎えに行く」という意味の「p...
-
英語が苦手な高校生のTOEIC対策
-
訃報を英文で
-
英検2級を持っていたら会話が...
おすすめ情報