アプリ版:「スタンプのみでお礼する」機能のリリースについて

当方、言語学の専門ではありませんが、
語源学や形態論に興味があります。

とくに英語の語源に関心があり、気が向いたら書店で、
語源学や形態素解析の書籍を漁るようにしています。

質問ですが、
1)形態素解析の目標は、文章中の単語の品詞のタグ付けでしょうか。
 あるいは、単語の構造まで踏み入って接辞や語幹の構造単位まで
 解析することでしょうか。

2)英語を形態素解析するプログラムやライブラリを探してみると、
 品詞のタグ付けまで行なうものを見かけるのですが、
 単語スケールより小さい階層の形態素解析まで行なうツールはあるでしょうか。
 (書籍を何冊か見回った限りでは、単語スケールまでやれば満足、
  という本が多かったように思います)

3)英語では各論的に語源スケールまで、日本語では単語スケールまで、
 形態素解析を行なう書籍が多いと感じていますが、私自身は、
 「形態素解析」を謳うのであれば、一律に語源まで辿って欲しいと感じます。
 形態論の到達目標というのは言語間や専門家間で、価値観が異なるのでしょうか。

4)そもそも、形態素解析の適用対象というのは、
 どの階層まで、と決められたものなのでしょうか。
 (階層構造を定義できる情報なら、文字単位や文脈単位の階層も、
  形態素解析の対象になりそうな気がします)

長文で恐縮ですが、ご回答よろしくお願いします。

質問者からの補足コメント

  • なおフランス語の母音配置はユニークなので、経由しているか見分けるのは比較的容易かもしれません。
    また単語の不規則変化形を形態素解析したいわけではなく、
    原形自体の解析と原形に付加された形態素(null morphemeは表出すらしませんが)
    の由来の分類を自動化したいと考えています。
    http://www.mathcs.duq.edu/~packer/Courses/Psy598 …

    逸れますが漢字圏であれば、六書に基づいて文字の階層まで構造解析でき、
    より広い階層で解析できそうなので、使う文字を精選すれば、
    文字階層から文脈階層まで、一つのテーマに沿って文章を構築できる可能性がある、
    ような気がしています。

    No.1の回答に寄せられた補足コメントです。 補足日時:2017/07/27 20:43
  • へこむわー

    > dhe (PIE) からfaker (latin) への変遷はラテン語の造語則を把握しないと理解困難ですが、

    と書いてしまいましたが、
    「dhe- (PIE) から facere (latin)」でした。

    Macのお節介が邪魔臭くてしょうがないです汗

      補足日時:2017/07/27 20:55
  • へこむわー

    なんどもすみません。

    「difficult」を入力とした場合、
    「構造(difficult = dif + ficult)」と
    「備考(dhe- -> ・・・ -> difficult)(変遷ダイアグラムに限らず由来説明)」、
    の2項目を自動出力することができれば、自分にとってはゴールです。

    「dichlorodiphenyltrichloroethane」とか「antidisestablishmentarianism」になると、
    もはや歴史的経緯は興味なく、単純に分解構造を出力したいですね。
    これくらいの構造解析すらしてくれる解析器が見当たらないので、
    不都合を感じているところです。

    まずはできるところから着手してみます。
    (だれか作ってくれないかなw)
    ありがとうございました。

      補足日時:2017/07/27 21:22
  • つらい・・・

    なお、語源辞書を作るのが目的ではないです。

    多少正確性に欠けても、
    用語理解のヒントを出力することが重要と考えています。

    辞書には無理で解析器にできることとして、
    「(実在しなくても)こういう単語があった場合に、
    この単語の由来はこうだと考えられる」
    という機能があります。

    このような機能を持ったツールは、
    (たとえ真実の語源が分からなくても)
    用語概念としてはそのように理解できる、
    という納得を学習者に与えることができます。
    新造語出現率が高い分野では重宝される、
    と考えています。

    逆に危惧していることは、
    ある用語の真の意味と全く異なる意味を示唆する
    解析器になってしまい兼ねない、ということです。
    この点に関しては、「私は言語学畑の人間ではないので、
    明らかにおかしな由来説明をしてしまったら、
    その時はごめんなさい」などと抜かして、
    やり過ごすつもりです(ヘタレ

    No.2の回答に寄せられた補足コメントです。 補足日時:2017/07/28 09:49

A 回答 (3件)

>多少正確性に欠けても、


>ある用語の真の意味と全く異なる意味を示唆する解析器になってしまい兼ねない

どの程度の誤差までなら容認するかということになりますけどね。
うまくいかない例ならいくらでも思いつきます。

たとえば、同音異義語の多さが壁になります。
辞書で a- とか re- とか in- をひくといやになります。
結局は一語ずつ登録するしかない。

紛らわしいのも多い。
tri- は3かと思うと、trich(o)- は「毛髪」です。
trichologist は毛髪学者で、trichotomy は三分法。
結局は一語ずつ登録するしかない。

固有名詞がもとのになったものもやっかい。
boycott や sandwich のように、有名なのはいいとして、フラーレン(fullerene)はあまり知られていないでしょう。
buckminsterfullerene を分解されても困る。
結局は一語ずつ登録するしかない。

新造語というのも困りもの。
smog や blog はもちろん、Aketon(acetone)から作られた ketone は分解できない。
結局は一語ずつ登録するしかない。

DDD のような頭字語もお手上げ。
結局は一語ずつ登録するしかない。

結局、語源辞典を移植するだけに終わり、労多くして功少なし。
いくら楽天的な工学系の人でも、そんなことはなかなか手を出せないでしょう。


少々間違っててもいいんだ、はじめはしようがないじゃないか、少しずつ修正していけばいいんだ、というのは、金にならないことをいとわない snk21013 にしかできないことです。
陰ながら応援しています。(いや、皮肉ではなく)
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

具体的に突き当たりそうな問題を列挙して頂き、
大変感謝いたします。

おかげ様で、問題設定と覚悟すべき事柄が、
いくらか明確化されたと思います。

私にとって語源学は営利目的ではなくライフワークなので、
引き続き継続してまいります。

建設的なご意見、誠にありがとうございました。
(いやそれでも面倒なので誰かにやって欲しいw

お礼日時:2017/07/29 14:32

おっしゃっていることは、結局のところ、語源辞書の電子化に過ぎないように思われます。


それならもうあるので、無駄ではありませんか?
この回答への補足あり
    • good
    • 0
この回答へのお礼

コメントありがとうございます。

語源情報が乏しくほぼ無い分野も沢山あり、
(分野外から情報源としてまとめてくれる人材が入ってこないです泣)
私はそのような分野のひとつに属しているので、
それら分野の人たちが用語概念の勉強に役立つような
(本音は自分が学んでいる間に欲しかった)、
情報源を用意するのが目的です。

私の探し方が悪いだけ、と言われそうですが、
長年書店やネットで漁ってきましたが、
私の分野の用語に関して大御所的な情報源には、
今の所お目にかかれていません。
(たまにこれは、というものが現れても、
各論的な紹介にとどまり、網羅性や新規性に欠けます)

分野の発展が速く、新造語の頻度も著しく高いので、
いちいちまとめることに不毛さを感じることはあります。
しかし、タイムリーさよりも用語理解のヒントを
学んでいる人たちに提供する必要性をずっと感じてきました。

私のまわりには、専門用語がなぜに、
そんなネーミングなのか、理不尽さを感じながら
精進している方々が多いです。
私は性格柄、(網羅的でない)情報源を周囲に
トピック紹介することに努めてきましたが、
それこそ不毛で、一つにまとめて公開するのが速い、
と痛感してきました。

・・・永くなってしまいましたが、
以上が私のおかれた現状です。

P.S. 語源学者さんたち、私の分野は需要あると思うので、
入ってきて仕事してください(切実宣伝w

お礼日時:2017/07/28 09:33

う~ん、本屋に行って本棚が欲しいというような、あるいは、ラテン語の辞書でシェークスピアを読もうとするような、そんな感じですねえ。



語源と形態素はまるで違います。
屈折と派生の区別から説明しなければなりませんが、まともにやるとそれはそれは面倒なので割愛。

まず、語が全て形態素の組み合わせだと考えるのは誤りです。
完全な膠着語でなければ無意味です。

feet や mice の複数形態素はどこでしょう?
wolves や houses の形態素の切れ目は?
break と broke は? 
原形の hit と過去形の hit では、現在形の形態素と過去形の形態素があるんでしょうか?



次に語源の話。
difficult は結構複雑な歴史を持っています。
直接には、difficulty からの逆成です。では difficulty がどこから来たかというと、古いフランス語の difficulté から。
で、こいつはラテン語の difficultas がもと。
でさらにこれは否定の dis- + facilis (“easy”)。
でもこれは difficult を分割してできるものではない。


形態素分析というのは、今ある語の分解。
語源は今となっては見えにくくなった単語の成り立ちをさかのぼること。
似たように見えるかもしれませんが、似て非なるものです。

つまり英語では語を形態素に分解すること自体がそもそもあり得ない話です。
ましてや語源にさかのぼるなど、無意味です。


理系の人たちは構文解析を行う構文解析器(parser)の開発に躍起になっていますし、その成果はGoogle翻訳などの自動翻訳機としてすでにおなじみです。
しかしそのためには単語にタグ付けさえしてあればいいので、それ以上は不毛です。
できもしないことはしない人たちですから。
この回答への補足あり
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

一般的な形態素解析は、
確かに「今ある語」の分解なのかもしれませんが、
現状に納得できていないです笑
自分の関心は、一般的な形態素解析をすることではないと自覚しています。

歴史的発展の経緯(語形変遷の文脈)をカテゴライズ
(初出の年代や文献や使用者、ラテン語由来かギリシャ語由来か、
どの国からの借用語か、どの国々を行き来したか、逆輸入語か、
派生語はどのような品詞の順で造語されていったか、
鞄語か、ジャーゴンか、学術用語か、など)して、
単語の形態素(や自由形態素の場合は単語自体)に成立過程をタグ付けすれば、
単語の形態論が語源学的なアプローチを取り込むことになり、
単語の階層で成立分類を自動化できるのではないかと考えています。

おっしゃるようにdifficultの解析は難しいと思いますが、この場合の解析ゴールは、
「dhe -> facere -> facilis -(+dis)-> difficilis ->
 difficultatem {difficultas, nominative} ->difficulte -> difficulty -> difficult」
と自動的に出力させることだと思います。
dhe (PIE) からfaker (latin) への変遷はラテン語の造語則を把握しないと理解困難ですが、
個人的には満足できています。

自由形態素の解析は上記アプローチで自分は満足できそうな気がしているのですが、
接辞のような拘束形態素は、言語自体の成立過程まで遡らないといけないので、
そのような情報源にはお目に掛かれる気がしないと諦念しています。
(勉強したことはないですが、エスペラントのような若い言語の設計思想が、
情報源として閲覧できるかもしれないので、拘束形態素のタギングも、
ルールの答えを知ることができなくてもヒントくらいはあるかもしれません)

お礼日時:2017/07/27 20:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!