アプリ版:「スタンプのみでお礼する」機能のリリースについて

28個の単語リストがあります。
全ての単語に、「アー」という音が1回以上出て来ます。
具体的には、2単語だけ2回「アー」が出て来て、残りの26個の単語は1回だけ。
(これが重要かどうかはわかりませんが、念のため)

計30個の「アー」は、8通りの文字で書かれます。(ここでは簡単にA~Hを使います)
頻度は以下の通りです。

A:10回
B:7回
C:4回
D:4回
E:2回
F:1回
G:1回
H:1回

おそらく、A, B, C, Dの4つは、この単語リスト以外の単語や、新しい単語が作られた時にも、「アー」という音を表すために、積極的に使われるんじゃないかと思います。

逆に、E, F, G, Hに関しては、
例えば「はっとり」という音を「服部」と書くような(「発鳥」とか「初取」とかではなく笑)、例外的な書き方というか、
その単語に関してだけたまたま使われてるだけで、生産性はない、「アー」という音を積極的に表すためには用いられないんじゃないかな、と僕はふんでいるのです。

これを、統計的に説明する方法はあるでしょうか?
A〜Dはp<0.05で、E~Hはp>0.05になるとか、そういう類いの方法で。
つまり、A~Dの文字が使われるのは、偶然以上の確率だと示せる方法。

いえ、なければあきらめます。


余談ですが、手持ちの単語リストには、424語ありますが、「アー」という音が出てくるのが28語だけなのです。(重要な情報かどうかわかりませんが念のため。)

質問者からの補足コメント

  • >> 今回は単純に、文字と発音の関係だけを見たいのですよ。
    >と仰るのと、方向性がなんとなく合うような気もします。

    はい。実をいうと、実際に人間の被験者で読み方と書き方を調べる実験も、同時進行で行っているのです。それで、辞書の見出し語で調べた結果と比べる予定なのです。

    No.4の回答に寄せられた補足コメントです。 補足日時:2015/09/08 00:24
  • なるほど、辞書等から単語を拾う方法だと、同じ実験を繰り返しできない(しにくい)、という点で、検定をかける上で問題があるわけなんですね。

    今回の単語リストは、実は辞書からとったわけではないのですが、本質は同じことでしょう。

    ただ、あくまでシロートの質問ですが、このことに関して、次回お聞きしたいことがあります。

      補足日時:2015/09/08 08:57
  • というか、この先新しい単語が作られる時、「アー」という音を表すのに、どの文字が使われる可能性が高いか?ということを、既存のデータから予測できたらいいな、と思ってるんですが、そういう方法は無いんでしょうか?無いなら良いです。

    No.6の回答に寄せられた補足コメントです。 補足日時:2015/09/08 13:54
  • 今まで30回「アー」という音が出て来た時、A~Hの文字が使われた。
    では、31回目の「アー」は、何の文字が使われる確率が高いのか?

    たぶん、完全に偶然なら1/55の確率ですよね?

    じゃあ今後10回、100回「アー」が出て来た時、特にDとかEとかの頻度の低い文字が出る確率は、あくまで1/55なのか?それとも、もっと高いのか?

    みたいなことを知る事ができたらいいな、と思ってるんですが、だめでしょうか?

    シロートの僕には、偏ったサイコロの目の予測と同じに見えてしまうんですが、、、違うんですか?

      補足日時:2015/09/08 14:27
  • いやいやお気持ちはわかります。

    以前、全く別分野の専門の友人が、言語学をちょっと使わないといけないので、教えてほしいと言われました。だから僕は「このサイトで勉強できるよ」と教えたところ、「それをいちいち見てると効率が悪いからその時間をはぶきたい」と言われました。

    その時は、「努力する気がないなら、一生その実力は身に付かないぞ」と思ってました。

    きっと今のstomachmanさんも同じ気持ちなんでしょうね。

      補足日時:2015/09/09 09:19
  • 実を言うと、言語学では、統計は全くのシロートが多いです。
    でも、論文を出版する時、検定をかけてもかけなくても良い所で、検定を使わないと論文が通りづらく、とりあえず検定を使った方が論文がとおりやすいので、言語学の人達は、検定をかけてもかけなくてもいい所だとわかっていても、とりあえず見栄えを良くするために、かけるというのが現状なのです。僕の今回の質問もその例の1つです。

    統計が専門の人からしたら、けしからん!と憤慨されるでしょうね。

      補足日時:2015/09/09 11:31

A 回答 (9件)

ANo.4へのコメントについてです。



「k種類ある互いに排他的な事象のうち、事象E[i]が確率p[i] (i=1〜k)でランダムに生じる(ただしp[1]+…+p[k]=1)」という帰無仮説に対して、サンプル数Nのうち現象E[i]の頻度がr[i] (i=1〜k)という実験結果を得た。という話の場合を流用しようってことですね。
 しつこいけれども、これはあくまでも「辞書に現れる事例の数を、背後にある確率的法則から生じた結果としての「頻度」だ、と捉えることに首肯してもらえるなら」という条件付きの話です。なにしろ、本来あるべき「無尽の母集団からランダムに取ったサンプルが有限個ある」という状況とは全然違う。もしstomachmanが査読者ならクレームを付けるだろうな。ってのはひとまず置くとして。

  H[i]:「事象E[i]が確率p[i]で、E[i]以外が確率(1-p[i])で、ランダムに生じる」
という帰無仮説を考えます。すると、N回中E[i]が丁度r[i]回現れる確率は二項分布
  P(N,r[i],p[i]) =(N!/(r[i]! (N-r[i])!)) (p[i]^r[i]) ((1-p[i])^(N-r[i]))
に従う。もちろん、E[i](i=1〜k)がどれも等確率なら、p[i]=1/kであり、
  P(N,r[i],1/k) = (N!/(r[i]! (N-r[i])!)) (((k-1)/k)^(N-r)) (k^(-r))
ですね。なお、(N!/(r! (N-r)!)) は、Excelでは関数"combin(N, r)"で計算します。
 (もしNが充分大きければ、
  P(N,r,p) ≒ exp(-((r-Np)^2)/(2Np(1-p))) / (√(2πNp(1-p))
つまり正規分布で近似できるのだけれども、この場合にはNが比較的小さいんで、直に計算してしまう方が言い訳が少なくて済みそうだ。)

 さて、E[i]がr[i]回以上起こる確率は
  S[i] = Σ{h=r[i]〜N} P(N,h,p[i])
である。E[i]がr[i]回以下起こる確率は
  T[i] = Σ{h=0〜r[i]} P(N,h,p[i]) = 1-S[i] + P(N,r[i],p[i])
である。どちらか小さい方
  Q[i] = min(S[i], T[i])
が有意水準未満であれば、帰無仮説H[i]は棄却できる、ってことです。

 ただし、DEFGH(あるいは55種類)全部について検定を繰り返すことは、統計学で言う「多重検定」をやっていることになり、有意な結果がちょっとだけ出やすくなる、というバイアスが発生するので、厳密に言えばこれを補正しなくてはいけない。ま、実用上は、判定を誤る確率が有意水準を少々越えるとしても、その有意水準を予め厳しめに設定しておけば実際には問題にはならない。そういう手抜きがしばしば行われますけれども、論文にするんなら、もうちっときっちりやっておきたいな。
 で、「k回行う検定のうちどれか一つでも、「偶然の偏り」のせいで本来棄却できない帰無仮説H[i]を誤って棄却してしまう確率」Rが有意水準未満なら文句はないでしょ、と考える。すると、「棄却できると判定した帰無仮説の番号の集合」をJとして、棄却すべきでない帰無仮説H[i]をひとつでも誤って棄却してしまう」ということが発生する確率Rは
  R ≒ 1-Π{i∈J} (1-Q[i])
であり、Rが有意水準未満であれば文句なかろう。
 (でもこれだと、Rが有意水準を越えたら実験全体を捨てることになっちゃうな。いやいや、もう少し厳密な議論に基づくスマートな補正の考え方が確かあった筈なんですが、その資料がですね、半径2m以内にあることは分かっているんです。ただ、その空間にはざっと見て2000は下らない本やノートが乱雑に積み上げられているというのが問題でして、miningにしばらく掛かりそうです。)

 ところで、有意水準をどう設定すべきか。これが大問題です。
 背後にある確率的法則から生じた結果としての「頻度」を見ているのなら、言い換えれば、無尽の母集団からランダムにサンプルを取ったのであれば、「何度でもサンプルを取り直して実験を繰り返せる。それら多数の、互いに独立な実験のうちのどれだけが「偶然の偏り」によって誤った結論を導くか」が「有意水準」の本来の意味です。しかし、ご質問の場合は互いに独立な実験を繰り返すことはできないから、明らかにこの文脈には乗らない。もしstomachmanが査読者ならクレームを付けるだろうな、ってのはここんとこです。

 Excelでどういう表を作るか、というところまで説明するのは幾ら何でもメンドクサイす。
    • good
    • 0
この回答へのお礼

お忙しいところ、詳しい説明をありがとうございます!!
しかし、、、非常に申し訳ないのですが、、、統計がシロートすぎるので、どの文字にどの数字をあてはめれば良いのか、わかりません。。。

最初の質問の例でいくと、r[i]回というのが、A10回、B8回、C4回、、、の数ですか?Nは30ですか?

大変お手数ですが、、、質問で書いた数字を使って、具体的に計算して結果を見せていただけると、非常に助かるのですが、、、

お礼日時:2015/09/08 08:04

ANo.7へのコメントについて。

最終的に回答いたします。

> どうしてもだめですか?


こういうコメントが出るということは、回答を読んでもいないのですね。

> 一応言語学は10年くらいはやってるので、そこまでシロートではないです。


 10年もやっているCaquioさんは、定量的研究の初歩の初歩である最も簡単な統計技法すら自ら学ぼうとせず、こんなサイトに質問を投げて安易に答だけを求め、しかも質問の前提をきちんと書く事すらしない、回答を理解する努力もしない、という解釈で合っているのだとすれば、教科書は沢山あって簡単に手に入ります。
    • good
    • 0
この回答へのお礼

そんなこと言われても、、、言語学だって幅広いし、言語学と統計学は全然違うから、、、

>こんなサイトに質問を投げて安易に答だけを求め、

そうですね。自分で汗水たらして教科書を探して読む手間と時間をはぶきたいから、ここで専門の人にちゃちゃっとやってもらって楽しようとしてましたが、そうは問屋が下ろしませんでしたか笑

お礼日時:2015/09/09 08:48

ANo.7へのコメントについてです。



> 僕が興味がある特徴を持った単語が424語しかこの世に存在しないわけではなく、まだまだ何百個、何千個とあるでしょう。でもキリがないから、範囲を絞っただけです。新しい単語が産まれるのを待つまでもなく、その気になれば、31個目、40個目を今すぐ見つけられるでしょう。

先に言ってよ。質問文からは到底そうは思えませんでしたよ。
    • good
    • 0
この回答へのお礼

424個しかこの世に存在せず、425個目ができるまで10年も待たないといけないなら、最初からこんな質問しませんよ。

お礼日時:2015/09/09 08:48

> つまり無意識に即興で作られてきた単語の数に、偏りができる



 「無意識」ってのは考察をテキトーに端折るためには出て来るほかない言葉だろうと思います。さらに、それが普及し、文字として記述され、辞書に載せられるほどの使用頻度を獲得する、という定着のプロセスまで考える必要があるだろう。言語現象の研究の本流かもしれません。が、そうであればこそ、

> という具合に考えれば、今この時点では同じ実験ができないだけで、時期を変えれば

 いつの時代もずっと同じ原理が同じ定量的効果を持って働いている、とは到底考えられんだろうと思います。10年前に収集した辞書には載っていない語ばかり集めた「新語辞書」というのを10年ごとに編纂して行けば、それは「新語の作られ方の変遷」を見ていることになるでしょう。だから、「今この時点では同じ実験ができない」だけでなく、時期を変えても同じ実験はできない。
 同じ実験ができないことがなぜ不都合かといえば、検定という方法に硬直的にこだわっていらっしゃるから。定量的データを扱う方法なら、他にもいろいろあるというのに、です。逆に言えば、検定へのこだわりを捨てさえすれば、話は全く変わるでしょう。たとえば:

 むしろ「いつの時代もずっと同じ原理が同じ定量的効果を持って働いるわけではないに違いない」という仮説の方が、面白い研究テーマなんじゃないでしょうかね。

 語が出現した時期ごとに分析を行えば、データから「新語の生産手段の偏りが時間とともに滑らかに変化していく、という傾向があるようだ」という発見ができる可能性が多分にあるでしょう。で、この傾向の存在を統計的検定で示したり、各時点での偏りを定量した上で、その変化を曲線で近似する。そうすると、

●たとえば20年前に得られていたデータだけから現時点でどうなるかの予測を行った結果と、現在の実際とを比較して、この曲線の予言能力を検討する。
● 多くの生産手段が一斉に曲線から大きく外れる、あるいは、ある生産手段が突出して偏りの大きさを変える、というような特殊な時期があるかもしれない。そういう時期がなぜ生じたか、社会的・歴史的原因を探る。
● 聞き取り調査によって誤読が多かった生産手段と、次の10年で「新語辞書」において使われることが少なくなっている生産手段とが相関するのではないか。

などなどの研究に展開できるだろうと思います。これらの研究には「10年間に発生した事例の、生産手段ごとに数えた個数」があれば充分で、根拠の怪しい確率の概念を持ち込む理由はないでしょう。
    • good
    • 0
この回答へのお礼

大丈夫です。今回stomachmanがおっしゃってることは言語に関することですよね。これについては100も承知で、あらかじめ充分考慮してます。一応言語学は10年くらいはやってるので、そこまでシロートではないです。

それに、僕はある目的のために今のリサーチを進めたいだけで、他のリサーチに展開する予定はありません。

stomachmanさんは、もしかして、辞書にあるものある母集団の全てで、それ以外に存在しないと仮定されてませんか?そんなことはありません。辞書に載っていない単語はたくさんあります。

まして、今回の僕のデータセットは、辞書から見つけたものではありません。むしろ辞書にはほとんどない単語です。僕が興味がある特徴を持った単語が424語しかこの世に存在しないわけではなく、まだまだ何百個、何千個とあるでしょう。でもキリがないから、範囲を絞っただけです。新しい単語が産まれるのを待つまでもなく、その気になれば、31個目、40個目を今すぐ見つけられるでしょう。

又、語彙の変化は、「語彙層」によって大きく違います。10年後には全く別物になってる周辺的な語彙もあれば、基礎語は1000年経ってもあんまり変わりません。こと僕が興味がある種類の語彙の文字と音の対応は、ここ数十年ほとんど変わってません。(でも100年以上前は違います。)それに、最近新しい単語が続々と出来てるので、10年も待たなくても、明日にでも新しいのが見つかるかもしれません。

ほぼ同じ条件で、繰り返し実験を行う事ができるので、
どうか、31個目、40個目、100個目を予測する方法を、具体的に教えていただけませんか?
どうしてもだめですか?

とにかくやってみて、自分でも納得いかなかったり、僕のプロジェクトを知ってる人達からも「怪しい」と言われたらすぐやめます。でもとりあえずやってみたいです。

お礼日時:2015/09/08 19:57

ANo.5へのコメントおよび補足について。



> 今回の単語リストは、実は辞書からとったわけではないのですが、本質は同じことでしょう。

 お作りになった単語リストのことを「辞書」と呼んでいるのだと思って下さい。

> 同じ実験を繰り返しできない(しにくい)

 「(しにくい)」なんて解釈が、いくらカッコに入れてみたって、入り込む余地はないでしょ。
 「単語リスト」は、ある性質を満たす単語を網羅しようとするリストですね。「単語リスト」を作る際に「【無限個(あるいは極めて多数個)】ある事例」という母集団から【ランダムに】サンプルを取る、なんてことはやっていない。なので、何度「単語リスト」を作りなおしても、前にやったのと【独立な実験】にはなりようがありません。「歴史の一回性」と良く似た事情です。「単語リスト」という結果はいわば歴史的事実として存在し、調べ直しはできても、やり直しはできない。

> 最初の質問の例でいくと、r[i]回というのが、A10回、B8回、C4回、、、の数ですか?Nは30ですか?


 そうです。たとえばE[1]は「Aが使われた」という事象。

> 検定をかける上で問題がある

 いや、「そもそも検定という方法が使えない、という問題がある」と申し上げているんです。検定の計算をなさるのはご自由だが、結果を確率論的に解釈できないのだから、それは単に形式的に計算したというだけ。

  えーと。とってもクドいのは分かってますが、検定以前の問題として、確率を持ち出すことの妥当性を議論すべきです。

 「『ある一つの偏ったサイコロを転がして、単語ごとにランダムに綴りを決定する』という作業をやっている機関が存在する」というのなら、その機関が行ったたった一度の実験の結果が「単語リスト」です。このデータを元に、そのサイコロが出す目の発生確率を推定することが(ある精度でなら)できるし、サイコロが偏っていることを検定で示すこともできる。
 さて、綴りが自然発生的に決まるのだとしたら「その自然発生的プロセスが、この仮想の機関と同様の働きをしている」と思いたくなる。が、果たしてそこで働いている選択の原理は「ある一つの偏ったサイコロ」と見なせるものなのかどうか。これは本質的な問題だが、ここでは、ま、仮にそう見なせると考えたらどんな結果になるか、やるだけやってみた。

 というような前置きなしには、確率の話を始めることもできない。

> 実をいうと、実際に人間の被験者で読み方と書き方を調べる実験も、同時進行で行っているのです。それで、辞書の見出し語で調べた結果と比べる予定なのです。

 何をどう比べるのか、比べて何が分かるのか、いやさっぱり想像がつかないな。
 実験で検証すべきどういう仮説をお考えなのか、その仮説がどんな仮定に依っているかが明確に整理できているのか、実験に掛けられるほどはっきり定量化できているのか。どうなんでしょ。
この回答への補足あり
    • good
    • 0
この回答へのお礼

あくまで統計に関してはシロートの質問ですが、、、


実際の会話を録音して、どの単語が何回でてくるか、のような調査では、「その言語の何万語とあるすでに出来上がった単語の中から、どの単語が好き好んで使われるか」ということがわかります。つまり好まれる「使い方」です。

一方、辞書を調べる方法では、「単語を作る時に、どういう方法が好き好んで使われるか」がわかります。つまり、好まれる「作り方」です。

自然言語は、決して言語学者達が計算して作るわけではなく、言語学の知識がない人達(例えば女子高生達)が、感覚的に作っていくわけです。

挙げていただいた「うまそげ」が良い例ですね。もし「うまそげ」がみんなに気に入られたら、それをみんな感覚的に応用して「寒そげ」「暑そげ」「甘そげ」「すっぱそげ」とか即興で作って行き、それが何百年たっても使われているかもしれません。

又、例えば「うまっぽげ」みたいなことも誰かが言い出し、みんなそれが気に入って、「寒っぽげ」「暑っぽげ」みたいに応用し始めて、それが何百年も残るかもしれません。でも言語学者達が辞書を調べてみると、こちらは、「〜そげ」ほど定着せず、「〜そげ」の単語の方が、「〜っぽげ」よりも多いことがわかったとします。

つまり無意識に即興で作られてきた単語の数に、偏りができるわけです。

あくまで例えばですが、ある10年間に「〜そげ」系の新しい単語が30個作られ、「〜っぽげ」系の単語が20個、だいたい3:2の割合で作られたとします。たしかにその時期には、同じ実験は繰り返しできません。

しかし次の10年間に、新しく前者の単語が29個、後者の単語が21個作られ、また次の10年には、、、だいたい3:2くらいの割合で単語が作られるかもしれません。何度新しい単語が作られても、「〜そげ」の方が好まれて使われるとします。言語学者達は、なぜ前者の方が好まれるかを分析し、そこから言語の指導法とかにも応用したりするわけですが。。。

という具合に考えれば、今この時点では同じ実験ができないだけで、時期を変えれば、「同じ実験を繰り返し行うことができる」という風に考えられないんでしょうか?



>何をどう比べるのか、比べて何が分かるのか、いやさっぱり想像がつかないな。

あ、ここでは統計は使いません。音韻論等の言語学の手法を使うだけなので気にしないで下さい。

お礼日時:2015/09/08 13:48

ANo.3へのコメントについてです。



 ANo.1の繰り返しですが:「DEFGHのどれかでアーを表している単語においては、DEFGHが等確率でランダムに選ばれている」という帰無仮説なら検定可能です。単に、もし帰無仮説が成り立つのなら、頻度は多項分布に従う筈、ということを使えば良いのです。(ただし、辞書に現れる事例の数を、背後にある確率的法則から生じた結果としての「頻度」だ、と捉えることに首肯してもらえるなら、って条件付きですが。)
 この帰無仮説を否定したとしても、「DEFGHが選ばれる頻度は、等確率でランダムに選ばれたという仮説では説明できない偏りがある」としか言えない。特に、「ランダムに選ばれるのだが、DEFGHが選ばれる確率はそれぞれ異なっている(偏りがある)のだ」という仮説は否定されません。ランダム性と偏りがあることとは別の話ですから。ですから、「(どういう理由があるのか、理由がないのか、そこは知らないが、ともかく現象として)偏りがある/ない」という話ならば扱える。また「ある確率でランダムに選ばれる」という仮定の下でなら、その確率を推定し、さらにその推定に含まれる誤差を見積もることもできる。

 なお、ご承知とは思うが念のため:(この例に限らず、何かの列が)「ランダムか?」という問いに対して「ランダムだ」と結論したい場合に出来る事は、せいぜい「思いつくありとあらゆる統計的規則性について、『ランダムだ』(だから、その規則性はない)という帰無仮説が棄却できない、ということを検定し続ける」ということをする以外になく、もちろん「ランダムだ」という答が出ることは決してありません。

>「アー」は最初に書いたように8種類の文字で書かれますが、

> このうち、頻度の低いDEFGHあたりは、55種類の文字のうちどれでもが、ランダムに割り当てられる可能性があるのか、


 これは、統計からはちょっとどうしようもないように思います。ひとつでも事例があればもちろん「可能性はある」し、ひとつも事例がなくても、何らかの理由で禁止されている、というのではないのなら「可能性はないとは言えない。まだ見つかっていない(まだ発生していない)だけかも知れない」わけで。「真空中でも死なない哺乳類が存在するか」という問いと同じような事情です。(あり得ない!と言ってても、一例みつかればひっくり返る。)

> 例えば「痛い」⊂「痛さ」みたいな関係ではないですからね。

 いや、ちょっと誤解なさってるかも。たとえば、「痛い」「辛い」「白い」「黄色い」「酸い」…の語幹部分の集合を
  S(「●い」)={痛,辛,白,黄色,酸,…}
とし、これと、「痛さ」「辛さ」「白さ」「黄色さ(?)」「酸さ(×)」…の語幹部分の集合
  S(「●さ」)={痛,辛,白,…}
との包含関係を考えると、S(「●さ」) ⊂ S(「●い」)であるから、規則「●い」の方が生産性が高いんじゃないか。…という話です。
 品詞が先にあるんじゃない、という立場をとって、飽くまで現象の観察から「語幹部分の集合が(ほとんど)一致する生産手段」(たとえば「●い」、「●かっ」、…)を発見する。このことを指して後付けで「活用形」と命名しただけ。という風に捉えるとどうか。そう捉えるのが当たり前じゃないかという気もしますけど、ですが、文を形態素に分解する際に品詞という概念を持ち出したら、話が堂々巡りになってしまう。なので、この立場を貫くには、飽くまで「多くの文で一致する最大長の文字列、多くの発話で一致する最大長の音素列」というものを対象にするしかなさそうで、後付けの命名による言語現象の分類がひとしきり終わりparsingのやり方が確立した後で、ようやく辞書が作れることになる。(こういうボトムアップのアプローチを、言語学の専門用語では何と呼ぶんでしょう?)そう考えると、規範文法を作り上げたのは大変な偉業なんだなあ(だから、いつまでたっても日本語には規範文法がないんだろうなあ)、という感慨を持ちます。いや、ご質問とは関係ないんですが、しかし、

> 今回は単純に、文字と発音の関係だけを見たいのですよ。

と仰るのと、方向性がなんとなく合うような気もします。

> 例えばDの文字は30回中4回も使われてるので、55種類のうち同じ文字が30回中4回も使われることは、偶然としては有り得ないのか?それとも偶然同じ文字が4回使われることもあるのか?

 こちらは、冒頭に書いた話の"DEFGH"を"55種類の文字"に差し替えるだけの話でしょう。ただ、検定するまでもなく偏りがあることは明らか。
この回答への補足あり
    • good
    • 0
この回答へのお礼

>> 例えばDの文字は30回中4回も使われてるので、55種類のうち同じ文字が30回中4回も使われることは、偶然としては有り得ないのか?それとも偶然同じ文字が4回使われることもあるのか?
>こちらは、冒頭に書いた話の"DEFGH"を"55種類の文字"に差し替えるだけの話でしょう。ただ、検定するまでもなく偏りがあることは明らか。

是非、これをExcelで検定にかける方法を教えていただけないでしょうか!明らかでもいいので、やり方を知りたいです。


>「DEFGHが選ばれる頻度は、等確率でランダムに選ばれたという仮説では説明できない偏りがある」としか言えない。

はい、まずはそれでいいです。「なぜ偏りがあるのか」ということは、また別に言語学的に調べるので、ここでは理由までは知らなくていいです。
是非それをExcelで調べる方法を教えていただけないでしょうか?

とりあえず、A~Hまで全部検定にかけて、偏りがあることを示して、
次に、具体的にどれが偶然以上の確率で現れるものかを知りたいです。

もちろん、数値では偶然現れるものと同じだけど、実際には偶然じゃない場合もあるでしょう。でもここではそれは気にしません。


>「ある確率でランダムに選ばれる」という仮定の下でなら、

ここでは、その「ある確率」が全く推定できないので、この方法はちょっと無理そうです。

S(「●さ」) ⊂ S(「●い」) について、なるほど、そういうことだったのですね!わかりました。ありがとうございます。

お礼日時:2015/09/07 22:34

ANo.2へのコメントについてです。



> 数が少な過ぎる

 いや、統計の話の前に、方法論として成り立つんだかどうだか、を考えているんです。規則に例外が発生することに関する規則性、いわば「超規則」を論じようとなさっている。しかし現象からの帰納しかできないんですから、事例が少ないと、(単に「例外がある」というだけなら1例挙げれば主張できますが)「そこに超規則性があるんだ」という洞察を主張しても客観的な観察として了解してもらえないんじゃないか。個別の事情に還元されちゃう可能性があると、なおさらやりにくいんんじゃなかろうか。(ビスマルクが「歴史に学ぶ」とか言う一方で、史学の先生は「歴史の一回性」なんてことも言う、というのになんだか似てるなあ…)

 「例外的」あるいは「不規則」という概念をどう定義するかが最も肝腎という気がします。それらを(たとえば例外の比率が1%以下、のように)純粋に定量的に定義しちまえる(そういう方法論で押し通す)のなら、統計だの検定だの関係なく、単に数を数えるだけの話になるでしょう。でも「比率1%というが、その計算は精度が怪しくないか」とか言ってみたところで、事例はそれだけしかないのだから、精度を上げようがない。そこんとこが弱いなあと。

 また、「例外的」だの「不規則」って概念を、はたして比率で扱って良いものかどうか。どうも「不規則とは言っても実は規則っぽいものがあるようなのだが、それはとてもややこしい規則に違いなく、しかも適用例が少ないために、アルゴリズムではなく例外辞書によって記述するほうがよっぽど簡単であり、なのであんまり調べる気にならんのよね」というような状況でも使われるのではないか。その場合には、いわば規則の整理・記述の都合に依存する用語のような気もします。なお、「例外を並べる方が手っ取り早い」ということをもっと厳密な概念にするなら「規則を記述する為に必要な最小の情報量」で測るってことになりましょうか。実行可能かどうかはさておき、ですが。

> 半順序とか束

 用語の説明をします。
 普通の数の大小関係は、a≧aである(反射則)。そして、a≧bかつb≧cならa≧cである(推移則)。さらにa≧bかb≧aのどっちかが必ず成り立つ。これを「≧は全順序だ」と言います。
一方、集合の包含関係は、a⊂aである(反射則)。そして、a⊂bかつb⊂cならa⊂cである(推移則)。けれども、a⊂bかb⊂aが成り立つ場合もあれば、どちらでもない場合がある。こういうのを「⊂は半順序だ」と言います。a⊂bかb⊂aが成り立つ場合には両者は比較可能だけれども、成り立たない場合には比べられない。
 でも「考えているもの全部」の集合T(全体集合)は、その部分集合aと必ず比較可能であって、a⊂Tである。また、空集合∅も、Tの部分集合aと必ず比較可能であって、∅⊂aである。つまり、Tを頂点とし、∅を底とする序列関係があります。Tの部分集合のうちの(興味がある)いくつか(Tと∅も含む)を集めてきて、その中の2つの組み合わせ全てについて、包含関係を調べてみる。それぞれの集合をピーズ玉で表します。そして、比較可能なピーズ玉同士をゴムひもで結ぶ。ただし、a⊂bかつb⊂cならa⊂cであるから、aとcを結ぶ必要はない。なので、必要のないゴムひもを全て取り除きます。で、Tと∅のビーズ玉をつまんでむにょーんと上下に引っ張る。そうすると、こんぐらがったあや取りのようなものができるはず。この構造を「束(そく)」って言うんです。Tから∅まで下って行く経路は沢山ある。そして、それぞれの経路を辿るときに出会うビーズ玉は一連の序列をなして現れる。すなわち、先に現れるビーズ玉は多くの要素を持っている。後で現れるものは、先に現れたビーズ玉の要素のうち一部だけを持っている訳です。
 ANo.2では、「規則rによって派生形が作れる「語幹」の集合」Rと、「規則sによって派生形が作れる「語幹」の集合」Sとの間に包含関係が成り立つかどうか、によって規則の序列を作る、ということを考えた訳です。序列の上の方にあるほど「生産性」が高い。すなわち、例が多いってことです。しかし、二つの規則の対が必ずしも比較可能とは限らない。いやむしろ、おそらく大抵の規則同士が比較不能であろう。そこで、少々の例外を認めることにする。そもそもa⊂bとは「a\b (集合aから、bの要素を全部取り除いた集合)が空集合∅である」すなわち「集合a\bの要素の個数(|a\b| と書きます)が0である」ってことです。で、そこをちょっと緩めて、「|a\b| が|a|に比べて小さい数であるなら、『aはbにおおよそ含まれる』と言うことにして、これをa≪bとでも書こう」と考える訳です。⊂に比べて、≪という関係ならば、比較可能な対の個数がだいぶ多くなるでしょうから。


 全くの素人談義ですが、言語現象として観測されて辞書に収録されているかどうか、よりも、規則性の作用によって説明なしで意が通じる(「了解可能性」とでも言いますか)という事の方が本質的な気もしてまして、どうもよくわからん。たとえば、「他人が旨そうに喰っているのを脇で眺めて指をくわえている様子を、さらに第三者の視点から見たときの風情」を指して、「うまそげ」と表現したのは西秋ぐりん氏です。なんだかしっくり来る語だなと思う。「旨い」に「+そ(う)」を付けて"生産"した語にさらに「+げ」で様相を変化させ、たったの4文字ながら二重の推測を加えた複雑な意味を持っている。座布団あげたくなります。このような、規則の自由な応用は、語彙の学習を汎化するということ、また、変な新語が現れることと、極めて密接ではないかとか、えーと、あの、ま、どうでもいいか。
    • good
    • 0
この回答へのお礼

詳しい説明ありがとうございます!

もしかして、僕の質問は根本的にズレてましたかね?

もう一度ちょっと考え直したので、質問をまとめます。

全424語の単語リストの中に、僕が興味のある特徴を持った文字が、55種類あります。
(母集団には55以上あるでしょうが、この424語の中に一度も現れないということは、おそらく非常に頻度の低い、「例外的な」というか、トリッキーな文字だと考えています。)

それで、例えば「アー」という音が計30回「アー」は出てきて、
「アー」は最初に書いたように8種類の文字で書かれますが、
このうち、頻度の低いDEFGHあたりは、55種類の文字のうちどれでもが、ランダムに割り当てられる可能性があるのか、

それとも例えばDの文字は30回中4回も使われてるので、55種類のうち同じ文字が30回中4回も使われることは、偶然としては有り得ないのか?それとも偶然同じ文字が4回使われることもあるのか?

ということを調べることは可能でしょうか?


「例外」に関して、確かにその定義は難しいですね。
ルールが非常に複雑で頻度が非常に低いけど、なんらかのルールがある場合もありますし、
ルールがなかったとしても、例えば「服」を「はっ」、「部」を「とり」と読むのは、「服部」以外にはなかったとしても、それは全くの偶然ではなく、なんらかの理由があるはずですし。
そこで、「例外かどうかを調べる」という表現をやめてもいいですか?笑


>いやむしろ、おそらく大抵の規則同士が比較不能であろう。

そうですね。例えば同じ語幹から「痛」から、「痛い」「痛さ」「痛む」「痛がる」等が派生しますが、例えば「痛い」⊂「痛さ」みたいな関係ではないですからね。


>規則性の作用によって説明なしで意が通じる(「了解可能性」とでも言いますか)という事の方が本質的な気もしてまして

はい、言語は人間が使うものですから、当然人間の被験者を使って、

例えば「うまそげ」を理解できる人は何人いるか、

又僕の題材ならABCDEFGHの各文字を、「アー」と読む人はそれぞれ何人ずついるか、

等のような実験はしょっちゅう行われています。この類いのリサーチの方が実践に直結しますよね。

でも、それだとリサーチの主旨がまた変わってきてしまうので、今回は単純に、文字と発音の関係だけを見たいのですよ。

お礼日時:2015/09/07 18:18

ANo.1へのコメントについてです。



 いや、よくわからんのです。分からんのなら回答すんな、ってことですけど。

 ご質問の28個が網羅的な事例の数だとするのなら、それは量の議論をするにはかなり少ないんじゃなかろうか。これがあらゆる意味で話を難しくしているように思います。言い換えれば、「生産性」を語るのにそんな程度の事例しか「生産」しないものを取り上げるのってどうよ?という、素人の疑問ですが。でも、量的な話はさておき:

 「ある性質を満たす単語が辞書の見出しに幾つあるか」を頻度と捉えることの、統計の意味での妥当性をまず考えないといけないんじゃなかろうか。(というのは、この手が言語学の方法論として成立している(コンセンサスが形成されている)のであれば、このようなご質問は出ないんじゃ?と憶測するからです。)頻度が「ただ数えただけ」以上の意味を持つには確率が定義されねばならない。確率を考えるってことは「本質的に不可知なもの」としてのランダム性を含むモデルを考えるということです。言語の研究において、文字や音や単語を単位とするマルコフモデルという計量的なアプローチがあるのは知ってます。これは「発話の事例における出現頻度」の話である。いわば、「背後に文法だの発話の意図があることに全く気がつかないふり」をして、「ランダムな発生源」というモデルを拵える。(素人目には、なんだか変な方からアプローチしてるような気がしますけど、ま、それはさておき。)ですが、「辞書の見出しにおける出現頻度」なる概念はこれとは明らかに違う。その頻度は確率と関連づけられるだろうか。言い換えれば、ランダム性がどこに、どういうふりをすれば入れられるか。んー。分からんす。

 「生産性」の概念は、ご教示だけからの想像ですけれども、(頻度の話というよりも)比較に基づく相対的な性質であって、(数学で言う)順序の一種と捉えられるのかなと思います。(ある「語幹」的なものからシステマティックに発生する一群の派生形、の話しか思いつかんのですが、)「派生形を作る規則を、かなり強い規則性がある場合から、かなり不規則な場合までのスペクトルの中に配置しよう」というアイデアなのかな、と。
 配置の仕方は、その規則が適用されて生じた単語の「語幹」の集合を考えて、その集合同士の包含関係で決まると考えるのが自然。するとその配置は半順序になり(つまりスペクトル(全順序)にはならず)、これらの集合同士が束(lattice)の構造をなすでしょう。この束の上で、ある規則RとSについて、相互に比較可能(R⊂SまたはS⊂R)である場合も、比較不可能である場合もある。
 たとえばアラビア語における三語根に基づく派生形のような話ですら、多少の例外を認めて「ほとんど比較可能(「近似的」にR⊂S。つまり例外として「Sに含まれないRの要素が少しあるけど、ま、ちょっとぐらいいいじゃん」)」のようなことを許さなきゃならんと思います。その上でなら、「ほとんど比較可能」なR,Sのペア(たとえば「第IV形Rと第VII形Sを比べると、第IV形が作れないのに第VII形がある、という例はほとんどないから、R⊂Sだ」というように)が豊富にあるんで、束の構造を明瞭に描出できそうである。しかし事例が少ない規則同士を比べる場合には、多少の例外を認めるぐらいじゃ大抵が比較不可能であって、ごくpoorな結果しか出ないだろう。そこで例外を際限なく許して行くと、比較の拠り所は「包含関係は無視し(従って束構造は全く見ずに)、(そのくせスペクトルをなすものと天下りに前提して)辞書での出現頻度だけを数える」という、ご質問の立場になるんだろうかな。(ただし、ここで注目しているのは発音ではなく、規則自体ですけれども。)
    • good
    • 0
この回答へのお礼

詳しいお話ありがとうございます。こういう統計のバックグラウンドを理解しないといけないので、助かります。

なるほど、まずは数が少な過ぎるということですね。
では、例えばカーという音は、319回でて来て、I,J,K,L,M,N,O,Pという文字で書かれていて、
I、277
J、30
K、5
L、3
M、2
残り 1回ずつ

というくらいの数なら、可能でしょうか?特にこのK、L、Mは、なんだかんだで複数回でてきてるので、全くの例外的な書き方ではないのか、みたいなことを知りたいのです。

>「派生形を作る規則を、かなり強い規則性がある場合から、かなり不規則な場合までのスペクトルの中に配置しよう」

まさしく、そういうことです!

でもすいません、、、半順序とか束の構造とか、ちょっとよくわからなくて。。。

余談ですが、こういうことなので、実は、辞書の見出し語も結構データとして使えるんですよ。
例えば、日本語のアイウエオの5つの母音も、辞書の見出し後では、エの頻度が一番低い等、色々と偏りがあるので、面白いのですよ。自然発話とはまた違ったデータ角度から、頻度を見る事ができます。

お礼日時:2015/09/07 12:07

『単語を作る際に「アー」を表す文字の中から、等しい確率でランダムに選んでいる』という帰無仮説を否定することができたとすると、『単語を作る際に「アー」を表す文字の中から、等しい確率でランダムに選んでいるのではない』という結論が得られる。


 しかしたとえば『単語を作る際に「アー」を表す文字の中から、Aを30%, B=20%, …の確率でランダムに選んでいる』という帰無仮説になると、到底否定できんでしょう。(どんな重み(30%, 20%,…)が付いていようが、ともあれ)選び方がランダムだという説明があり得るのなら、少なくとも統計学的には「生産性」がどうたら言う話には繋がりっこない。

 むしろ、Eをアー以外の読み方で使う頻度を研究すべきじゃないかな。
 たとえば99%のEはホーと読まれるのだが、1%だけはアーと読むのだとする。その場合、アーと読むべきEを含む単語を、その単語を知らないひとが発音しようとすれば(誤って)ホーと読んでしまう、という現象が生じるでしょう。(「服部」を「ふくぶ」と読んでしまうように、です。)その場合には、「これは文字Eのイレギュラーな使い方だ」と言っても大間違いではないかも知れない。
 あー、いやいや、それでも大間違いかも知れない。明らかに公知でかつ明確な規則(たとえば、「Qに続くEは必ずアーと読む」だとか、「ホーと読むととても人前では言えないお下劣な意味を持つ単語と同音になる場合には必ずアーと読む」)があって、ホーと読み間違えるのは幼児だけ、ということだってありうるわけで。

 なので、まず何らかの規則があるのかどうかをnativeから聞き取る。その例外を探し、さらに、読み間違いの(あるいは読めないという)事例を収集することによって、その規則が「明らかに公知でかつ明確な」ものかどうかを調べる。という風にでもしないと、仰る所の「生産性」の有無のような概念が成立するのかどうか、そもそも議論にならんのじゃなかろうか。要するに、これは単語の問題じゃなく言語の問題でしょうよ。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

そうですね。「アーの音を表す文字はランダムに選ばれている」という帰無仮説を棄却したいのです。
さらに、AからHのうち、どれとどれはランダムだが、どれとどれは偶然以上のものだ(意図的に選ばれた)、ということを統計的に説明したいのです。その方法を教えていただけたらと思います。

僕は統計は初心者で、今の手持ちの武器は、t-testと、one-way ANOVA & tukey-kramer procedureと、linear regressionだけなのです。なので、新しい武器を手に入れたいと思っている所なのです。

> むしろ、Eをアー以外の読み方で使う頻度を研究すべきじゃないかな。

なるほど、そういうアプローチもありますね。

では実際にEを見てみると、手持ちの424語のデータの中に、Eの文字は6回しか出て来ず、そのうち「アー」と読むのは2回です。3回は「ホー」(仮に)、残りの1回は別な読み方です。
AからHまで、各読み方の頻度は既に数えてあります。
Eがアーになるこの2回は、たまたまなのかそうじゃないのか、ということを統計的に調べる方法を教えていただけないでしょうか?

ちなみに、Aの文字は424語の中に12回でてきて、そのうち10回がアーです。どう見ても偶然ではなさそうなので、統計的に説明する必要はなさそうですが、念のために、やり方をしっておきたいです。


> 明らかに公知でかつ明確な規則(たとえば、「Qに続くEは必ずアーと読む」だとか、

はい、このような言語的な作業は既にやっているのです。言語的な説明に加えて、統計的な説明もしたいと考えているのです。

また、ここでの「生産性」は、言語学用語として使いました。ここではあまり重要ではないので、さらりと流していただいていいのですが、念のため、
↓こういう意味です。

https://ja.wikipedia.org/wiki/%E7%94%9F%E7%94%A3 …

お礼日時:2015/09/07 08:13

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!