統計的に、ある音が、ある文字で書かれる確率が、偶然以上かどうかをエクセルで調べる方法はありますか？

Question

２８個の単語リストがあります。
全ての単語に、「アー」という音が１回以上出て来ます。
具体的には、２単語だけ２回「アー」が出て来て、残りの２６個の単語は１回だけ。
（これが重要かどうかはわかりませんが、念のため）

計３０個の「アー」は、８通りの文字で書かれます。（ここでは簡単にA~Hを使います）
頻度は以下の通りです。

A：１０回
B：７回
C：４回
D：４回
E：２回
F：１回
G：１回
H：１回

おそらく、A,　B,　C,　Dの４つは、この単語リスト以外の単語や、新しい単語が作られた時にも、「アー」という音を表すために、積極的に使われるんじゃないかと思います。

逆に、E,　F,　G,　Hに関しては、
例えば「はっとり」という音を「服部」と書くような（「発鳥」とか「初取」とかではなく笑）、例外的な書き方というか、
その単語に関してだけたまたま使われてるだけで、生産性はない、「アー」という音を積極的に表すためには用いられないんじゃないかな、と僕はふんでいるのです。

これを、統計的に説明する方法はあるでしょうか？
A〜Dはp<0.05で、E~Hはp>0.05になるとか、そういう類いの方法で。
つまり、A~Dの文字が使われるのは、偶然以上の確率だと示せる方法。

いえ、なければあきらめます。


余談ですが、手持ちの単語リストには、４２４語ありますが、「アー」という音が出てくるのが２８語だけなのです。（重要な情報かどうかわかりませんが念のため。）

stomachman · Accepted Answer

ANo.4へのコメントについてです。

「k種類ある互いに排他的な事象のうち、事象E[i]が確率p[i] (i=1〜k)でランダムに生じる（ただしp[1]+…+p[k]=1)」という帰無仮説に対して、サンプル数Nのうち現象E[i]の頻度がr[i] (i=1〜k)という実験結果を得た。という話の場合を流用しようってことですね。
　しつこいけれども、これはあくまでも「辞書に現れる事例の数を、背後にある確率的法則から生じた結果としての「頻度」だ、と捉えることに首肯してもらえるなら」という条件付きの話です。なにしろ、本来あるべき「無尽の母集団からランダムに取ったサンプルが有限個ある」という状況とは全然違う。もしstomachmanが査読者ならクレームを付けるだろうな。ってのはひとまず置くとして。

H[i]:「事象E[i]が確率p[i]で、E[i]以外が確率(1-p[i])で、ランダムに生じる」
という帰無仮説を考えます。すると、N回中E[i]が丁度r[i]回現れる確率は二項分布
　　P(N,r[i],p[i]) =(N!/(r[i]! (N-r[i])!)) (p[i]^r[i]) ((1-p[i])^(N-r[i]))
に従う。もちろん、E[i](i=1〜k)がどれも等確率なら、p[i]=1/kであり、
　　P(N,r[i],1/k) = (N!/(r[i]! (N-r[i])!)) (((k-1)/k)^(N-r)) (k^(-r))
ですね。なお、(N!/(r! (N-r)!)) は、Excelでは関数"combin(N, r)"で計算します。
　（もしNが充分大きければ、
　　P(N,r,p) ≒ exp(-((r-Np)^2)/(2Np(1-p))) / (√(2πNp(1-p))
つまり正規分布で近似できるのだけれども、この場合にはNが比較的小さいんで、直に計算してしまう方が言い訳が少なくて済みそうだ。）

さて、E[i]がr[i]回以上起こる確率は
　　S[i] = Σ{h=r[i]〜N} P(N,h,p[i])
である。E[i]がr[i]回以下起こる確率は
　　T[i] = Σ{h=0〜r[i]} P(N,h,p[i])　= 1-S[i] + P(N,r[i],p[i])
である。どちらか小さい方
　　Q[i] = min(S[i], T[i])
が有意水準未満であれば、帰無仮説H[i]は棄却できる、ってことです。

ただし、DEFGH（あるいは55種類）全部について検定を繰り返すことは、統計学で言う「多重検定」をやっていることになり、有意な結果がちょっとだけ出やすくなる、というバイアスが発生するので、厳密に言えばこれを補正しなくてはいけない。ま、実用上は、判定を誤る確率が有意水準を少々越えるとしても、その有意水準を予め厳しめに設定しておけば実際には問題にはならない。そういう手抜きがしばしば行われますけれども、論文にするんなら、もうちっときっちりやっておきたいな。
　で、「k回行う検定のうちどれか一つでも、「偶然の偏り」のせいで本来棄却できない帰無仮説H[i]を誤って棄却してしまう確率」Rが有意水準未満なら文句はないでしょ、と考える。すると、「棄却できると判定した帰無仮説の番号の集合」をJとして、棄却すべきでない帰無仮説H[i]をひとつでも誤って棄却してしまう」ということが発生する確率Rは
　　R ≒ 1-Π{i∈J} (1-Q[i])
であり、Rが有意水準未満であれば文句なかろう。
　（でもこれだと、Rが有意水準を越えたら実験全体を捨てることになっちゃうな。いやいや、もう少し厳密な議論に基づくスマートな補正の考え方が確かあった筈なんですが、その資料がですね、半径2m以内にあることは分かっているんです。ただ、その空間にはざっと見て2000は下らない本やノートが乱雑に積み上げられているというのが問題でして、miningにしばらく掛かりそうです。）

ところで、有意水準をどう設定すべきか。これが大問題です。
　背後にある確率的法則から生じた結果としての「頻度」を見ているのなら、言い換えれば、無尽の母集団からランダムにサンプルを取ったのであれば、「何度でもサンプルを取り直して実験を繰り返せる。それら多数の、互いに独立な実験のうちのどれだけが「偶然の偏り」によって誤った結論を導くか」が「有意水準」の本来の意味です。しかし、ご質問の場合は互いに独立な実験を繰り返すことはできないから、明らかにこの文脈には乗らない。もしstomachmanが査読者ならクレームを付けるだろうな、ってのはここんとこです。

Excelでどういう表を作るか、というところまで説明するのは幾ら何でもメンドクサイす。

stomachman · Answer

ANo.7へのコメントについて。最終的に回答いたします。

> どうしてもだめですか？

こういうコメントが出るということは、回答を読んでもいないのですね。

> 一応言語学は１０年くらいはやってるので、そこまでシロートではないです。

１０年もやっているCaquioさんは、定量的研究の初歩の初歩である最も簡単な統計技法すら自ら学ぼうとせず、こんなサイトに質問を投げて安易に答だけを求め、しかも質問の前提をきちんと書く事すらしない、回答を理解する努力もしない、という解釈で合っているのだとすれば、教科書は沢山あって簡単に手に入ります。

stomachman · Answer

ANo.7へのコメントについてです。

> 僕が興味がある特徴を持った単語が４２４語しかこの世に存在しないわけではなく、まだまだ何百個、何千個とあるでしょう。でもキリがないから、範囲を絞っただけです。新しい単語が産まれるのを待つまでもなく、その気になれば、３１個目、４０個目を今すぐ見つけられるでしょう。

先に言ってよ。質問文からは到底そうは思えませんでしたよ。

stomachman · Answer

> つまり無意識に即興で作られてきた単語の数に、偏りができる

「無意識」ってのは考察をテキトーに端折るためには出て来るほかない言葉だろうと思います。さらに、それが普及し、文字として記述され、辞書に載せられるほどの使用頻度を獲得する、という定着のプロセスまで考える必要があるだろう。言語現象の研究の本流かもしれません。が、そうであればこそ、

> という具合に考えれば、今この時点では同じ実験ができないだけで、時期を変えれば

いつの時代もずっと同じ原理が同じ定量的効果を持って働いている、とは到底考えられんだろうと思います。10年前に収集した辞書には載っていない語ばかり集めた「新語辞書」というのを10年ごとに編纂して行けば、それは「新語の作られ方の変遷」を見ていることになるでしょう。だから、「今この時点では同じ実験ができない」だけでなく、時期を変えても同じ実験はできない。
　同じ実験ができないことがなぜ不都合かといえば、検定という方法に硬直的にこだわっていらっしゃるから。定量的データを扱う方法なら、他にもいろいろあるというのに、です。逆に言えば、検定へのこだわりを捨てさえすれば、話は全く変わるでしょう。たとえば：

むしろ「いつの時代もずっと同じ原理が同じ定量的効果を持って働いるわけではないに違いない」という仮説の方が、面白い研究テーマなんじゃないでしょうかね。

語が出現した時期ごとに分析を行えば、データから「新語の生産手段の偏りが時間とともに滑らかに変化していく、という傾向があるようだ」という発見ができる可能性が多分にあるでしょう。で、この傾向の存在を統計的検定で示したり、各時点での偏りを定量した上で、その変化を曲線で近似する。そうすると、

●たとえば20年前に得られていたデータだけから現時点でどうなるかの予測を行った結果と、現在の実際とを比較して、この曲線の予言能力を検討する。
● 多くの生産手段が一斉に曲線から大きく外れる、あるいは、ある生産手段が突出して偏りの大きさを変える、というような特殊な時期があるかもしれない。そういう時期がなぜ生じたか、社会的・歴史的原因を探る。
● 聞き取り調査によって誤読が多かった生産手段と、次の10年で「新語辞書」において使われることが少なくなっている生産手段とが相関するのではないか。

などなどの研究に展開できるだろうと思います。これらの研究には「10年間に発生した事例の、生産手段ごとに数えた個数」があれば充分で、根拠の怪しい確率の概念を持ち込む理由はないでしょう。

stomachman · Answer

ANo.5へのコメントおよび補足について。

> 今回の単語リストは、実は辞書からとったわけではないのですが、本質は同じことでしょう。

お作りになった単語リストのことを「辞書」と呼んでいるのだと思って下さい。

> 同じ実験を繰り返しできない（しにくい）

「（しにくい）」なんて解釈が、いくらカッコに入れてみたって、入り込む余地はないでしょ。
　「単語リスト」は、ある性質を満たす単語を網羅しようとするリストですね。「単語リスト」を作る際に「【無限個（あるいは極めて多数個）】ある事例」という母集団から【ランダムに】サンプルを取る、なんてことはやっていない。なので、何度「単語リスト」を作りなおしても、前にやったのと【独立な実験】にはなりようがありません。「歴史の一回性」と良く似た事情です。「単語リスト」という結果はいわば歴史的事実として存在し、調べ直しはできても、やり直しはできない。

> 最初の質問の例でいくと、r[i]回というのが、A１０回、B８回、C４回、、、の数ですか？Nは３０ですか？

そうです。たとえばE[1]は「Aが使われた」という事象。

> 検定をかける上で問題がある

いや、「そもそも検定という方法が使えない、という問題がある」と申し上げているんです。検定の計算をなさるのはご自由だが、結果を確率論的に解釈できないのだから、それは単に形式的に計算したというだけ。

えーと。とってもクドいのは分かってますが、検定以前の問題として、確率を持ち出すことの妥当性を議論すべきです。

「『ある一つの偏ったサイコロを転がして、単語ごとにランダムに綴りを決定する』という作業をやっている機関が存在する」というのなら、その機関が行ったたった一度の実験の結果が「単語リスト」です。このデータを元に、そのサイコロが出す目の発生確率を推定することが（ある精度でなら）できるし、サイコロが偏っていることを検定で示すこともできる。
　さて、綴りが自然発生的に決まるのだとしたら「その自然発生的プロセスが、この仮想の機関と同様の働きをしている」と思いたくなる。が、果たしてそこで働いている選択の原理は「ある一つの偏ったサイコロ」と見なせるものなのかどうか。これは本質的な問題だが、ここでは、ま、仮にそう見なせると考えたらどんな結果になるか、やるだけやってみた。

というような前置きなしには、確率の話を始めることもできない。

> 実をいうと、実際に人間の被験者で読み方と書き方を調べる実験も、同時進行で行っているのです。それで、辞書の見出し語で調べた結果と比べる予定なのです。

何をどう比べるのか、比べて何が分かるのか、いやさっぱり想像がつかないな。
　実験で検証すべきどういう仮説をお考えなのか、その仮説がどんな仮定に依っているかが明確に整理できているのか、実験に掛けられるほどはっきり定量化できているのか。どうなんでしょ。

stomachman · Answer

ANo.3へのコメントについてです。

ANo.1の繰り返しですが：「DEFGHのどれかでアーを表している単語においては、DEFGHが等確率でランダムに選ばれている」という帰無仮説なら検定可能です。単に、もし帰無仮説が成り立つのなら、頻度は多項分布に従う筈、ということを使えば良いのです。（ただし、辞書に現れる事例の数を、背後にある確率的法則から生じた結果としての「頻度」だ、と捉えることに首肯してもらえるなら、って条件付きですが。）
　この帰無仮説を否定したとしても、「DEFGHが選ばれる頻度は、等確率でランダムに選ばれたという仮説では説明できない偏りがある」としか言えない。特に、「ランダムに選ばれるのだが、DEFGHが選ばれる確率はそれぞれ異なっている（偏りがある）のだ」という仮説は否定されません。ランダム性と偏りがあることとは別の話ですから。ですから、「（どういう理由があるのか、理由がないのか、そこは知らないが、ともかく現象として）偏りがある／ない」という話ならば扱える。また「ある確率でランダムに選ばれる」という仮定の下でなら、その確率を推定し、さらにその推定に含まれる誤差を見積もることもできる。

なお、ご承知とは思うが念のため：（この例に限らず、何かの列が）「ランダムか？」という問いに対して「ランダムだ」と結論したい場合に出来る事は、せいぜい「思いつくありとあらゆる統計的規則性について、『ランダムだ』（だから、その規則性はない）という帰無仮説が棄却できない、ということを検定し続ける」ということをする以外になく、もちろん「ランダムだ」という答が出ることは決してありません。

>「アー」は最初に書いたように８種類の文字で書かれますが、 
> このうち、頻度の低いDEFGHあたりは、５５種類の文字のうちどれでもが、ランダムに割り当てられる可能性があるのか、

これは、統計からはちょっとどうしようもないように思います。ひとつでも事例があればもちろん「可能性はある」し、ひとつも事例がなくても、何らかの理由で禁止されている、というのではないのなら「可能性はないとは言えない。まだ見つかっていない（まだ発生していない）だけかも知れない」わけで。「真空中でも死なない哺乳類が存在するか」という問いと同じような事情です。（あり得ない！と言ってても、一例みつかればひっくり返る。）

> 例えば「痛い」⊂「痛さ」みたいな関係ではないですからね。

いや、ちょっと誤解なさってるかも。たとえば、「痛い」「辛い」「白い」「黄色い」「酸い」…の語幹部分の集合を
　　S(「●い」)={痛,辛,白,黄色,酸,…}
とし、これと、「痛さ」「辛さ」「白さ」「黄色さ(?)」「酸さ(×)」…の語幹部分の集合
　　S(「●さ」)={痛,辛,白,…}
との包含関係を考えると、S(「●さ」) ⊂ S(「●い」)であるから、規則「●い」の方が生産性が高いんじゃないか。…という話です。
　品詞が先にあるんじゃない、という立場をとって、飽くまで現象の観察から「語幹部分の集合が（ほとんど）一致する生産手段」（たとえば「●い」、「●かっ」、…）を発見する。このことを指して後付けで「活用形」と命名しただけ。という風に捉えるとどうか。そう捉えるのが当たり前じゃないかという気もしますけど、ですが、文を形態素に分解する際に品詞という概念を持ち出したら、話が堂々巡りになってしまう。なので、この立場を貫くには、飽くまで「多くの文で一致する最大長の文字列、多くの発話で一致する最大長の音素列」というものを対象にするしかなさそうで、後付けの命名による言語現象の分類がひとしきり終わりparsingのやり方が確立した後で、ようやく辞書が作れることになる。（こういうボトムアップのアプローチを、言語学の専門用語では何と呼ぶんでしょう？）そう考えると、規範文法を作り上げたのは大変な偉業なんだなあ（だから、いつまでたっても日本語には規範文法がないんだろうなあ）、という感慨を持ちます。いや、ご質問とは関係ないんですが、しかし、

> 今回は単純に、文字と発音の関係だけを見たいのですよ。

と仰るのと、方向性がなんとなく合うような気もします。

> 例えばDの文字は３０回中４回も使われてるので、５５種類のうち同じ文字が３０回中４回も使われることは、偶然としては有り得ないのか？それとも偶然同じ文字が４回使われることもあるのか？

こちらは、冒頭に書いた話の"DEFGH"を"55種類の文字"に差し替えるだけの話でしょう。ただ、検定するまでもなく偏りがあることは明らか。

stomachman · Answer

ANo.2へのコメントについてです。

> 数が少な過ぎる

いや、統計の話の前に、方法論として成り立つんだかどうだか、を考えているんです。規則に例外が発生することに関する規則性、いわば「超規則」を論じようとなさっている。しかし現象からの帰納しかできないんですから、事例が少ないと、（単に「例外がある」というだけなら１例挙げれば主張できますが）「そこに超規則性があるんだ」という洞察を主張しても客観的な観察として了解してもらえないんじゃないか。個別の事情に還元されちゃう可能性があると、なおさらやりにくいんんじゃなかろうか。（ビスマルクが「歴史に学ぶ」とか言う一方で、史学の先生は「歴史の一回性」なんてことも言う、というのになんだか似てるなあ…）

「例外的」あるいは「不規則」という概念をどう定義するかが最も肝腎という気がします。それらを（たとえば例外の比率が1%以下、のように）純粋に定量的に定義しちまえる（そういう方法論で押し通す）のなら、統計だの検定だの関係なく、単に数を数えるだけの話になるでしょう。でも「比率1%というが、その計算は精度が怪しくないか」とか言ってみたところで、事例はそれだけしかないのだから、精度を上げようがない。そこんとこが弱いなあと。

また、「例外的」だの「不規則」って概念を、はたして比率で扱って良いものかどうか。どうも「不規則とは言っても実は規則っぽいものがあるようなのだが、それはとてもややこしい規則に違いなく、しかも適用例が少ないために、アルゴリズムではなく例外辞書によって記述するほうがよっぽど簡単であり、なのであんまり調べる気にならんのよね」というような状況でも使われるのではないか。その場合には、いわば規則の整理・記述の都合に依存する用語のような気もします。なお、「例外を並べる方が手っ取り早い」ということをもっと厳密な概念にするなら「規則を記述する為に必要な最小の情報量」で測るってことになりましょうか。実行可能かどうかはさておき、ですが。

> 半順序とか束

用語の説明をします。
　普通の数の大小関係は、a≧aである（反射則）。そして、a≧bかつb≧cならa≧cである（推移則）。さらにa≧bかb≧aのどっちかが必ず成り立つ。これを「≧は全順序だ」と言います。
一方、集合の包含関係は、a⊂aである（反射則）。そして、a⊂bかつb⊂cならa⊂cである（推移則）。けれども、a⊂bかb⊂aが成り立つ場合もあれば、どちらでもない場合がある。こういうのを「⊂は半順序だ」と言います。a⊂bかb⊂aが成り立つ場合には両者は比較可能だけれども、成り立たない場合には比べられない。
　でも「考えているもの全部」の集合T（全体集合)は、その部分集合aと必ず比較可能であって、a⊂Tである。また、空集合∅も、Tの部分集合aと必ず比較可能であって、∅⊂aである。つまり、Tを頂点とし、∅を底とする序列関係があります。Tの部分集合のうちの（興味がある）いくつか（Tと∅も含む）を集めてきて、その中の2つの組み合わせ全てについて、包含関係を調べてみる。それぞれの集合をピーズ玉で表します。そして、比較可能なピーズ玉同士をゴムひもで結ぶ。ただし、a⊂bかつb⊂cならa⊂cであるから、aとcを結ぶ必要はない。なので、必要のないゴムひもを全て取り除きます。で、Tと∅のビーズ玉をつまんでむにょーんと上下に引っ張る。そうすると、こんぐらがったあや取りのようなものができるはず。この構造を「束（そく）」って言うんです。Tから∅まで下って行く経路は沢山ある。そして、それぞれの経路を辿るときに出会うビーズ玉は一連の序列をなして現れる。すなわち、先に現れるビーズ玉は多くの要素を持っている。後で現れるものは、先に現れたビーズ玉の要素のうち一部だけを持っている訳です。
　ANo.2では、「規則rによって派生形が作れる「語幹」の集合」Rと、「規則sによって派生形が作れる「語幹」の集合」Sとの間に包含関係が成り立つかどうか、によって規則の序列を作る、ということを考えた訳です。序列の上の方にあるほど「生産性」が高い。すなわち、例が多いってことです。しかし、二つの規則の対が必ずしも比較可能とは限らない。いやむしろ、おそらく大抵の規則同士が比較不能であろう。そこで、少々の例外を認めることにする。そもそもa⊂bとは「a＼b (集合aから、bの要素を全部取り除いた集合）が空集合∅である」すなわち「集合a＼bの要素の個数（|a＼b| と書きます）が0である」ってことです。で、そこをちょっと緩めて、「|a＼b| が|a|に比べて小さい数であるなら、『aはbにおおよそ含まれる』と言うことにして、これをa≪bとでも書こう」と考える訳です。⊂に比べて、≪という関係ならば、比較可能な対の個数がだいぶ多くなるでしょうから。

全くの素人談義ですが、言語現象として観測されて辞書に収録されているかどうか、よりも、規則性の作用によって説明なしで意が通じる（「了解可能性」とでも言いますか）という事の方が本質的な気もしてまして、どうもよくわからん。たとえば、「他人が旨そうに喰っているのを脇で眺めて指をくわえている様子を、さらに第三者の視点から見たときの風情」を指して、「うまそげ」と表現したのは西秋ぐりん氏です。なんだかしっくり来る語だなと思う。「旨い」に「+そ(う)」を付けて"生産"した語にさらに「+げ」で様相を変化させ、たったの4文字ながら二重の推測を加えた複雑な意味を持っている。座布団あげたくなります。このような、規則の自由な応用は、語彙の学習を汎化するということ、また、変な新語が現れることと、極めて密接ではないかとか、えーと、あの、ま、どうでもいいか。

stomachman · Answer

ANo.1へのコメントについてです。

いや、よくわからんのです。分からんのなら回答すんな、ってことですけど。

ご質問の28個が網羅的な事例の数だとするのなら、それは量の議論をするにはかなり少ないんじゃなかろうか。これがあらゆる意味で話を難しくしているように思います。言い換えれば、「生産性」を語るのにそんな程度の事例しか「生産」しないものを取り上げるのってどうよ？という、素人の疑問ですが。でも、量的な話はさておき：

「ある性質を満たす単語が辞書の見出しに幾つあるか」を頻度と捉えることの、統計の意味での妥当性をまず考えないといけないんじゃなかろうか。（というのは、この手が言語学の方法論として成立している（コンセンサスが形成されている）のであれば、このようなご質問は出ないんじゃ？と憶測するからです。）頻度が「ただ数えただけ」以上の意味を持つには確率が定義されねばならない。確率を考えるってことは「本質的に不可知なもの」としてのランダム性を含むモデルを考えるということです。言語の研究において、文字や音や単語を単位とするマルコフモデルという計量的なアプローチがあるのは知ってます。これは「発話の事例における出現頻度」の話である。いわば、「背後に文法だの発話の意図があることに全く気がつかないふり」をして、「ランダムな発生源」というモデルを拵える。（素人目には、なんだか変な方からアプローチしてるような気がしますけど、ま、それはさておき。）ですが、「辞書の見出しにおける出現頻度」なる概念はこれとは明らかに違う。その頻度は確率と関連づけられるだろうか。言い換えれば、ランダム性がどこに、どういうふりをすれば入れられるか。んー。分からんす。

「生産性」の概念は、ご教示だけからの想像ですけれども、（頻度の話というよりも）比較に基づく相対的な性質であって、（数学で言う）順序の一種と捉えられるのかなと思います。（ある「語幹」的なものからシステマティックに発生する一群の派生形、の話しか思いつかんのですが、）「派生形を作る規則を、かなり強い規則性がある場合から、かなり不規則な場合までのスペクトルの中に配置しよう」というアイデアなのかな、と。
　配置の仕方は、その規則が適用されて生じた単語の「語幹」の集合を考えて、その集合同士の包含関係で決まると考えるのが自然。するとその配置は半順序になり（つまりスペクトル（全順序）にはならず）、これらの集合同士が束(lattice)の構造をなすでしょう。この束の上で、ある規則RとSについて、相互に比較可能（R⊂SまたはS⊂R）である場合も、比較不可能である場合もある。
　たとえばアラビア語における三語根に基づく派生形のような話ですら、多少の例外を認めて「ほとんど比較可能（「近似的」にR⊂S。つまり例外として「Sに含まれないRの要素が少しあるけど、ま、ちょっとぐらいいいじゃん」）」のようなことを許さなきゃならんと思います。その上でなら、「ほとんど比較可能」なR,Sのペア（たとえば「第IV形Rと第VII形Sを比べると、第IV形が作れないのに第VII形がある、という例はほとんどないから、R⊂Sだ」というように）が豊富にあるんで、束の構造を明瞭に描出できそうである。しかし事例が少ない規則同士を比べる場合には、多少の例外を認めるぐらいじゃ大抵が比較不可能であって、ごくpoorな結果しか出ないだろう。そこで例外を際限なく許して行くと、比較の拠り所は「包含関係は無視し（従って束構造は全く見ずに）、（そのくせスペクトルをなすものと天下りに前提して）辞書での出現頻度だけを数える」という、ご質問の立場になるんだろうかな。（ただし、ここで注目しているのは発音ではなく、規則自体ですけれども。）

stomachman · Answer

『単語を作る際に「アー」を表す文字の中から、等しい確率でランダムに選んでいる』という帰無仮説を否定することができたとすると、『単語を作る際に「アー」を表す文字の中から、等しい確率でランダムに選んでいるのではない』という結論が得られる。
　しかしたとえば『単語を作る際に「アー」を表す文字の中から、Aを30%, B=20%, …の確率でランダムに選んでいる』という帰無仮説になると、到底否定できんでしょう。（どんな重み（30%, 20%,…）が付いていようが、ともあれ）選び方がランダムだという説明があり得るのなら、少なくとも統計学的には「生産性」がどうたら言う話には繋がりっこない。

むしろ、Eをアー以外の読み方で使う頻度を研究すべきじゃないかな。
　たとえば99%のEはホーと読まれるのだが、1%だけはアーと読むのだとする。その場合、アーと読むべきEを含む単語を、その単語を知らないひとが発音しようとすれば（誤って）ホーと読んでしまう、という現象が生じるでしょう。（「服部」を「ふくぶ」と読んでしまうように、です。）その場合には、「これは文字Eのイレギュラーな使い方だ」と言っても大間違いではないかも知れない。
　あー、いやいや、それでも大間違いかも知れない。明らかに公知でかつ明確な規則（たとえば、「Qに続くEは必ずアーと読む」だとか、「ホーと読むととても人前では言えないお下劣な意味を持つ単語と同音になる場合には必ずアーと読む」）があって、ホーと読み間違えるのは幼児だけ、ということだってありうるわけで。

なので、まず何らかの規則があるのかどうかをnativeから聞き取る。その例外を探し、さらに、読み間違いの（あるいは読めないという）事例を収集することによって、その規則が「明らかに公知でかつ明確な」ものかどうかを調べる。という風にでもしないと、仰る所の「生産性」の有無のような概念が成立するのかどうか、そもそも議論にならんのじゃなかろうか。要するに、これは単語の問題じゃなく言語の問題でしょうよ。

統計的に、ある音が、ある文字で書かれる確率が、偶然以上かどうかをエクセルで調べる方法はありますか？

ANo.4へのコメントについてです。

ANo.7へのコメントについて。

ANo.7へのコメントについてです。

> つまり無意識に即興で作られてきた単語の数に、偏りができる

ANo.5へのコメントおよび補足について。

ANo.3へのコメントについてです。

ANo.2へのコメントについてです。

ANo.1へのコメントについてです。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング