日本語が/aiueo/の母音を選んだ理由を口の形と費用最小化と生成文法とで言えませんか?

Question

2進と3進と4進と5進文字を使います。日本語に母音の音素は5種類あります。/a/と/i/と/u/と/e/と/o/です。2進文字の可変長符号語に置き換えます。嵯峨山茂樹『音声とは:音声学の雑学』が良かったです。右を押すと pdf が落ちてきます。https://www.google.com/url?sa=t&source=web&rct=j&url=https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/1/notes/ja/A2-Phonetics.pdf&ved=2ahUKEwiJkaSF_OjsAhXF3mEKHVnhA3MQFjAAegQIARAB&usg=AOvVaw3m0iHknpBvznOgrzgdSXC2です。口の開き具合が閉じ気味から開いたところまで4段階あって舌の置き場所が前の方と真ん中と後ろの方で3段階あります。口を閉じ気味で舌を後ろの方に置いて息を吐くと/o/の音がでます。
　　　　　　0　　　　1　　　　　2
　　　　　Front　　Central　　Back
0 Close　　 　i　　　　　　　　　u
1 Close-mid　　　e　　　　　　　o
2 Open-mid
3 Open　　　　　　 　　a
4進と3進文字の長さ2の固定長符号語に置き換えます。5進文字の長さ1の固定長符号語に置き換えます。
　2進　3と4進　5進
i 101　　00　　　0
e 111　　11　　　1
a 0　　　31　　　2
o 110　　12　　　3
u 100　　02　　　4
離散的無雑音体系です。
━頭の中┓短い時間┏頭の中━
　/a/表 口→音　　┃ 　　 　
　/k/現 ｜長↓声→耳 理/a/　
　/a/　 ｜い↓　　┃ 解/k/　
　/i/　 ｜時↓　　┃ 　/a/　
　　　　┃間↓　　┃ 　/i/　
━━━━┛　　　　┗━━━━
/akai/は dataです。2進文字の可変長符号語置換と4進と3進文字の長さ2の固定長符号語置換と5進文字の長さ1の固定長符号語置換は次の3つです。4進と3進文字の長さ2の固定長符号語置換が一番長いdataになります。
0/k/0101
31/k/3100
2/k/20
　植松友彦『「通信の数学的理論」その後の話-還暦を迎えた情報理論』https://www.jstage.jst.go.jp/article/essfr/4/2/4_2_123/_article/-char/jaのp.2より引用は「通信路の状態と入力記号によって定まるコストがあり, このコストを最小にするように情報源を符号化するためには, どうすればよいかという問題がコスト付き符号化である.」です。
　右の「離散的無雑音システム」なども参照ください。この辺に関し、チョムスキー自身は、」は引用です。次の質問の3個目の補足からです。『庭 三郎『現代日本語文法概説』に見る言霊論 』https://oshiete.goo.ne.jp/qa/11823076.htmlさんです。
　英語だと母音が10種類あって可変長さの符号語に符号化できません。
　　　　　　0　　　　1　　　　　2
　　　　　Front　　Central　　Back
0 Close　　 　i　　　　　　　　　u
1 Close-mid　　e　　　 ǝ　　　　o
2 Open-mid　　　　æ　　　ʌ　　ɔ
3 Open　　　　　　　　a　 　　 ɑ
　『有限の単語から無限の文を作ることができますか？』https://oshiete.goo.ne.jp/qa/10807912.htmlさんがよかったです。
━ー頭の中┓　　　┏頭の中━
　/g/表→ 口→音←口 ←表/g/ 　
　/u/現　 ┃　↓　┃ 　現/u/　
　/R/　　┃　↓　 ┃　 　/R/
　　 　　 ┃時↓　┃ 　　　
　 　　　 ┃間↓　┃ 　　　　　
━ー━━━┛　　　┗━━━━
じゃんけんであいこが続くと data が無限に長くなります。 日本語が/a/と/i/と/u/と/e/と/o/の母音を選んだ理由を口と舌の形と動作と耳と離散的無雑音体系と費用を最小することと生成文法とで言えませんか?

masa2211 · Accepted Answer

＞離散的無雑音体系
人間の話す言葉においての離散的無雑音という意味なら、それは
「聞き間違いしない」ということなんじゃあ？
たとえば、日本人は母音5音しか聞き分けられないということ。
つまり、たとえば「æ」を「a」と聞き取ってしまうということ。
　※「æ」は、アとエの中間。離散的というのは、こういう中間を認めないことを意味する。
　※※英語にとっては、「æ」は離散的。（「æ」とアとエは区別がついて間違えない）
で、母音は何音までなら聞き分けられるか？ということに対する回答が、
日本語：5　英語：10。
※英語辞書に載っている英語母音数はもっと多いと思うが、議論の本質ではないので、ここでは10とします。
よって、
（Front　Central　Back）＊（Close　Close-mid　Open-mid　Open）
の組み合わせが人間に発音かつ聞き分けられる上限だとして、15個全部使うか、いくつか飛ばして使うか。
実際に話すときは、雑音（ここでは、相手の発した音声以外の音。）が入るので、雑音を無視できるようにするため、母音減らすとか、一部聞き取りそこなっても意味わかるように、とか、いわゆる冗長性を組み込んだのが人間の言語。パリティとかCRCとかのオマケ（＝冗長）をつけて、聞き取りそこなったかどうかの判定を設けたのがデータ通信（雑因入るのが前提と同義）。

うん、まあ、人間の言語が無雑音前提なんてそんなわない。
雑音前提に決まっている。

補足コメント
＞同じ文字数に込められる情報量の違い
こちらの「情報量」は、純然たる情報量のことで、早い話「ビット」で計測できる情報量のこと。
で、あなたの参照した内容ですが、文字数の数え方が書いていないのですけど。
まあ、中国語日本語は1字＝16bit、 英語は1字＝8bitとします。
（現実のコード体系からするとこうなる。） 
中国語日本語が何を意味するかというと、
・特定ワードをLZ78圧縮（の劣化版）で圧縮したもの。
※劣化版とは、16bit固定長を指す。LZ78は、もっと柔軟。
中国語日本語のほうが、同じ文字なら情報量が多いのは、そりゃそうなる。
ただし、多量の文字の事前インプットが必要、という条件付きですよ。

補足コメント
＞古池や蛙飛び込む水の音
＞日本語だと32音素(ローマ字換算)　英語だと43音素です。
それ、特殊条件のときを述べているにすぎません。
俳句という特殊条件でなく、通常文なら？　通常文において、同音異義語は日本語のほうが圧倒的に多い（母音が少ないのでそりゃそうなる。）ことはどうするの？ここを正さないと離散的無雑音体系にひっかかりアウト。
漢字使えば同音異義語は英文程度に抑え込めるけど、今度は、音素で比較、ということが成立しません。

補足コメント
＞音素を出現頻度に反比例した符号長の符号に費用最小すると日本語と英語で符号の付き方がどうちがうのでしょうか。
それ、ハフマン圧縮のことで、ハフマン圧縮が、出現頻度に反比例した符号長費用最小
がとなることは証明済みなのだけど....（符号長は整数であるという条件付きで。） wikiopedia の　ハフマン符号化　参照。

あと、英語の場合、
直前の文字に対する出現頻度でハフマン圧縮（＝2文字相関）　すると、圧縮率はかなり改善され、LZ77やLZ78（＝もっと長い文字数まで考慮できる）に対してもそれなりに勝負できる圧縮率となります。中国語日本語は、そうでもないけど。

補足コメント
＞No.1さん　「「費用」が何なのかを定義しなくてはならない。」
そりゃまあ、そうなるでしょう。
人間の会話で、「アイウエオ」どれ発音しても、必要な時間は一定なので、固定長とせざるを得ません。

補足コメント
＞2進数だったり txt だったり pdf だったり wavだったりするとまた違ってきます。
当たり前です。（2進数というのが何意味しているのかはからん。）
TXT:英数(=半角)＝1byte  漢字=2byteとして合計。　（英数と半角の切り替えコードも足すかどうかは、TXT次第。
 pdf：TXTをガチ(少なくとも、LZ77やLZ78級)で圧縮後のサイズ。(フォント埋込みは無いとして。)
WAV:ゆっくり喋ればサイズ大きくなるのは確定。比較すること自体がオカシイ。

質問文本文
＞英語だとLZ78圧縮あって可変長さの符号語に符号化できません。
母音の種類がいくつであろうともハフマン符号化できますが、それが何か？
wikiopedia の　ハフマン符号化　参照。
※LZ78圧縮(もちろん、コレも可変長符号。)なら、[the]は、よほど運が悪くても10bitくらいに圧縮される。
　母音の数は、あまり関係ないと思う

puyo3155 · Answer

かなり無理があります。母音の話ならおもしろいですが、一方で子音はどうでしょう。日本語は、子音のパターンも、１０種類ぐらいしかなくて、結果発音が全部で、１００音以下ですね。世界でもっとも、発音が簡単な言語です。

一方で、英語は、発音の種類は、数千とも数万とも言われ、日本語にはない子音だけで母音を伴わない音もたくさんあります。コスト最適化なら、なぜ、日本語だけそうなったのかが説明できません。

また、音には、ストレスと言われる強さや、それをもとにしたリズムが重要で、棒読みの英語がネイティブに通じないことでもそれがわかります。また、イントネーションや中国語の四声のような声調もあるので、母音だけを、言葉の情報伝達の議論にするのはナンセンスです。

日本語が単純なのは、もともとやまとは結構複雑だったのに、文字を持たなかったため、長い間発音の似た漢字の当て字をつかっていた。そこから、ひらがな、カタカナをつくたけど、発想はこの当て字なので、自分たちのしゃべっている言葉を表現するのではなく、当て字の統一という方式をとってしまい、結果中国語に寄せてしまったわけです。

中国から輸入した言葉（現在の音読み）も、中国語では同じ漢字でも音調があるのに、日本語はやまと言葉を表現する訓読みで棒読みして輸入した。結果、日本語がもっていた、複雑な母音や、子音、音便などが、ほとんど失われてしまった。

かなと漢字を混ぜて使えば、文字を表意文字として扱えるので、多様な表現ができる一方で、音としては、同音異義語が異常に多く、ひらがなだけでは意味が伝わらない。日本人は、しゃべりながら、脳では漢字を無意識に想像するそうですが、漢字を想像しないと意味が通じないという、極めてめずらしい言語です。文化としては面白いけど、言語としては、極めて効率の悪い方法になってしまったわけです。

２世紀から3世紀に、ローマ字を知ったり、英語のような、子音、母音になっていたと思いますし、朝鮮語のような、言語特有の音を表現する文字を誰かがオリジナルで作っていたら、状況は変わっていたと思いますね。

phj · Answer

言えないですね。

そもそも英語だけと比較することが意味がないです。
母音だけで言えば、5個程度の母音を持つ言語は世界的に認識されている600程度の言語の内、半数近くがその程度ですし、逆に日本語よりも母音が少ない言語も存在します。

なので「口の形と費用最小化」なら母音がもっと少なくても成立するわけです。

ひなげしのはな · Answer

まぁ
自然発生ですからねぇ。

日本語が/aiueo/の母音を選んだ理由を口の形と費用最小化と生成文法とで言えませんか?

＞離散的無雑音体系

かなり無理があります。

言えないですね。

まぁ

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング