dポイントプレゼントキャンペーン実施中!

2進と3進と4進と5進文字を使います。日本語に母音の音素は5種類あります。/a/と/i/と/u/と/e/と/o/です。2進文字の可変長符号語に置き換えます。嵯峨山茂樹『音声とは:音声学の雑学』が良かったです。右を押すと pdf が落ちてきます。https://www.google.com/url?sa=t&source=web&rct=j …です。口の開き具合が閉じ気味から開いたところまで4段階あって舌の置き場所が前の方と真ん中と後ろの方で3段階あります。口を閉じ気味で舌を後ろの方に置いて息を吐くと/o/の音がでます。
      0    1     2
     Front  Central  Back
0 Close    i         u
1 Close-mid   e       o
2 Open-mid
3 Open         a
4進と3進文字の長さ2の固定長符号語に置き換えます。5進文字の長さ1の固定長符号語に置き換えます。
 2進 3と4進 5進
i 101  00   0
e 111  11   1
a 0   31   2
o 110  12   3
u 100  02   4
離散的無雑音体系です。
━頭の中┓短い時間┏頭の中━
 /a/表 口→音  ┃     
 /k/現 |長↓声→耳 理/a/ 
 /a/  |い↓  ┃ 解/k/ 
 /i/  |時↓  ┃  /a/ 
    ┃間↓  ┃  /i/ 
━━━━┛    ┗━━━━
/akai/は dataです。2進文字の可変長符号語置換と4進と3進文字の長さ2の固定長符号語置換と5進文字の長さ1の固定長符号語置換は次の3つです。4進と3進文字の長さ2の固定長符号語置換が一番長いdataになります。
0/k/0101
31/k/3100
2/k/20
 植松友彦『「通信の数学的理論」その後の話-還暦を迎えた情報理論』https://www.jstage.jst.go.jp/article/essfr/4/2/4 …のp.2より引用は「通信路の状態と入力記号によって定まるコストがあり, このコストを最小にするように情報源を符号化するためには, どうすればよいかという問題がコスト付き符号化である.」です。
 右の「離散的無雑音システム」なども参照ください。この辺に関し、チョムスキー自身は、」は引用です。次の質問の3個目の補足からです。『庭 三郎『現代日本語文法概説』に見る言霊論 』https://oshiete.goo.ne.jp/qa/11823076.htmlさんです。
 英語だと母音が10種類あって可変長さの符号語に符号化できません。
      0    1     2
     Front  Central  Back
0 Close    i         u
1 Close-mid  e    ǝ    o
2 Open-mid    æ   ʌ  ɔ
3 Open        a     ɑ
 『有限の単語から無限の文を作ることができますか?』https://oshiete.goo.ne.jp/qa/10807912.htmlさんがよかったです。
━ー頭の中┓   ┏頭の中━
 /g/表→ 口→音←口 ←表/g/  
 /u/現  ┃ ↓ ┃  現/u/ 
 /R/  ┃ ↓  ┃   /R/
      ┃時↓ ┃    
      ┃間↓ ┃      
━ー━━━┛   ┗━━━━
じゃんけんであいこが続くと data が無限に長くなります。 日本語が/a/と/i/と/u/と/e/と/o/の母音を選んだ理由を口と舌の形と動作と耳と離散的無雑音体系と費用を最小することと生成文法とで言えませんか?

質問者からの補足コメント

  • data と符号と語が1組になって日本語です。dataが頭の中にあります。符号を使って表現する日本語の語/akai/を表現します。そのとき用意する日本語の符号が/a/と/i/と/u/と/e/と/o/の母音です。母音の前に口の形の符号があります。口の形は共通です。2回目に符号にした時に日本語と英語で5個と10個の差があって語にも英語用の語があります。
    data━3or4段階の組┳/aiueo/     ━語
               ┗/iueǝoæʌaɑɔ/━word
    data と符号と語と文法と句と節と論理で文ができます。日本語と英語の違うところと共通するところがあります。じゃんけんであいこが続くと data の長さが無限で符号と語の種類で文法はだいたい一緒です。少ない音から組み合わせの組み合わせの組み合わせの組み合わせでだんだん表現の範囲と細かさが entropy です。

    No.2の回答に寄せられた補足コメントです。 補足日時:2020/11/06 06:24
  • みかふ
    ずわる
    のずい
    おとけ
    とびや
     こ
     む
     英語に翻訳します。In the old pond of a flog diving makes me sound waterです。日本語だと/huruikeyakawazutobikomumizunooto/で32音素です。英語だと/inðióuldpɑndǝvǝfaɑgdaiviŋmeiksmi;saundwɔːtɚ/で43音素です。おなじ data です。文字で聖書だと『Twitterは560文字制限!?同じ文字数に込められる情報量の違い』さんhttps://medium.com/@naotokui/twitter-560-d5a82ce …によれば日本語で約1500文字で英語で約4000文字です。

    No.3の回答に寄せられた補足コメントです。 補足日時:2020/11/07 05:25
  • 『情報源の符号化費用は4進と3進文字長さ2の固定長符号語が最小ですか?』のNo.1さんhttps://oshiete.goo.ne.jp/qa/11934493.htmlは「「費用」が何なのかを定義しなくてはならない。」と言ってました。音素を出現頻度に反比例した符号長の符号に費用最小すると日本語と英語で符号の付き方がどうちがうのでしょうか。2進数だったり txt だったり pdf だったり wavだったりするとまた違ってきます。byte数だと日本語と英語で聖書はどちらが小さいでしょうか。

      補足日時:2020/11/07 05:25
  • 『日本語とローマ字の母音から5個というのはただの偶然?』のNo.4さんhttps://oshiete.goo.ne.jp/qa/7800715.htmlより引用は「アラビア語のようにAIUの3母音システムの言語があります。」です。『日本語より母音の発音種類が少ない言語』のNo.4さんhttps://oshiete.goo.ne.jp/qa/4602873.htmlより引用は「John Kingstonという言語学者が451言語の母音音素の数を比較しています。」です。『各言語の音の数』のNo.2さんhttps://oshiete.goo.ne.jp/qa/1054822.htmlより引用は「音節数で言えば、日本語は110くらいです。」です。

      補足日時:2020/11/13 05:55
  • 亜剌比亜語を使います。3つ母音を次の表のように可変長符号化します。
     2進
    i 11
    a 0 
    u 10
    ━頭の中┓雑  無  雑┏頭の中━
     /a/表 口→音→0↘   ┃     
     /k/現 ┃   k 音→耳 理/a/ 
     /a/  ┃   0   ┃ 解/k/ 
     /i/  ┃   11   ┃  /a/ 
        ┃       ┃  /i/ 
    ━━━━┛       ┗━━━━
    2音素目に/k/でほかに3つの母音で作れる長さ4の単語は3^2で27個あります。そのうちの1つ/akai/が出てくる確率は1/27なので entropy はlog(1/27)です。 2進数だと0011が送られてきます。最も長い語は/ikui/で111011です。6個の枠があります。2^6なので64です。0011である確率は1/64です。entropy はlog(1/64)です。

    No.4の回答に寄せられた補足コメントです。 補足日時:2020/11/13 05:56

A 回答 (4件)

>離散的無雑音体系


人間の話す言葉においての離散的無雑音という意味なら、それは
「聞き間違いしない」ということなんじゃあ?
たとえば、日本人は母音5音しか聞き分けられないということ。
つまり、たとえば「æ」を「a」と聞き取ってしまうということ。
 ※「æ」は、アとエの中間。離散的というのは、こういう中間を認めないことを意味する。
 ※※英語にとっては、「æ」は離散的。(「æ」とアとエは区別がついて間違えない)
で、母音は何音までなら聞き分けられるか?ということに対する回答が、
日本語:5 英語:10。
※英語辞書に載っている英語母音数はもっと多いと思うが、議論の本質ではないので、ここでは10とします。
よって、
(Front Central Back)*(Close Close-mid Open-mid Open)
の組み合わせが人間に発音かつ聞き分けられる上限だとして、15個全部使うか、いくつか飛ばして使うか。
実際に話すときは、雑音(ここでは、相手の発した音声以外の音。)が入るので、雑音を無視できるようにするため、母音減らすとか、一部聞き取りそこなっても意味わかるように、とか、いわゆる冗長性を組み込んだのが人間の言語。パリティとかCRCとかのオマケ(=冗長)をつけて、聞き取りそこなったかどうかの判定を設けたのがデータ通信(雑因入るのが前提と同義)。

うん、まあ、人間の言語が無雑音前提なんてそんなわない。
雑音前提に決まっている。

補足コメント
>同じ文字数に込められる情報量の違い
こちらの「情報量」は、純然たる情報量のことで、早い話「ビット」で計測できる情報量のこと。
で、あなたの参照した内容ですが、文字数の数え方が書いていないのですけど。
まあ、中国語日本語は1字=16bit、 英語は1字=8bitとします。
(現実のコード体系からするとこうなる。)
中国語日本語が何を意味するかというと、
・特定ワードをLZ78圧縮(の劣化版)で圧縮したもの。
※劣化版とは、16bit固定長を指す。LZ78は、もっと柔軟。
中国語日本語のほうが、同じ文字なら情報量が多いのは、そりゃそうなる。
ただし、多量の文字の事前インプットが必要、という条件付きですよ。

補足コメント
>古池や蛙飛び込む水の音
>日本語だと32音素(ローマ字換算) 英語だと43音素です。
それ、特殊条件のときを述べているにすぎません。
俳句という特殊条件でなく、通常文なら? 通常文において、同音異義語は日本語のほうが圧倒的に多い(母音が少ないのでそりゃそうなる。)ことはどうするの?ここを正さないと離散的無雑音体系にひっかかりアウト。
漢字使えば同音異義語は英文程度に抑え込めるけど、今度は、音素で比較、ということが成立しません。

補足コメント
>音素を出現頻度に反比例した符号長の符号に費用最小すると日本語と英語で符号の付き方がどうちがうのでしょうか。
それ、ハフマン圧縮のことで、ハフマン圧縮が、出現頻度に反比例した符号長費用最小
がとなることは証明済みなのだけど....(符号長は整数であるという条件付きで。) wikiopedia の ハフマン符号化 参照。

あと、英語の場合、
直前の文字に対する出現頻度でハフマン圧縮(=2文字相関) すると、圧縮率はかなり改善され、LZ77やLZ78(=もっと長い文字数まで考慮できる)に対してもそれなりに勝負できる圧縮率となります。中国語日本語は、そうでもないけど。

補足コメント
>No.1さん 「「費用」が何なのかを定義しなくてはならない。」
そりゃまあ、そうなるでしょう。
人間の会話で、「アイウエオ」どれ発音しても、必要な時間は一定なので、固定長とせざるを得ません。

補足コメント
>2進数だったり txt だったり pdf だったり wavだったりするとまた違ってきます。
当たり前です。(2進数というのが何意味しているのかはからん。)
TXT:英数(=半角)=1byte 漢字=2byteとして合計。 (英数と半角の切り替えコードも足すかどうかは、TXT次第。
pdf:TXTをガチ(少なくとも、LZ77やLZ78級)で圧縮後のサイズ。(フォント埋込みは無いとして。)
WAV:ゆっくり喋ればサイズ大きくなるのは確定。比較すること自体がオカシイ。

質問文本文
>英語だとLZ78圧縮あって可変長さの符号語に符号化できません。
母音の種類がいくつであろうともハフマン符号化できますが、それが何か?
wikiopedia の ハフマン符号化 参照。
※LZ78圧縮(もちろん、コレも可変長符号。)なら、[the]は、よほど運が悪くても10bitくらいに圧縮される。
 母音の数は、あまり関係ないと思う
この回答への補足あり
    • good
    • 2
この回答へのお礼

まさにいさんおはようございます。良いです。ありがとうございます。

お礼日時:2020/11/13 05:57

かなり無理があります。

母音の話ならおもしろいですが、一方で子音はどうでしょう。日本語は、子音のパターンも、10種類ぐらいしかなくて、結果発音が全部で、100音以下ですね。世界でもっとも、発音が簡単な言語です。

一方で、英語は、発音の種類は、数千とも数万とも言われ、日本語にはない子音だけで母音を伴わない音もたくさんあります。コスト最適化なら、なぜ、日本語だけそうなったのかが説明できません。

また、音には、ストレスと言われる強さや、それをもとにしたリズムが重要で、棒読みの英語がネイティブに通じないことでもそれがわかります。また、イントネーションや中国語の四声のような声調もあるので、母音だけを、言葉の情報伝達の議論にするのはナンセンスです。

日本語が単純なのは、もともとやまとは結構複雑だったのに、文字を持たなかったため、長い間発音の似た漢字の当て字をつかっていた。そこから、ひらがな、カタカナをつくたけど、発想はこの当て字なので、自分たちのしゃべっている言葉を表現するのではなく、当て字の統一という方式をとってしまい、結果中国語に寄せてしまったわけです。

中国から輸入した言葉(現在の音読み)も、中国語では同じ漢字でも音調があるのに、日本語はやまと言葉を表現する訓読みで棒読みして輸入した。結果、日本語がもっていた、複雑な母音や、子音、音便などが、ほとんど失われてしまった。

かなと漢字を混ぜて使えば、文字を表意文字として扱えるので、多様な表現ができる一方で、音としては、同音異義語が異常に多く、ひらがなだけでは意味が伝わらない。日本人は、しゃべりながら、脳では漢字を無意識に想像するそうですが、漢字を想像しないと意味が通じないという、極めてめずらしい言語です。文化としては面白いけど、言語としては、極めて効率の悪い方法になってしまったわけです。

2世紀から3世紀に、ローマ字を知ったり、英語のような、子音、母音になっていたと思いますし、朝鮮語のような、言語特有の音を表現する文字を誰かがオリジナルで作っていたら、状況は変わっていたと思いますね。
この回答への補足あり
    • good
    • 5
この回答へのお礼

ぴょおさんおはようございます。ありがとうございます。

お礼日時:2020/11/07 05:26

言えないですね。



そもそも英語だけと比較することが意味がないです。
母音だけで言えば、5個程度の母音を持つ言語は世界的に認識されている600程度の言語の内、半数近くがその程度ですし、逆に日本語よりも母音が少ない言語も存在します。

なので「口の形と費用最小化」なら母音がもっと少なくても成立するわけです。
この回答への補足あり
    • good
    • 3
この回答へのお礼

ピーチジョンさんおはようございます。良いです。ありがとうございます。

お礼日時:2020/11/06 06:25

まぁ


自然発生ですからねぇ。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!