アプリ版:「スタンプのみでお礼する」機能のリリースについて

離散的無雑音システムが植松友彦『「通信の数学的理論」その後の話-還暦を迎えた情報理論』https://www.jstage.jst.go.jp/article/essfr/4/2/4 …の目次にあります。p.2より引用は「通信路の状態と入力記号によって定まるコストがあり, このコストを最小にするように情報源を符号化するためには, どうすればよいかという問題がコスト付き符号化である.」です。
 名前を呼びたいので符号化します。/ukai/です。符号長は4単位です。符号は頭の中にあって無雑音で離散です。1単位目の音素の候補は5個あります。/a/と/i/と/u/と/e/と/o/です。5値の分岐あるいは2値の3並列で2^3の8つの値の内の5個があります。嵯峨山茂樹『音声とは:音声学の雑学』が良かったです。右を押すと pdf が落ちてきます。https://www.google.com/url?sa=t&source=web&rct=j …です。5種類の母音は Front と Central と Back の3値と Close と Close-mid と Open-mid と Open の4値の分岐の並列で12値のうちの5個を使います。
5種類の母音
     Front  Central  Back
Close    i          u
Close-mid   e        o
Open-mid
Open         a
5個の符号が用意できます。/akai/と/ikai/と /ukai/と /ekai/と /okai/です。阿加井さんや伊介さんや鵜飼さんや江會さんや大海さんが居ます。
 5値の1並列と2値の3並列の間にある3値と4値の並列が情報源を日本語の符号にする費用を最小にするのでしょうか?
 右の引用「離散的無雑音システム」なども参照ください。この辺に関し、チョムスキー自身は、」は次の質問の3個目の補足からです。『庭 三郎『現代日本語文法概説』に見る言霊論 』https://oshiete.goo.ne.jp/qa/11823076.htmlさんです。

質問者からの補足コメント

  • 2進と3進と4進と5進文字を使います。音素は/a/と/i/と/u/と/e/と/o/です。2進文字の可変長符号語に置き換えます。口の開き具合が閉じ気味から開いたところまで4段階あって舌の置き場所が前の方と真ん中と後ろの方で3段階あります。口を閉じ気味で舌を後ろに置いて息を吐くと/o/の音がでます。
          0    1     2
         Front  Central  Back
    0 Close    i         u
    1 Close-mid   e       o
    2 Open-mid
    3 Open         a
    4進と3進文字の長さ2の固定長符号語に置き換えます。5進文字の長さ1の固定長符号語に置き換えます。
     2進 3と4進 5進
    i 101  00   0
    e 111  11   1
    a 0   31   2
    o 110  12   3
    u 100  02   4

    No.1の回答に寄せられた補足コメントです。 補足日時:2020/09/29 05:06
  • 離散的無雑音体系です。
    頭の中┓短い時間┏頭の中┓
    /a/  口→音声→耳 /a/ ┃
    /k/  | ↓長 ┃ /k/ ┃
    /a/  | ↓い ┃ /a/ ┃
    /i/  | ↓時 ┃ /i/ ┃
       ┃ ↓間 ┃   ┃
    ━━━┛    ┗━━━┛
    /akai/は dataです。2進文字の可変長符号語置換と4進と3進文字の長さ2の固定長符号語置換と5進文字の長さ1の固定長符号語置換は次の3つです。5進文字の長さ1の固定長符号語置換が一番短いdataになります。
    0/k/0101
    31/k/3100
    2/k/20
    日本語が/a/と/i/と/u/と/e/と/o/の母音を選んだ理由を口と舌の形と動作と耳と離散的無雑音体系と費用を最小にすることと生成文法で言えませんか?

      補足日時:2020/09/29 05:08

A 回答 (1件)

>情報源の符号化費用


>日本語の符号にする費用を最小にする
質問文から読み取ると、
阿加井さんと赤井さんを区別する必要は無いように思うので、
日本語をカナなりローマ字で書いた時の圧縮後の最小ビット数を求める
(符号化費用とは、ビット数と同義なので。)
ということに帰着。(最小ビット数を求めるために必要な計算時間は考慮不要。)

>離散的無雑音システム
離散的とは:たとえば、英語にはアとエの中間発音があるけど、日本語は、それをアかエのどちらかとして認識する。(=アとエの中間発音は、認識する必要がない。)
      また、虹の色で、黄と緑の間の色(黄緑)を認識する必要がなく、
      黄か緑どちらかに認識すればよい。
  これが離散化。
無雑音とは:要するに文字化けしない。(=文字化け対策は考えなくてよい。)

このあたりは、普通の意味が上記なのでそう考えます。

で、
>5値の1並列と2値の3並列...日本語を符号にする費用を最小
といわれても....
母音だけに着目なら、母音の出現頻度で符号長を決める。(=ハフマン圧縮。)
高々5音なのだから、5値の1並列と2値の3並列とか分けても意味ないと思います。
子音をどうするかワカンナイ状態で何が最適化なのか、言えるわけないです。

ついでに。
 アルファベットの出現頻度で符号長を決める(=ハフマン圧縮。出現が多いほど短い符号を割り当てる。)のより、直前の文字(例えばt)の次のアルファベットの出現頻度で符号長を決める  のほうが、より圧縮できるが、データテーブルというコストがかかる。2文字前まで考えると、もっと圧縮できるが、データテーブルも巨大となり、よほど大きいデータでないと、かえってロスとなる。
 それなら、元文書のうち符号化済の部分をデータテーブルとして扱えば、データテーブルはゼロだし、2文字前、3文字前の相関まで取り込めるじゃん、というのが
1977年のLZ77法と1978年のLZ78法。

5値の1並列と2値の3並列....は、まあ、子音の次の文字に限って圧縮 の意味だとして、50音の単純ハフマン圧縮にすら負けると思います。
この回答への補足あり
    • good
    • 3
この回答へのお礼

まさにいさんおはようございます。ありがとうございます。

お礼日時:2020/09/29 05:08

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!