情報源の符号化費用は4値と3値の並列が最小ですか?

Question

離散的無雑音システムが植松友彦『「通信の数学的理論」その後の話-還暦を迎えた情報理論』https://www.jstage.jst.go.jp/article/essfr/4/2/4_2_123/_article/-char/jaの目次にあります。p.2より引用は「通信路の状態と入力記号によって定まるコストがあり, このコストを最小にするように情報源を符号化するためには, どうすればよいかという問題がコスト付き符号化である.」です。
　名前を呼びたいので符号化します。/ukai/です。符号長は4単位です。符号は頭の中にあって無雑音で離散です。1単位目の音素の候補は5個あります。/a/と/i/と/u/と/e/と/o/です。5値の分岐あるいは2値の3並列で2^3の8つの値の内の5個があります。嵯峨山茂樹『音声とは:音声学の雑学』が良かったです。右を押すと pdf が落ちてきます。https://www.google.com/url?sa=t&source=web&rct=j&url=https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/1/notes/ja/A2-Phonetics.pdf&ved=2ahUKEwi7vOfBy4TsAhVMA4gKHbXdDSYQFjAAegQIARAB&usg=AOvVaw3m0iHknpBvznOgrzgdSXC2です。5種類の母音は Front と Central と Back の3値と Close と Close-mid と Open-mid と Open の4値の分岐の並列で12値のうちの5個を使います。
5種類の母音
　　　　　Front　　Central　　Back
Close　　 　i　　　　　　　　　　u
Close-mid　　　e　　　　　　　　o
Open-mid
Open　　　　　　 　　a
5個の符号が用意できます。/akai/と/ikai/と /ukai/と /ekai/と /okai/です。阿加井さんや伊介さんや鵜飼さんや江會さんや大海さんが居ます。
　5値の1並列と2値の3並列の間にある3値と4値の並列が情報源を日本語の符号にする費用を最小にするのでしょうか?
　右の引用「離散的無雑音システム」なども参照ください。この辺に関し、チョムスキー自身は、」は次の質問の3個目の補足からです。『庭 三郎『現代日本語文法概説』に見る言霊論 』https://oshiete.goo.ne.jp/qa/11823076.htmlさんです。

masa2211 · Accepted Answer

>情報源の符号化費用
＞日本語の符号にする費用を最小にする
質問文から読み取ると、
阿加井さんと赤井さんを区別する必要は無いように思うので、
日本語をカナなりローマ字で書いた時の圧縮後の最小ビット数を求める
（符号化費用とは、ビット数と同義なので。）
ということに帰着。（最小ビット数を求めるために必要な計算時間は考慮不要。）

＞離散的無雑音システム
離散的とは：たとえば、英語にはアとエの中間発音があるけど、日本語は、それをアかエのどちらかとして認識する。（＝アとエの中間発音は、認識する必要がない。）
　　　　　　また、虹の色で、黄と緑の間の色（黄緑）を認識する必要がなく、
　　　　　　黄か緑どちらかに認識すればよい。
　　これが離散化。
無雑音とは：要するに文字化けしない。（＝文字化け対策は考えなくてよい。）

このあたりは、普通の意味が上記なのでそう考えます。

で、
＞5値の1並列と2値の3並列...日本語を符号にする費用を最小
といわれても....
母音だけに着目なら、母音の出現頻度で符号長を決める。（＝ハフマン圧縮。）
高々5音なのだから、5値の1並列と2値の3並列とか分けても意味ないと思います。
子音をどうするかワカンナイ状態で何が最適化なのか、言えるわけないです。

ついでに。
　アルファベットの出現頻度で符号長を決める（＝ハフマン圧縮。出現が多いほど短い符号を割り当てる。）のより、直前の文字（例えばｔ）の次のアルファベットの出現頻度で符号長を決める　　のほうが、より圧縮できるが、データテーブルというコストがかかる。2文字前まで考えると、もっと圧縮できるが、データテーブルも巨大となり、よほど大きいデータでないと、かえってロスとなる。
　それなら、元文書のうち符号化済の部分をデータテーブルとして扱えば、データテーブルはゼロだし、2文字前、3文字前の相関まで取り込めるじゃん、というのが
1977年のLZ77法と1978年のLZ78法。

5値の1並列と2値の3並列．．．．は、まあ、子音の次の文字に限って圧縮　の意味だとして、５０音の単純ハフマン圧縮にすら負けると思います。

情報源の符号化費用は4値と3値の並列が最小ですか?

>情報源の符号化費用

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング