位置情報で子どもの居場所をお知らせ

MP3やjpegはフーリエ変換の一種の離散コサイン変換で圧縮していると聞きました。
http://www.ic.is.tohoku.ac.jp/~swk/lecture/yaruo …
によると、フーリエ変換は、正弦波と余弦波の重ね合わせで音を表現する、簡単にいうと音叉を何十本も同時に鳴らすと元の音が再現できる、という話です。
MP3、jpegもこれと同じ原理でしょうか?それをまず伺いたいです。違うなら解説お願いします。

また、jpegは8×8画素のブロックに分割してそれぞれを離散コサイン変換しているのはわかりましたが、
http://ja.wikipedia.org/wiki/JPEG#.E7.AC.A6.E5.8 …
MP3は何秒間の音を離散コサイン変換しているのでしょうか?

ご存じの方教えて下さい。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

576サンプルまたは192サンプルの選択式…のようですが…。


MP3には詳しくないのでちょっと自信がありません。本当にこの中途半端な数を使っているのでしょうか…。
また、サブバンド分割なる処理も入るようですがこれについて理解できていません。
一応Wikipediaを見る限りこの数字なのは正しそうですが…。

英語版Wikipedia、MP3のページ
http://en.wikipedia.org/wiki/MP3#Encoding_audio
「During encoding, 576 time-domain samples are taken 」
「If there is a transient, 192 samples are taken instead of 576. 」

日本語版Wikipedia、AACのページ
http://ja.wikipedia.org/wiki/AAC
「long blockが576点相当(32サブバンドx18点)、short blockが192点相当(32サブバンドx6点)であったMP3と比較して」

なおこのサンプル数が何秒に当たるのかはサンプリングレートによって違い、
44.1kHzであれば576×(1/44.1kHz)≒13ミリ秒になると思います。

バッファは今回の質問に無関係だと思います。
    • good
    • 0

詳しくないですが…


多分サンプリングレートそのものか、その区間をさらに何分割かしたものだと思います。
44.1kHzとかいうやつです
    • good
    • 1

 MP3圧縮では,JPEG圧縮での『離散コサイン変換』と若干異なり,『修正離散コサイン変換』または『変形離散コサイン変換』を利用しています.


 JPEG圧縮は,8×8画素という固定サイズですが,MP3では,バッファごとに処理しています.
 ご存知の通り,バッファは,PCによって異なり,さらに,どれくらいのバッファを1ブロックとして処理するかはエンコーダに依存します.
 従って,MP3圧縮の何秒間は,上のバッファ数に依存するので,不明ということになります.
Wikipediaによると,やはり,バッファは,下記の通りとなっており,何バッファ積んでいるかはPCに依存していることが判ります.
『CPU・制御装置などの内部処理装置との間で信号をやり取りする際に、入出力と処理との間で時間のズレを吸収・調整をするために一時的に情報を記憶する装置や記憶領域のこと。』
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qデータ圧縮にDCTを用いるのはなぜですか?

jpegなどの圧縮形式では離散コサイン変換(DCT)が用いられているそうなのですが、これは画像内の関数をコサインの級数展開して、更に高次の項を無視することで不可逆的な圧縮をかけるものだという理解でよろしいでしょうか?
質問は、なぜexpの級数展開であるフーリエ変換では同じようなことをしないのか、
ということと、sinを用いない理由はDC成分が重要だからと本には書かれているのですが、cosだとDC成分をなくしたくても、残ってしまうために問題になることもあるのではないのでしょうか?

よろしくお願いいたします。

Aベストアンサー

なぜJPEGなどの画像圧縮で、DCTといった周波数領域への変換を行うかというと、人間の眼は「低周波成分の変化には敏感」だが、「高周波成分ほど変化に鈍感になる」という特性があるからです。
そのため、DCT変換後の周波数領域で、高周波成分の精度を落としても、
視覚上はあまり情報が劣化しているように感じない、ということになるのです。

ここで重要なのは「精度を落とす」のであって「無視する」のではないことに注意してください。
通常、画像は8bit=各画素256段階で表現していますが、JPEGではDCT変換後の高周波領域を、256値よりももっと荒い段階数で表現することで、情報量を減らしているのです。
(結果として、元々の高域成分が非常に小さい場合は、高域成分が0になってしまうことになりますが、「高次の項を無視」するのは、あくまで結果です。高域成分も大きいような画像だと、JPEGでも高域成分は残ります。)

次に、周波数領域への変換方法で、なぜフーリエ変換ではなくDCT変換なのかというと、
フーリエ変換では、入力が実数の場合でも、変換後の周波数領域成分が「複素数」になってしまいますが、
DCTでは、入力が実数なら、変換後の周波数領域成分も「実数」になるので、計算が容易になるからです。


なお、このDCT変換後の周波数領域での「DC成分とは何か」ですが、
DC成分とは、対象としているブロック全体の「平均輝度」を表しています。
例えば、全体的に真っ白な画像は、DCT変換すると、DC成分が1で、それ以外の周波数成分は全て0になります。
全体に真っ黒な画像は、DC成分も0で、それ以外の周波数成分も0です。

DC成分が失われるということは、この「平均輝度」情報が無くなるということですので、
DC成分無しではまともに「画像」情報を処理することが出来ないのです。

なぜJPEGなどの画像圧縮で、DCTといった周波数領域への変換を行うかというと、人間の眼は「低周波成分の変化には敏感」だが、「高周波成分ほど変化に鈍感になる」という特性があるからです。
そのため、DCT変換後の周波数領域で、高周波成分の精度を落としても、
視覚上はあまり情報が劣化しているように感じない、ということになるのです。

ここで重要なのは「精度を落とす」のであって「無視する」のではないことに注意してください。
通常、画像は8bit=各画素256段階で表現していますが、JPEGではDCT変換...続きを読む

Qウェーバーフェヒナーの法則

私は大学で情報について学んでいます。最近、ウェーバー・フェヒナーの法則について学んだのですが、いまいちよく分かりません。
具体的にウェーバー・フェヒナーの法則が成り立つ例があれば教えていただけませんか??
よろしくお願いします。

Aベストアンサー

日常的に経験される現象としては

日が暮れてから灯かりをともすと明るくなったと感じるのに
昼間同じ灯かりをともしても
いわゆる昼行灯で大して明るく感じない。

唐辛子が普通の2倍入った2倍カレーと
3倍入った3倍カレーの辛さの違いはわかるのに
12倍カレーと13倍カレーの違いはわからない。

なんてのはどうでしょう?

実験的に求められたデータの例は
下のURLにあります。
代表的な5つの味覚物質の濃度と味の強さの関係についてのデータが
グラフ化されて載っています(ちょっと小さいけど)。
横軸が対数目盛りになっているので,
グラフは直線になっています。

ところでこの質問は
心理学のカテゴリーのほうが相応しいのでは?

参考URL:http://www.umamikyo.gr.jp/dictionary/chapter2/index2.html


人気Q&Aランキング