複雑な波形の量子化はどのようにされているのか？

Question

CDのようにアナログ量をデジタル量に直すことを量子化と言います。
さて、よく教科書に正弦波のような波形を例にとって量子化が説明されます。
正弦波の一部を切り取って（1/44100秒で切り取る）その場所の16進数（16bit）を求めます。
これはこれでとてもよく分かる説明で量子化により　BFF0　BFF5　BFFF　などの数値が
求められます。

ところが、実際の音楽は正弦波などはほとんどなく、複雑な波形が絡み合っています。
オーケストラなどはサンプリングした瞬間に非常に多くの波形が存在しています。

そこで質問なのですが、輪切りにした瞬間に数多くの波形があるとき
それをどのようにして量子化しているのでしょうか？

chiha2525 · Accepted Answer

追記

量子化されたデータをローパスフィルターを通せば元の波形が再現される、というのは良くある誤解の１つです。これは標本化定理が再現を（数学的に）保証しているということと、実際のDAコンバータで量子化されたデータからなる階段状の出力にローパスフィルターを通してアナログ波形を出力させているということがごっちゃになっているだけで、後者の動作では元の波形を再現できないのは少し考えれば明らかなことです。

具体的にいうと、量子化されたデータは３つまでなら同じ値のデータ点が並ぶことがあります。その元の波形は３次曲線というかＮ字をイタリックにして角を丸めたような線というか、そのようなものの場合起こりうるのですが、そのデータ値の電圧を出力してローパスフィルタに掛けても横一直線の波形しか得られません。元のＮ字の３次曲線との乖離は明らかです。
これは、DACが元々標本化定理に従っていないために起こります。ではもし標本化定理に従おうとするならばどうしたらよいかというと、その曲におけるすべてのデータ点からの寄与を足し合わせる（ここにサンプリング周波数の半分までの帯域制限が加わる）ような計算をすることになります。そのような全部足し合わせるような計算は実際の再生時にはできませんので（ＰＣであらかじめアップサンプリングを行うなどでは可能）、その辺りを端折ってｎ倍オーバーサンプリングを使えばある程度良い再現ができるというのと、後のローパスフィルタで再現波形はぐちゃぐちゃになるというのとでお茶を濁しているようなのが現実です。

でもノンオーバーサンプリングの、全く再現性が低いDACにおいても、音楽的には面白い音として持てはやされることもありますので、この辺りがオーディオの微妙…いや面白いところです。

denkiyasann · Answer

こんにちは、

ご質問に関して混乱しておられる部分は量子化云々以前の話のような気がします。

例えば楽器３つで演奏しているのをマイク一本で収録すると、楽器３つの音が足し算されて
マイクに入力され、それが電圧となります。
　その電圧をアンプで増幅すると元の音がスピーカから出力されるのがオーディオ再生ですよね。
　各楽器の足し算された音を人の耳で聞くとちゃんと３つの楽器が区別して認識されるわけです。

その電圧の変化をグラフで表現すると複雑な波形となります。（横軸＝時間、縦軸＝電圧）
　でもその複雑な波形を一瞬の時間で見ると点になります。（その点と点をつないでいくと元の複雑
な波形に戻すことができるのは直感で理解できると思います。）
　そこまで分解すると、一瞬一瞬では波形は存在せず、電圧値だけですので、電圧をＡＤ変換すれ
ばその値はBFF0　BFF5　BFFF　などのデジタル値になります。

上記の一瞬を定義するのが、サンプリング周波数であり、　一瞬と定義したより早い変化はAD変換に取って検出不能な変化なのでサンプリング周波数がディジタルオーディオに取っての上限周波数を決めるパラメータになります。

chiha2525 · Answer

＞そこで質問なのですが、輪切りにした瞬間に数多くの波形があるとき

まず音の波形は、音源がいくつあろうとどんなに複雑な音であろうと、１本の線の振動で表すことができます。少し不思議なように感じるかもしれませんが、人間の鼓膜が１次元の振動で音を捉えていることを考えると、鼓膜がどのように動くか＝１本の線で表すことができる、というのを理解できると思います。

すこし話がそれますが、この複雑な波形（音に限らず）を基本的な波形の合成で表すことができるのではないか、と考えたのがフーリエで、その変換をフーリエ変換と言います。

どんな複雑な音でも１本の線であることが分かったところで、実際の量子化は次のようになります。
まずマイクなどで音の波形を電子的な波形にします。
つぎにサンプリング周波数の半分以上の周波数をカットします。CDは44.1kHzですが、録音時には192kHzなどの高い値で取得することが多いと思います。
得られた波形をサンプリング周波数ごとにどれくらいの数値であるかデジタル値に変換します。このときのアナログの波形の値とデジタルの値との差を量子化誤差といいます。また最大値は分からないことが多いため余裕をもってデジタル値に変換されているはずです。
ADCは、元の音の波形の電気信号を一定の時間ごとに、その値をデジタル値化するだけでよいので、動作としては非常に単純なものといえます。

こんな感じかな、私もプロではないので間違いがあるかもしれません。

adenak · Answer

音楽信号を４４.１ｋｈｚでサンプリングすると１／４４１００秒間隔でパルス状の信号が得られます。ＰＡＭ波と呼ばれるものです。その信号の包絡線は元の信号と同じです（ローパスフィルターを通せば元の信号が再現されます。）ＰＡＭ波をそのままＣＤに記録する訳にはいきませんのでＰＡＭ波のレベルを１６ビットであらわす符号に変換します。１６ビットですから００００～ＦＦＦＦまで６５５３６段有ることになりますがそのＰＡＭ波から１６ビットの符号に変換する時に必ず誤差が出ます。どういったレベルでも６５５３６段の中に納めなければならないため例えば１２８０段と１２８１段の中間のレベルがきてもどちらかにしなければなりません。これが誤差となってしまいますので、再生側でいくら頑張っても元の信号は再現出来ません。標本化定理が成り立つのはサンプリングしたＰＡＭ波をローパスフィルターを通せば元の信号が再現できるということです。（元信号の持つ最高周波数の２倍以上の周期でサンプリングの条件はありますが）
じゃあビット数を上げれば良いんじゃないかとなりますがその通りでレベル変換時の階段は多いほど元信号との誤差が少なくなります。ではビット数を無限にしたら・・・アナログになってしまいますね。
一見音楽信号は複雑に見えますがサンプリングしているのは各楽器の音が混じった包絡線であり１/４４１００秒から見るとほとんどなだらかな曲線ですので大丈夫なんですよ。

iBook-2001 · Answer

はじめまして♪

複雑な音声波形ですが、1秒間に441.000回で輪切りにしているのが、CDのサンプリング周波数の部分ですね。

人が感じられる音としては20Hzから20000Hzと言われます。

サンプリング理論と言いますか、数学的には、サンプリング周波数の１／２までの信号は記録出来るという事に成りますので、余裕度を持ったサンプリング周波数がCDの規格制定時に採用された数値です。
（実際には、当時のデジタル技術とか、水晶発振（クリスタル）の周波数分圧比などからの実用化で居易い範囲で決められたと思います。）

ビット数は、輪切りにした瞬間の、音声信号電圧値を分析した結果です。

輪切りにした時の値は合成波形の電圧値でもあるので、複数の電圧値は存在せず、一つの値に成るのです。

波形編集ソフトで表示させてみました、上の波形が全体像で、下のの大きい方が一部分を時間軸で拡大した状態ですよ。

linus3030 · Answer

標本化（時間方向の切り出し）
量子化（振幅方向の切り出し）
ごっちゃにしてると理解できないですよ

複雑な波形の量子化はどのようにされているのか？

追記

こんにちは、

＞そこで質問なのですが、輪切りにした瞬間に数多くの波形があるとき

音楽信号を４４.１ｋｈｚでサンプリングすると１／４４１００秒間隔でパルス状の信号が得られます。

はじめまして♪

標本化（時間方向の切り出し）

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング