複数の話者の音声認識

Question

複数の話者の音声認識はまだ達成されていませんよね？
これが達成されれば市場で最も需要の高いと思われる「会議の文字おこし」が可能になるんですよね？
そこで質問ですが、
人間って二人の話者の会話を同時に聞いて理解できるんですか？
自分では実験したことがないので聞けてるのか聞けてないのか分かりません。
カクテルパーティー効果で複数の人が喋っていても
特定の人の会話を聞き取るのは可能でも二人同時は無理なような気がしてきました。
取り敢えず、人間が出来るか出来ないかによって
コンピューターへのアプローチも左右されるように感じます。

ちなみに無知で超ド素人の私だからこそ言えるのですが
二人くらいなら音声認識装置で「認識出来そうな気がします」。下手すれば百人でも。
方法は至って簡単なんですが。(^^ゞ
逆になんで「出来ない」と言っているのかが分かりません。

TALLY-HO · Accepted Answer

＞いや、私も大まじめなんですが。
私の文がまずかったようで申し訳ない。
大まじめにっていうのは「１つのマイクから複数人を認識」
という目標だけに集中して考えていたという意味で、
oxfordさんが不真面目だというつもりではないです。m(_ _)m

＞何か間違っていますでしょうか？
間違ってません。実現可能です！
ただ、認識率が低いので取りこぼした部分の補完ができにくい
って問題があるんです。認識率99%とかいうのは標準語＋
発音訓練＋イントネーション矯正＋雑音ほぼ無し
という環境での測定結果だったりします。
それに、メールを書く時のように入力を確認しながら
しゃべってる訳ではないので（やったら会議に集中できない）
会議内容を聞かれても大丈夫な役職の人をオペレータとして
会議出席人数分揃えるのは・・・（汗


＞「人間って二人の話者の会話を同時に聞いて理解できるんですか？」
忘れてました。。。
できません。高度な処理が可能な大脳はシングルタスクです。
もひとつ小脳がありますが、こちらは主に記憶した「動作（自転車とか）」
を再現する能力で、“ぶつかりそうなら止まる”のように
簡単な条件分岐しかできないです。
たまに２人までなら聞き取れるとか言う人いますが、

A A A A A A A A A A A A A A A
-------------------------------> 時間の流れ
 B B B B B B B B B B B B B B B

のように小刻みに脳を切り替えてるだけです。（タイムスライス）
聞こえてない部分は経験に基づいて「補完」してます。
よっぽど慣れ親しんだ言語＆簡単な内容でなければ無理。

余談：必要ない音のフィルタリング機能は超高性能です。

neKo_deux · Answer

No.2です。

> #1さんのお礼に書いた方法はどうですか？

個別にマイクで録音する→話者Ａと話者Ｂの分離が完全に出来ている。のでしたら、後は既存の技術で対応できます。


問題は「テープ起こし」の場合で、

> 「人間って二人の話者の会話を同時に聞いて理解できるんですか？」だったりするんですが。

のケースも、
・実際に現場で聞く場合。
・ビデオテープを見ながら聞く場合。
・カセットテープの音声を聞く場合。
であれば、聴覚以外の感覚を使ったり、話者に注視したりで話者の判断が出来るので、かなり違うように思います。


あと、精度の高い音声認識を行うには事前に時間をかけて定型文章を何度も読み上げて学習する手間が必要ですが、会議の出席者にこれを依頼したり、ましてや死んじゃってる人のテープだと厳しいかも。

--
とはいえ、継続して研究は続けられている分野ですし、オンラインソフトで、
鼻歌から楽譜作成（音符の認識）
というものに対して、和音にも対応するソフトがあるが、やはり認識率あ落ちるというものもありました。

TALLY-HO · Answer

＞マイクを複数個使い処理も別々に行う
あっはっはｗｗｗｗｗ
大まじめに考えてたので新鮮なアイデアに感じました。（笑）

確かにできますね。ただ全員にマイク、処理ＰＣとなると
コストが高く付きすぎて売れないんです。会議のような
密室だと隣の人の発言も所々拾っちゃいますし・・・。
テープに録音して文字起こしのバイト君雇うのが安い；；

今回は会議の録音という事なのでちょっと方向がずれますが、
全員がマイクつけてもスポーツの実況中継などは無理でしょう。
海など機械の苦手な環境も辛いでしょう。
それに、人型メイドロボットなど男のロマン実現のために（なんか違う）、
やっぱり複数人の音声識別は必要なのです。^^

neKo_deux · Answer

> 二人くらいなら音声認識装置で「認識出来そうな気がします」。

男性と女性の二人なら比較的簡単かも知れません。
同年代、同姓の方だとちょっと難しいかも。
一卵性双生児など、声のそっくりな人が二人で話していると…？


あと、トランシーバーみたいに、
「○○どうぞ。」「△△どうぞ。」
と、交互に話して区切りがはっきりしていれば良いですが、

♪
静かな湖畔の森の陰から…
　　　　　静かな湖畔の森の陰から…
　　　　　　　　　　静かな湖畔の森の陰から…

みたいなのはキツイです。

TALLY-HO · Answer

音声は専門じゃないですがコンピュータ分野の者です。

＞下手すれば百人でも。方法は至って簡単なんですが。(^^ゞ
是非その方法を聞かせて欲しいです。

＞逆になんで「出来ない」と言っているのか
分離が難しいんですよ。同時に喋られると・・・。
あ、い、う、え、お とかの声の分類は学生でもなんとか。
誰の声、がかな～り難しい。
複数混ざるともうお手上げってかんじでしょうか。

つまり、Aさんの声を認識したいときにはBさんとCさんと
DさんとEさんの声は「雑音」なんです。邪魔です。
次にBさんの声を認識するときには他のA,C,D,Eの声が・・・以下略。

複数の話者の音声認識

＞いや、私も大まじめなんですが。

No.2です。

＞マイクを複数個使い処理も別々に行う

> 二人くらいなら音声認識装置で「認識出来そうな気がします」。

音声は専門じゃないですがコンピュータ分野の者です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング