複数の話者の音声認識はまだ達成されていませんよね?
これが達成されれば市場で最も需要の高いと思われる「会議の文字おこし」が可能になるんですよね?
そこで質問ですが、
人間って二人の話者の会話を同時に聞いて理解できるんですか?
自分では実験したことがないので聞けてるのか聞けてないのか分かりません。
カクテルパーティー効果で複数の人が喋っていても
特定の人の会話を聞き取るのは可能でも二人同時は無理なような気がしてきました。
取り敢えず、人間が出来るか出来ないかによって
コンピューターへのアプローチも左右されるように感じます。
ちなみに無知で超ド素人の私だからこそ言えるのですが
二人くらいなら音声認識装置で「認識出来そうな気がします」。下手すれば百人でも。
方法は至って簡単なんですが。(^^ゞ
逆になんで「出来ない」と言っているのかが分かりません。
No.4ベストアンサー
- 回答日時:
>いや、私も大まじめなんですが。
私の文がまずかったようで申し訳ない。
大まじめにっていうのは「1つのマイクから複数人を認識」
という目標だけに集中して考えていたという意味で、
oxfordさんが不真面目だというつもりではないです。m(_ _)m
>何か間違っていますでしょうか?
間違ってません。実現可能です!
ただ、認識率が低いので取りこぼした部分の補完ができにくい
って問題があるんです。認識率99%とかいうのは標準語+
発音訓練+イントネーション矯正+雑音ほぼ無し
という環境での測定結果だったりします。
それに、メールを書く時のように入力を確認しながら
しゃべってる訳ではないので(やったら会議に集中できない)
会議内容を聞かれても大丈夫な役職の人をオペレータとして
会議出席人数分揃えるのは・・・(汗
>「人間って二人の話者の会話を同時に聞いて理解できるんですか?」
忘れてました。。。
できません。高度な処理が可能な大脳はシングルタスクです。
もひとつ小脳がありますが、こちらは主に記憶した「動作(自転車とか)」
を再現する能力で、“ぶつかりそうなら止まる”のように
簡単な条件分岐しかできないです。
たまに2人までなら聞き取れるとか言う人いますが、
A A A A A A A A A A A A A A A
-------------------------------> 時間の流れ
B B B B B B B B B B B B B B B
のように小刻みに脳を切り替えてるだけです。(タイムスライス)
聞こえてない部分は経験に基づいて「補完」してます。
よっぽど慣れ親しんだ言語&簡単な内容でなければ無理。
余談:必要ない音のフィルタリング機能は超高性能です。
>「1つのマイクから複数人を認識」
確かに定義では「単一の信号」から複数の話者を認識するのが目的なので
TALLY-HOさんが正しいです。
しかし、私としては目的さえ果たしてしまえば
方法なんてどうでもいいと思うのです。
コロンブスの卵ですね。卵を立てるために卵を割ってもいいと思っています。
>認識率99%とかいうのは標準語+
発音訓練+イントネーション矯正+雑音ほぼ無し
これらは大問題ですよね。
特にイントネーションと雑音と複数話者認識の三つが
音声認識では最大の問題と言われているみたいですね。
雑音の処理は改善されてきているらしいですが、
異なるイントネーションを読み取るのは
当分できないと思うので複数話者認識を選びました。
会議での読み取りも「ええ、ああ、おほん、さきほどもうしあげたとおり・・・」みたいに
意味など考えずにそのまま読み取ってくれるだけで
いいんですけど。
>できません。高度な処理が可能な大脳はシングルタスクです。
やはりそうでしたか。
心理学の実験で被験者になったのですが同じようなことをしました。
会話を聞いて特定の子音(SとかKなど)が出てきた場合にボタンを押す、という簡単な実験でした。
子音にばかり集中していると会話の内容は聞けず、
会話の内容に集中していると子音が出てきても気付かず、という結果になりました。
…ということは複数話者認識が可能になれば人間よりも優れた機能を持つことになるのですね。
うーん、でも果たしてできるのか…。
ありがとうございました!
No.5
- 回答日時:
No.2です。
> #1さんのお礼に書いた方法はどうですか?
個別にマイクで録音する→話者Aと話者Bの分離が完全に出来ている。のでしたら、後は既存の技術で対応できます。
問題は「テープ起こし」の場合で、
> 「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。
のケースも、
・実際に現場で聞く場合。
・ビデオテープを見ながら聞く場合。
・カセットテープの音声を聞く場合。
であれば、聴覚以外の感覚を使ったり、話者に注視したりで話者の判断が出来るので、かなり違うように思います。
あと、精度の高い音声認識を行うには事前に時間をかけて定型文章を何度も読み上げて学習する手間が必要ですが、会議の出席者にこれを依頼したり、ましてや死んじゃってる人のテープだと厳しいかも。
--
とはいえ、継続して研究は続けられている分野ですし、オンラインソフトで、
鼻歌から楽譜作成(音符の認識)
というものに対して、和音にも対応するソフトがあるが、やはり認識率あ落ちるというものもありました。
そうですよね。
視覚情報も助けになりますよね。
現場にいるなら、聴覚であってもどの方向/距離から声が来ているか判断がつきますし。
心理言語学では複数の話者の会話の最中に目がどこを追っているか調べているそうですね。
今はエンロールなしで実際の音声入力から自動的に学習する方法が良さそうですね。
でも本当は学習も何もせずとも認識すればいいですよね。
ヒトは初めてあった人物でも大体(?)認識しますからね、たとえ死んじゃった人物のテープでも。
音符の認識とか面白そうですね。
ホーミー(一人で二つの異なった声を発声する方法)で唄ったらどうなるんでしょうね。w
ありがとうございました!
No.3
- 回答日時:
>マイクを複数個使い処理も別々に行う
あっはっはwwwww
大まじめに考えてたので新鮮なアイデアに感じました。(笑)
確かにできますね。ただ全員にマイク、処理PCとなると
コストが高く付きすぎて売れないんです。会議のような
密室だと隣の人の発言も所々拾っちゃいますし・・・。
テープに録音して文字起こしのバイト君雇うのが安い;;
今回は会議の録音という事なのでちょっと方向がずれますが、
全員がマイクつけてもスポーツの実況中継などは無理でしょう。
海など機械の苦手な環境も辛いでしょう。
それに、人型メイドロボットなど男のロマン実現のために(なんか違う)、
やっぱり複数人の音声識別は必要なのです。^^
ありがとうございます。
いや、私も大まじめなんですが。
スタート地点はここだと思うのです。
処理は別々とは言え、お互いに音声情報の交換をしあえるようにしておきます。つまり、
>会議のような密室だと隣の人の発言も所々拾っちゃいますし・・・。
こういう時には隣の音声信号と照らし合わせ、その分を差っ引いて本人の音声信号だけを取り出す、
ということをすればよいと考えています。
(そのためのデータ取りは面倒でしょうけど)
いきなり、真隣だと信号がごっちゃになりますが
最初は100m離れて実験を始めます。
その場合、隣の音声の干渉はまったくないと考えられます。
そして、干渉し始める距離を閾値として、それをどこまで縮められるかを測定すれば開発の糸口になると思います。
最初はマイクは一人に一つずつですが、最終的には
ステレオマイクLRだけで話者を識別できるようになればよい、と考えています。
(この場合は本人が動き回ると別人と判断されるでしょうが)
何か間違っていますでしょうか?
…で実は本物の質問は
「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。w
No.2
- 回答日時:
> 二人くらいなら音声認識装置で「認識出来そうな気がします」。
男性と女性の二人なら比較的簡単かも知れません。
同年代、同姓の方だとちょっと難しいかも。
一卵性双生児など、声のそっくりな人が二人で話していると…?
あと、トランシーバーみたいに、
「○○どうぞ。」「△△どうぞ。」
と、交互に話して区切りがはっきりしていれば良いですが、
♪
静かな湖畔の森の陰から…
静かな湖畔の森の陰から…
静かな湖畔の森の陰から…
みたいなのはキツイです。
ありがとうございます。
#1さんのお礼に書いた方法はどうですか?
これだと本人と本人のクローンが同時に喋っても認識すると思うのですが。w
No.1
- 回答日時:
音声は専門じゃないですがコンピュータ分野の者です。
>下手すれば百人でも。方法は至って簡単なんですが。(^^ゞ
是非その方法を聞かせて欲しいです。
>逆になんで「出来ない」と言っているのか
分離が難しいんですよ。同時に喋られると・・・。
あ、い、う、え、お とかの声の分類は学生でもなんとか。
誰の声、がかな~り難しい。
複数混ざるともうお手上げってかんじでしょうか。
つまり、Aさんの声を認識したいときにはBさんとCさんと
DさんとEさんの声は「雑音」なんです。邪魔です。
次にBさんの声を認識するときには他のA,C,D,Eの声が・・・以下略。
ありがとうございます。
TALLY-HOさんの補足要求を見て更に出来るような気がしてきました。
というか「誰かもうやってみて何かの理由で駄目だったんだろうな」とも思えてますが。
解決法は超簡単です。
マイクを複数個使い処理も別々に行う、それだけです。(^^ゞ
駄目ですか?w
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 知人・隣人 相手からの質問に回答中、「聞かれたことに答えろ」と話を遮られることについて 5 2023/02/12 00:55
- カップル・彼氏・彼女 付き合っている彼から距離を置かれたあと妊娠 4 2023/04/29 04:11
- 眼・耳鼻咽喉の病気 学生の頃、先生が目の前で大きな声で喋っているのに隣の席の人と普通に会話してたのですが、今思うと何故先 1 2022/04/13 21:31
- 心理学 他人をゴミのように認識してしまいます。治りますか? 31 2023/06/20 17:29
- 教えて!goo 質問サイトで読解力がない奴と話すとイライラします。こういう人の対処法を教えてください。 22 2022/09/12 08:44
- その他(社会・学校・職場) 頭は悪くないはずなのに、勉強の成績は悪い人、ってなぜ?? 私も学生時代に周りの人や先生等からよく言わ 4 2023/07/14 19:39
- その他(悩み相談・人生相談) 自分が社会不適合者だと気づくのが遅すぎた、社会に居場所のある人の話を聞きたいです。 3 2022/08/26 07:21
- 大人・中高年 発達障がいについて 6 2022/11/19 02:53
- アプリ 音声認識ソフトの名前 2 2022/06/25 10:16
- 日本語 「~人」と「~名」の使い分け 2 2022/06/02 11:59
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「を気づく」と「に気づく」の...
-
不認識?非認識?
-
外付けメモリ1TB SSD USB
-
表象
-
windows10パソコンでUSBフロッ...
-
「認知と認識」、「観念・概念...
-
ヒトは立ち止まることができるか?
-
カントの《認識が対象に従うの...
-
MACアドレスがよく00:00~とな...
-
NASDAQ100ってS&P500を少しハイ...
-
HDDのマウント方法、ファイルシ...
-
Sharp の Aquos Wish2でChromec...
-
プラトンと三つの比喩
-
大岡裁き
-
SD-JukeboxがSDカードを認識しない
-
週末って金曜日のことを言うん...
-
認識が存在に先行するか? 知る...
-
知性は 絶えず知覚(ヒラメキ≒...
-
美的体験と解釈との関係について
-
東芝REGZAのZ2000シリーズと接...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「を気づく」と「に気づく」の...
-
不認識?非認識?
-
外付けメモリ1TB SSD USB
-
windows10パソコンでUSBフロッ...
-
鏡を使った実験により、自己認...
-
NASDAQ100ってS&P500を少しハイ...
-
夢と現実の区別
-
通常iPhoneに「hey Siri」と話し...
-
台湾人とのチャットで“很高興認...
-
SSDがマザーにHDDとして認識される
-
知覚的世界と物理的世界のズレとは
-
理解と認識の違い
-
「認知と認識」、「観念・概念...
-
DeskMini 110 のBIOSがM.2を認...
-
usbでbiosアップデートを試みよ...
-
エクセルでマイナスを認識しない
-
賢人求む:認識するものを認識...
-
SCSIのハードディスクを丸ごと...
-
チャクラを開くには?
-
納得が行きません。カントのコ...
おすすめ情報