音声のテキスト化について

Question

以下の内容について教えてください。

長時間の会議等では，ノートにやりとりを手書きで記載すると，聞き逃したりすることがあるので，
ＩＣレコーダーを利用して，音声を録音しております。
そしてその音声を利用して，あとで会議の記録を作成しております。
自宅等で音声を聞きながら，ノートに記載するのですが，非常に時間がかかります。

そのため，ＩＣレコーダ-で録音したデータを利用して，すぐに音声をテキスト化
できるソフトがあれば教えてください。

使用しているのは，ソニーのＩＣレコーダーで，パソコン用ＵＳＢが
ついておりますので，パソコンにデータをおとすことが可能です。

hue2011 · Accepted Answer

28年前に、音声認識をして命令を聴き分けて動くロボットを開発したことがあります。
このときの前提条件は「特定話者認識」です。
ある人が発音した言葉だけを判断するというやり方です。

その人の口調、話し方のくせ、抑揚をとるため、命令用語を読み上げる学習モードを準備し、そこですべてサンプリングして照合パタンを拵え上げ、実際の音声に重ねるというわけです。

多少の体調の変化は問題ありませんでしたが、社内運動会で声をつぶしたオペレータの言うことはロボットが何度も聞きなおしました。

別のオペレータが話すと、言うことが全然わからないことはなく、動作はするのですが、やっぱり聞きかえしが極端に多くなりました。

こんな古代の話は伝説だというくらい今は進歩しており、非特定話者認識も相当できるようになりました。

スマホでやっている音声検索を見れば、学習しないでの認識がある程度できることがおわかりでしょう。
ただし、Googleの検索をする程度ですから、単語あるいは連結用語のレベルですけど。

絶対にいまだにダメなことがあります。複数話者聞き分けです。
高い声低い声があるから聞き分けられるだろうと思う人が多いのですけど、片方が880HZだけで話し、他方が440HZだけで話す、なんていうことはあり得ません。
人の声というのはいくつもの周波数の音波が混ざりこんだものであって、それが分布した状態で発生されています。
よく声紋といって、その分布パタンをもとに話者を特定する話があります。これはひとりだけが話した場合です。

何人もの発言があった場合、同じ周波数で複数の声がまじりあいます。
音声には共鳴ということがあって、倍音4倍音というような音も発生します。
そのため、一見音域が違うひとが複数話した場合、どの周波数もあるということになるのです。

どう個人を分離するか、というのは、人間ができるのだからできないことはないだろう、と思うのは当然で、現在研究中です。
でもまだ完成はしていない、と言う状態です。

人間のできないことを機械ができるというのは、30万Hzみたいな可聴域でない音を聴けるという話です。
複数の人間の声が混ざり合ったものを聴き分けるのは、センサーの感度だとか信号の処理ではなく、情報をある価値観で分けていくという観点です。
ですから、人間のできないことなら機械もできません。

質問者様が、録音された音声を聴きなおしても判然としないということであれば、どのような優秀なハードウェアであれソフトウェアであれ無理です。

また、テキスト化したものがすぐに議事録になるか、というと、なりません。

音声認識ソフトで、自分だけがしゃべってみてどうなるか体験されたらわかります。
Officeなんかですぐに体験できます。
不思議な用語や文脈がでてくる可能性があります。息継ぎなんかで起こることは想定外です。
漫談なんかで、「その女ときたらいーーーーーーーーーーーーーーーーーーーーーーーーーい女で」みたいに話しても意味わかりますね。
これをやってみてください。ここでは書きません。自分で目撃するのが一番です。

ですから、音声で入力する場合は、一文一文チェックをしながら進めないととんでもない狂った文章になる危険があるのです。

さらにいいますが、普通の議事録でもそうなんですけど、ただ文字にしてわからない場合があります。

現場の会議の雰囲気で流れ上わかることですが、ホワイトボードを差しながら、「これの問題はこいつにかかわって」などという発言があります。

これをそのまま文にしたら意味を成しません。

ホワイトボードにかいてあるオブジェクトの名前を置き換えなければならないのです。

議事録はその文章をチェック、レビューする必要があります。
見過ごして、本来の発言と違うテキストになったら大変ですから、チェックのほうが大変です。元の録音をそこだけ何度も再生しなければいけない。本来の発言と違う、というのはコトバが、ではなく意味が、なんです。

これが、自動音声認識で文章に落とそうとすると、思いのほか大変になると思われます。
自分がその流れに乗って書いていないから、おかしいぞ、注意しよう、と気づかないのです。
議事録で「こいつにかかわって」とあったら、書記はタダじゃすみませんよ。

パソコンで再生できるというのであれば一応幸いです。
PCで再生していればプログレスバーが表示されますから、聞き直しは困難でなくなります。
とはいえ、0.5秒ほど前に戻すというのは結構大変です。

どうしても数秒戻ってしまいます。長いファイルなら30秒戻ることもあります。

それを考えたらMP3のファイルを分割してやるというような準備作業が必要になるかもしれません。

体験的に言いますが、キカイに頼らないで自分でなさるのが一番だと思われます。
そのためのテクニックはいままでこのサイトで私何度か言っていますので、「議事録」で検索してみてください。

kiyomac#1 · Answer

音声認識アプリはニコン等が有名どころです。
元々は障害者向け音声認識アプリとして販売されてます。
（高いのが約10万円ですが割引後だと数万円になります）

販売している商品ではAmiVoice® SP2（24500円）が有ります。
http://sp.advanced-media.co.jp/index.html

ＮＥＣ単体では開発自体していないはずですので、他社のエンジン
を組み込んで販売していると考えます。
それにしても180万は高いわ！

ちなみにMacOSXは音声入力機能が標準で付いてます。

近年はスマフォ用のアプリとして販売されている方が多いです。

neKo_deux · Answer

Windowsに音声認識機能がありますので、Wordなんかで音声認識で入力とか。

Windows７の音声認識を使ってみる | 音声認識ラボ by 東京反訳
http://www.8089.co.jp/onsei-ninshiki/108

ただし、音声認識の機能は、
・１人のユーザーが事前に用意された文面を読み上げて学習したり
・ある程度繰り返し正しく認識できたかどうかの学習をしたり
で認識率を上げ、それでも100％には届かないって精度です。

会議は不特定多数が発言するようなものでしょうか？
そういう場合は、技術的に厳しいです。

例えば、事前学習なんか無しで試してみると、
「音声認識入力」
　　↓
「をんです温泉資金」

なんて風に認識されました。
当然、議事録なんかに使えません。
ひな形にするにも、修正の手間が多すぎて邪魔って事にもなりかねないです。

--
それでも、研究の結果、実用化にこぎつけた製品なんかはあります。

議事録作成支援ソリューション VoiceGraphy: ソフトウェア | NEC
http://jpn.nec.com/voicegraphy/

180万円～とか…。
また、ソリューションとして販売してるってのは、発言者ごとにマイクを設置してとかってものかも知れず、ICレコーダーで録音した音声をそのまま発言者ごとに分類できるのか？も分かりません。

音声のテキスト化について

28年前に、音声認識をして命令を聴き分けて動くロボットを開発したことがあります。

音声認識アプリはニコン等が有名どころです。

Windowsに音声認識機能がありますので、Wordなんかで音声認識で入力とか。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング