アプリ版:「スタンプのみでお礼する」機能のリリースについて

近未来に実現可能なCVの技術について、またそれがなぜ実現可能なのか分かる方いらっしゃいませんか?

A 回答 (1件)

 Computer vision。

David Marr以降、なんだかたいして進んでいなかったという印象がありますね。
 しかし、認知科学を志す優秀な研究者が増えていると思います。実際、脳の認知に関する研究がどんどん進んでいます。動物の軸索をトレースする事もでき、PETやfMRI(functional MRI)、MEGを使った生体脳活動のリアルタイム撮影も出来るようになってきました。また、人工視覚が何とか実用になるか?というレベルに来ました。もちろんこれは映像を脳の一次視覚野に電極で直接映像を投影するもので、visionの仕組みの方は専ら脳にお任せです。しかし人工視覚は必然的に認知の詳細な解析を要求し、またそのための手段を提供するものでもあります。
 余談ながら、麻酔効果のあるガスを実験的に吸ったことがあります。感覚や思考能力は強く抑制されますが、完全に意識を喪失する所までは行かないという濃度を維持しました。そしてガスを酸素に切り替えて急激に覚醒する際に、まず自分が見えていることに気が付く。ここで見ているのは多分原始的なqualiaだけのようです。見えている像の形が分かるまでに多分数秒、それが何であるかが分かるまでには多分さらに1~2秒、自分が寝た姿勢である、という状況が認識できたのはその後でした。見える、ということが様々な段階の処理の組み合わせであることがよく分かった体験でした。

 Computer visionは単独ではあり得ない。人工知能やロボティックスと一体になっていて、そう簡単に分離できるような物ではないということ、これは大抵の研究者がそう考えていると思います。
 Computer visionは静的な映像を相手にしていてはなかなか旨く行かない、ということは広く認識されていると思います。単なる動画でも不足で、また単眼か双眼かの違いよりも、リアルタイムで自分で視点を動かして見る、そういうactiveなvisionでないと正確な認識が難しい。従って、アクチュエータを持ったロボットを使う必要が出てきます。リアルタイム性が必要なので計算量が大きい。一方、時間的に連続している映像を効率よく処理していく技法も重要です。Neural networkを扱うには別に専用ハードでなくても構わない訳ですが、プロセッサが非常に早くなったとは言っても、まだ不足。光コンピュータなどで、比較的簡単な処理を高い並列性でどんどん行うようなアーキテクチャの方が適しているかも知れません。
 さて、認知の結果がどう記述され、処理されるべきなのか、つまりmodelのrepresentationの問題があります。これは多分、リソースとしての「注意」の問題と密接な関係を持っています。常に見える物全部を認識していたのではとてもダメであり、逆に見える部分だけ幾ら解析してもダメで、高度な推論と連携した推測を使ったモデルの構成、そのモデルをダイナミックに改良・変更していくプロセス全体がvisionではないでしょうか。つまり、見間違いや見落としをする。逆説的ですが、これが出来ないようじゃとても高度なvisionとは言えません。

 では実用上はどうなのか。特定のものを見ることに特化したシステムというのは、今では比較的容易に設計・開発できます。産業用としては、認識が易しいようなカラーリング、マーキングをしてやることもできる。(どうも学者は、このような実用的な工夫というものを軽視する傾向がありますが、現場ではローテクに勝るハイテクはありません。)ですから高度なcomputer visionというものは、何が出てくるか分からないという状況で、自分の認識に基づいて自分の行動を決める、というような自律系以外ではあんまり必要ない。こう言うと、最近の2足歩行ロボットのようなものを連想しちゃいますが、あれって(もっと遙かに性能が良くなったとして)さて何に使います?使えるように開発してます?信用して自律行動に任せます?ホントにコストが引き合います?
 しかし、一見お遊びのような基礎研究、人間の知覚を再現しそのメカニズムを解明する、という研究の成果がいずれ実用へブレークダウンされて、computer visionの制約がだんだん少なくなっていく事が期待されます。まずはロボカップの、ロボットサッカー選手の視覚に注目していたいですね。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!