TOP > 研究活動 > 研究者総覧「情報知」 > メディア科学専攻 > 音声映像科学講座 > 北岡 教英

研究者総覧「情報知」

メディア科学専攻

氏 名
北岡 教英(きたおか のりひで)
講座等
音声映像科学講座
職 名
准教授
学 位
博士(工学)
研究分野
音声認識 / 音声対話

研究内容

機械による音声の認識
人と人とのコミュニケーションに音声による対話は欠かせない。逆に考えれば、ほぼ全ての人間は、もっとも自然なインタフェース手段として音声言語を獲得し、使いこなしているのである。コンピュータ上でその音声言語を扱うこと、それが人間にとってもっとも負担の少ない情報伝達手段であり、また現代の大規模データ格納技術を持ってすれば、情報保存手段でもありうるのである。
このような音声言語を扱う上での様々な技術を研究している。
■雑音下音声認識
雑音環境下での音声認識性能の低下は実用化において問題となる。実用に向けて、手法の評価活動および標準化活動が欧米で盛んになってきた。この動きに呼応して日本で標準的音声認識評価基盤開発グループのリーダーとして無償配布の評価データベース・ツール群であるCENSRECシリーズを開発・配布している。
■大語彙連続音声認識
講演音声などの書き起こしなど、大語彙連続音声認識の適用が期待される場面は多い。そのため、音声のテンプレートとなる音響モデル(HMM:Hidden Markov Model)の改良、日本語音声の単語および単語の系列を表現する言語モデル(N-gramモデル)の改良、さらに大語彙連続音声認識アルゴリズムの改良により、高精度化を図る。
■音声対話インタフェース(1) ―「敷居の低いインタフェース」に向けて―
一般ユーザが音声対話インタフェースに慣れ親しむには? 使ってみると「返事がなかなか返ってこない」「聞いてるのかどうか分からない」そこに壁を感じる。
そこで、リアルタイムに反応を示す、また対話の「盛り上がり」にも調子を合わせ、話す事自体が楽しめるようなシステムとすることにより、その壁を取り払うことを試みる。また、あらゆる発話に対しても、頑健に返答し、また誤認識・誤理解による混乱からもすばやく回復できる理解手法も研究する。
■音声対話インタフェース(2)―自然に動作するインタフェース―
普段はその存在を意識しないが、利用したいときには自然に呼びかけに答えてくれる"そんなインタフェースのために、自分への話しかけを感じとって応答するシステムの構築を目指す。ユーザの発声方向、話し方の違い、内容の違いなど、あらゆるcueを使って実現を目指す。
■マルチモーダルインタフェース
いつでも、ネットワーク上の様々な情報にアクセスできる手段として、音声対話を主とするマルチモーダルインタフェースを用いることを試みる。ペン入力、タッチパネル、指さし動作などと、いかに組み合わせるかがカギとなる。
■音声ドキュメントの要約・インデキシング
大量に蓄えられた映像・音声コンテンツには言語的情報が音声として含まれる。それらを利用して効率的に検索や要約をするためには、精度のよい認識とともにインデックスを付けたり要約をする技術を必要とする。その研究を行う。

 

音声対話インタラクションイメージ

音声対話インタラクションイメージ

 

経歴

  • 1994年京都大学工学研究科情報工学専攻修士課程修了、同年日本電装株式会社(現・株式会社デンソー)入社
  • 2000年豊橋技術科学大学工学研究科電気・情報工学専攻博士課程修了
  • 2001年豊橋技術科学大学助手、2003年同講師
  • 2006年名古屋大学情報科学研究科助教授、現准教授

所属学会

  • 日本音響学会
  • 電子情報通信学会
  • 情報処理学会
  • 人工知能学会
  •  

主要論文・著書

  1. Noisy Speech Recognition Based on Integration/Selection of Multiple Noise Suppression Methods Using Noise GMMs, IEICE Trans. Inf. & Syst., Vol. E91-D, No. 3, pp. 411-421, 2008.
  2. A Spoken Dialog System for Chat-like Conversations Considering Response Timing, Text, Speech, and Dialogue, pp. 599-606, Springer, Sep. 2007.
  3. Robust distant speaker recognition based on positiondependent CMN by combining speaker-specific GMM with speaker-adapted HMM, Speech Communication, Vol. 49, Issue 6, pp. 501-513, 2007.