TOP > 研究活動 > 研究者総覧「情報知」 > メディア科学専攻 > メディア表現論 > 中谷 智広

研究者総覧「情報知」

メディア科学専攻

氏 名
中谷 智広(なかたに ともひろ)
講座等
メディア表現論
職 名
客員准教授
学 位
博士(情報学)
研究分野
音によるシーン分析 / 音声強調 / 統計的信号処理
中谷 智広

研究内容

音声コミュニケーションシーンからの音による情報抽出
■研究の概要■
日常生活の中で、正常な聴覚能力を持つ人であれば、音を介して周囲の状況を把握することは容易である。例えば、テレビを見ながら人と会話をしたり、エアコンの音を意識せずに電話のベルに反応できたりする。いいかえると、複雑に変化する音のシーンの中から、個々の音の関係を適切に把握しながら区別し、必要な情報を抽出することができるといえる。本研究では、このように音のシーンを分析する高度な能力を持ったコンピュータの実現を目指している。このようなコンピュータが実現すれば、例えば、人と機械の協調作業や人どうしの音声コミュニケーションシーンにおいて、より高度に人の活動を支える技術を提供できるようになると期待される。また、ホームビデオやインターネット等に蓄積されている音メディアから、より柔軟な情報検索を可能にすると期待される。この課題に対して、特に、統計的信号処理の観点から、音のシーンのモデル化、会議状況分析、音声強調・認識、および知的な音声インターフェースの研究を進めている。
■研究テーマ■
(1) 統計的信号処理に基づく音のシーンのモデル化
ある条件下で、ひとつの音源から出た音が部屋の音響伝達特性の影響を受けてマイクロホンに到達し、他の音とともにひとつの音のかたまりとして収録されるとき、それがどのような音になるかを分析することを順問題という。これに対し、マイクロホンで収録された音から、各構成音に分解しそれらがどのような過程を経てきたかを分析することを逆問題と呼ぶ。音によるシーン分析は、この逆問題に分類される。一般に、逆問題は、無数の解の可能性を持つため、その中から意味のある解を抽出するには、何らかの制約条件や経験的な知識が必要になる。これを工学的に扱う体系的なアプローチのひとつが統計的信号処理である。統計的信号処理に基づく音のシーン分析では、音声やその他の音、および部屋の音響伝達特性などに関する物理的な制約条件や経験的な知識を表現した確率モデルを用いて、収録音の振舞いを数理的にモデル化する。そして、実際の収録音に基づき最も確からしいモデルのパラメータを推定することで、音のシーンを分析する。このとき、重要な研究課題は、一見複雑な音のシーンをなるべくシンプルなモデルで表現し、実用的な計算コストで有意な情報抽出ができる方法を確立することである。
(2) 会議状況分析
音のシーン分析の具体的シナリオとして、複数の人の会話を収録した音から「誰がいつどこで何を話したか?」などを推定する会議状況分析の研究を進めている(図1)。まず、収録音中に人の声が含まれている区間を特定する音声区間検出の高度化として、音の音声らしさを表現した確率モデルと、時間的に変動する背景雑音の振舞いをスィッチングカルマンフィルタを用いて合成する数理モデルを導入した。これにより、非常に少ない計算コストで高精度に音声区間を検出するMUSCLE-VADを実現している。また、音声区間検出・音源方向推定・話者クラスタリングの技術を統合して、3本のマイクロホンを用いて会議状況分析を実時間で実現するプロトタイプシステムを構築している。
(3) 雑音・残響が含まれる音からの音声強調・音声認識
音のシーン分析の応用例として、音声強調と音声認識があげられる。音声強調は、収録音中に音声とともに含まれている雑音や残響の影響を取り除いて、聞き取りやすい音声を回復する技術で、スタジオでの音コンテンツの整形や電話のハンズフリー通話での音声の明瞭度の向上などに寄与すると考えられる。一方、音声認識において、目的音声と背景音の関係が適切に抽出されていれば、音声以外の音が聞こえている状況でも、収録音の不確定性を考慮して、より高い精度の音声認識が実現できると考えられる。これまでに、高精度な雑音残響除去技術や残響に頑健な音声認識のプロトタイプシステムを実現している。
■今後の展開■
上記の研究テーマをさらに発展させて、より一般的な環境での音のシーン分析技術の適用可能性を検証していくとともに、実際の生活や仕事のシーンにおいて役に立つアプリケーションの開発にも注力していく。

経歴

  • 1991年京都大学大学院工学研究科修士課程修了。同年NTT基礎研究所研究員。
  • 2001年より同コミュニケーション科学基礎研究所勤務、現在に至る。その間、2005年から1年間、米国ジョージア工科大学客員研究員、2008年より名古屋大学大学院情報科学研究科客員准教授。博士(情報学)

所属学会

  • IEEE
  • 電子情報通信学会
  • 日本音響学会

主要論文・著書

  1. Harmonic sound stream segregation using localization and its application to speech stream segregation, Speech Communication, Vol. 27 (3-4), 209-222 (1999).
  2. Robust and accurate fundamental frequency estimation based on dominant harmonic components, J. Acoustical Society of America, Vol. 116 (6), 3690-3700 (2004).
  3. Harmonicity based blind dereverberation for single channel speech signals, IEEE Trans. Audio, Speech, and Language Processing, Vol. 15 (1), 80-95 (2007).