NECとNECエレクトロニクスはこのたび、携帯電話機向けマルチコアプロセッサ単体で高速に動作する大語彙連続音声認識方式の開発に成功しました。 このたびの開発は、複雑な音声認識処理を複数のステップに分割して並列処理することにより高速化したものです。本方式を用いることで、パソコンやサーバでのデータ処理を経ずに携帯電話などの小型機器単体でリアルタイムに動作する音声検索アプリケーションを実現できます。 このたび開発した音声認識方式は、数千語から数万語の大規模な辞書を持ち、単語単位ではなく、通常の会話で使用するような自然な言葉で発声された文章を音声認識することができます。本開発の主な特長は以下の通りです。
(1)
複数のCPUを同時に使用する並列音声認識方式を新規に開発することにより、1チップに複数のコアを持つマルチコアプロセッサ単体での音声認識が可能。NECエレクトロニクス社の携帯電話向けアプリケーションプロセッサMP211(注1)(動作周波数200MHz)上で評価した結果(注2)、音声入力終了から認識結果表示までがほぼ即時という実時間動作を実現。
(2)
本音声認識エンジンを利用して、「メールアドレスの変え方を教えて」のような自由な文発声により、携帯電話の電子マニュアルから関連するページを検索できる音声検索アプリケーションを開発。アプリケーション全体を携帯電話向けマルチコアプロセッサで実行できるため、携帯電話単体での動作が可能。
今回開発した大語彙連続音声認識方式は、音声認識処理を、並列に実行可能な複数のステップに分割して再構成することにより実現しており、具体的には、大語彙連続音声認識処理を、(1)入力音声と音のモデルの類似度の計算、(2)音響先読み等による探索範囲の絞り込み、(3)絞り込んだ範囲からの最適単語列の探索、の3つのステップに分割することにより、認識処理全体を3段のパイプラインとして再構成しています。各ステップは、共有メモリを介して相互接続された複数のCPUコアに割り当てられ、各CPUコア上で同時に実行されます。これにより、認識精度を保ったまま処理全体の高速化を実現しています。 近年、ユビキタス社会の急速な進展の中で、誰にでもわかりやすいユーザインターフェースとして音声認識の技術開発が精力的に進められています。しかし、従来の大語彙連続音声認識ソフトウェアは、その実行に高度な処理能力が必要とされるため、高性能かつ電力消費の大きなCPUを搭載したパソコンやサーバでの動作を前提としており、携帯電話のように、特に低消費電力が要求される電子機器単体での実現は困難でした。NECでは、携帯電話から利用できる音声認識システムとして、電話回線を通して送信した音声を通話先のサーバ上で認識するサーバ型の音声認識システムを開発していますが、このシステムも、電話をかける手間が面倒、レスポンスが必ずしも高速でない、回線コスト負担が必要、などの課題がありました。 今回開発した並列音声認識方式を用いることで、携帯電話機単体でレスポンス良く文章の音声認識を実現することができるため、音声認識技術を、より便利に、より幅広く利用できるようになります。 NECでは今後、音声認識技術のさらなる強化を図り、いつでも、どこでも、誰とでもコミュニケーションが可能なユビキタス社会の実現を目指して、ヒューマンコミュニケーション技術の研究開発を推進していきます。
(注1)
MP211は、3つのCPUコア(ARM926EJ-S)と当社製DSPコアを単一のプロセッサに搭載した、NECエレクトロニクス社の携帯電話機向けアプリケーションプロセッサです。
(注2)
OSとしてLinuxを使用。
<この発表に関するお客さまからの問い合わせ先>
NECエレクトロニクス(株) 半導体ホットライン