騒音下5m離れても応答するAIスピーカー、来年登場か?
アマゾンのAIスピーカーEchoの日本語版がいよいよ日本に上陸する。これは音声認識・応答技術Alexa(アレクサ)を搭載したマイク内蔵スピーカーだが、スピーカーに口を近づけて大きな声で話さなければ、うまくやり取りできない。どうにも煩わしい。ところが5メートルくらい離れても、また周囲に雑音が多少あっても正確に答えてくれるAIスピーカーが1~2年以内に間違いなく登場する。来年手に入るかもしれない。
このAIスピーカーができると、普通のリビングでコーヒーを入れながら、「アレクサ、今日の天気はどうだい?」と聞けば「本日の港区の天気は曇りです。傘を用意した方がよろしいです」と答えてくれるが、これまでと違ってスピーカーのある場所まで歩いて話をする煩わしさがない。普通に料理しながらでも、新聞を読みながらでも、「アレクサ、テレビのスイッチを入れて」とスピーカーまで近づかなくてもいいのだ。この技術が搭載されると、アマゾンのAIスピーカーは爆発的に売れるに違いない。
なぜこのような夢みたいなことを真実味を持って言えるのか?それを実現できる半導体チップと開発ツール(図1)が入手できるようになるからだ。半導体チップを常に追いかけていれば、それを搭載するデバイスをイメージできる。しかも昔と違い、開発ツールも同時に発表するため、新製品チップを搭載するまでの期間はずっと短い。
英国ブリストル市を拠点とするマルチスレッドのマイクロプロセッサを得意とするXMOS社が音声認識・応答可能なアマゾンのAmazon Alexa Voice Service (AXS)向けの開発キットVocalFusion 4- Mic Dev Kitを発表した。ファブレス半導体メーカーのXMOS社は、これまでも音声やオーディオ処理を中心とするマルチスレッドの並列処理マイクロプロセッサを開発してきた。この32ビットの並列プロセッサは、プロセッサの面積が小さいため、民生用に低価格で提供できる。
このマイクロプロセッサを使って、複数のマイクロフォンと組み合わせると、音声のビームフォーミングのように各マイク間の位相と感度を自動的に調整することにより、遠く離れた音声でもまるで焦点を合わせるかのようにきれいに捉えることができる。もちろんそのためには複数のマイクアレイが必要だが、それらのマイクを機械的にスキャンするのではなく、電子的にスキャンしその音声だけに絞り込むという処理をすることで、多少の騒音下で5メートル程度離れていても音声をきれいに捉えることができるのだ。
なぜこのようなことができるようになるのか。この技術のキモは、インフィニオンが4つの高感度MEMSマイクを開発し、XMOSがそれぞれのマイクの出力信号の位相と感度を自動的に調整し、音声の聞こえる方向にマイクを向ける技術を開発したことにある。この「ファーフィールド音声キャプチャソリューション」はXMOSが握っているプロセッサ能力とアルゴリズムがコア技術である。もちろんアルゴリズムの中身は秘中の秘。さらにインフィニオンが開発した高感度のMEMSマイクも重要。マイク自身の持つ雑音に対する信号比(S/N ratio)は69dBと高感度にしたことも大きい。XMOSのプロセッサは高性能・低消費電力ながら低コストなのだ。アマゾンやグーグルの民生用の安いAIスピーカーにはうってつけだ。
実はインフィニオンは、先月このベンチャーXMOS社に戦略的な投資を行っている。インフィニオンが主要出資元となり、1500万ドルのシリーズE資金調達を行った。インフィニオンは、AIスピーカーのようなデジタルホームアシスタントなどの音声制御HMI(ヒューマンマシンインターフェース)を備える民生機器市場は今後数年間46%で成長するというIHS Markitの調査に期待している。
XMOSは音声処理に特化しながらマイクロプロセッサというソフトウエアで機能を追加・修正できる並列処理コンピュータ技術が得意な企業だ。その詳細は筆者が7年前に出版した「欧州ファブレス半導体産業の真実」(参考資料1)で紹介しているので参考にしていただきたい。この会社は、ブリストル大学のデビッド・メイ教授(図2)がCTOを務める大学発ハイテクベンチャーである。デビッド・メイ教授はかつて並列処理コンピュータ「トランスピュータ」の中心開発者の一人だった。
参考資料