東芝デジタルソリューションズ、人間の声により忠実な音質の合成音声を生成するミドルウェア「ToSpeakHx」
東芝デジタルソリューションズ株式会社は6日、コミュニケーションAI「RECAIUS(リカイアス)」のラインアップとして提供されている音声合成ミドルウェア「ToSpeak」において、人間の声により忠実な音質のAI合成音声を生成する、ハイエンド機器向けの新ラインアップ「ToSpeakHxシリーズ」を提供開始すると発表した。 「ToSpeak」は、音声認識、音声合成、知識処理、対話応答の4つの音声技術を基に、企業のコミュニケーションをサポートするコミュニケーションAI「RECAIUS」のサービスの1つで、多様な電子デバイス上にて、自然な音声発話を実現できる音声合成ソフトウェア。滑らかで良好な音質のAI合成音声をテキストから自動生成できるほか、汎用CPU上において、コンパクトなメモリサイズで軽快に動作可能な点を特徴としている。 今回発表されたToSpeakHxシリーズは、合成音声の手本にする人の声をモデル化する際に、DNN(深層ニューラルネットワーク)を適用した新製品。テキスト化された文字情報を、より人間の声に近い自然な声で読み上げるだけでなく、例えば、収録したナレーターの声を手本に機械学習すれば、そのナレーターの声の特徴をより反映したAI合成音声を生成することもできるという。 ラインアップには、数MB程度のコンパクトな音声合成データを用いて、従来製品より自然なAI合成音声を生成できる「ToSpeakHx」と、声質面と韻律面の両面で本人らしさをさらに高めた「ToSpeakHx Pro」の、必要メモリサイズ・処理負荷の異なる2種類が用意された。いずれも今回は日本語対応製品の提供から開始され、今後は英語や中国語など、サポート言語を拡大する予定だ。 なおToSpeakは、カーナビなどの車載機器に組み入れて利用されているほか、ゲーム機、ポータブル翻訳機などにも搭載されているが、ToSpeakHxシリーズについても、カーナビのガイド音声、電車のホームや車内のアナウンス、ゲームのキャラクターボイスなどでの活用が見込まれている。
クラウド Watch,石井 一志