NTT、音声変換の新技術。「中間特徴量」に着目して高品質・低遅延を実現
日本電信電話株式会社(NTT)は6月17日、高品質と低遅延を両立した深層学習に基づく、リアルタイム音声変換技術を開発したと発表した。新規に考案した音声特徴量(声質、抑揚、リズムといった声の特徴データ)の抽出処理により、高音質かつ低遅延の処理が可能になったという。 【画像】特徴量変換のイメージ 本機能の利用シーンとしては、メタバースで自身が使うアバターに似合う声に変換する、コールセンターで顧客の声を聞き取りやすく変換する、といったことが挙げられている。そのほか、発声機能障がいを持つ人のサポート、外国語の発音をネイティブに近いものへ調整、緊張による声の震えの解消、スピーチにおける声を説得力のあるものにする、などの多様なシーンにおいて、音声コミュニケーションを豊かにすることが期待されるとしている。 今回開発された技術のポイントとして、NTTでは、「中間特徴量」に着目した技術による高い変換性能と、低遅延な変換処理の2点を挙げている。 ■ 話者固有の情報を極力排除し、理想的な中間特徴量を得る 音声変換は、音声特徴量を抽出・変換することで行われ、これを特徴量変換と呼ぶ。音声変換のための装置である特徴量変換器は、話者の声の入力を受けて「中間特徴量」を抽出するEncoder、中間特徴量に目標話者(変換後の声)の情報を付与するDecoderの2つのモジュールで構成され、変換においては、Encoderの出力である中間特徴量が、十分に汎化された特徴量であることが重要となる。 異なる話者が同じ内容を発声した際には、同じ中間特徴量が抽出されることが望ましい。しかし、従来の技術では、上記のケースでも実際には同じ中間特徴量が得られておらず、話者固有の情報が残っていたことを発見したという。 そこで、今回の技術では、十分な汎化のために、異なる話者が同じ内容を発声したデータを疑似的に生成し、入力された音声と、疑似的に生成した音声の中間特徴量を近づける制約を導入した。 これにより、話者固有の情報の残留が、従来の方法に比べて1万分の1以下に低減。その結果、高品質な特徴量変換を実現できた。 ■ 変換に「未来の音声」を使わないことで低遅延を実現、高品質と両立 会話する際、人は自分の話し声を聞きながら発声しており、この声のことを「フィードバック音声」と呼ぶ。フィードバック音声をわざと大きく遅らせると、非常に発話しづらくなることが知られており、スムーズな発話のためには、音声変換による遅延を数十ミリ秒に抑えることが必要だという。 一般的な音声変換では、変換精度を高めるために、当該時刻の入力音声フレームだけでなく、未来の入力音声フレームもあわせて長い時間の音声を使用するnon-causalモデルを用いる。この場合、未来の音声を待つための遅延が生じてしまう。 今回の技術では、未来の入力音声フレームを使わないcausalモデルを採用。causalモデルを単純に使うと入力データの不測から変換精度が低下するが、音声変換の性能が向上したことから、高品質と低遅延を両立できたという。 NTTでは、今回の技術により変換した音声の品質を、音質に関して5段階、目標話者との話者類似性に関して4段階の評価尺度により聴取実験を行った。結果、両方の点で、従来の手法を大きくしのぐ結果となり、今回の技術が有効であることが分かったとしている。 この技術は、6月24日~26日に大阪で実施される「コミュニケーション科学基礎研究所オープンハウス2024」に出展される。
INTERNET Watch,山田 貞幸
【関連記事】
- コンテンツメディアコンソーシアム、「クオリティメディア宣言」を発表し団体名も変更、デジタル広告の信頼性向上に取り組む
- 警察庁が発表、今年1月~3月に「SNS型投資詐欺・ロマンス詐欺」の被害急増! 被害者は50代以上に多く、平均1千万円超の高額被害
- 【被害事例に学ぶ、高齢者のためのデジタルリテラシー】有名人の画像を悪用した広告が氾濫中、LINEで連絡すると投資詐欺に誘導されるケースも
- 【被害事例に学ぶ、高齢者のためのデジタルリテラシー】FBIが警鐘、2023年のネット詐欺被害は125億ドルに。投資詐欺やビジネスメール詐欺など巧妙化する手口に要注意!
- 【被害事例に学ぶ、高齢者のためのデジタルリテラシー】日本国内で“億単位”の投資詐欺被害が続出! 「儲かる」という謳い文句でだまされたり、ロマンス詐欺を仕掛けられるケースも