エンタメ大国・韓国発AIオーディオ企業「Supertone」の実力 日本市場をいかにして攻略するか?
コンテンツが豊富な日本 Supertoneの技術との相性は?
PlayとShiftを開発した動機をKyosun氏に聞くと「私たちが開発しているのは、音声を専門にした独自の基盤モデルで、他社が開発した技術を持ってきて何かを作っているわけではありません。弊社は基本的に音楽やゲームなどコンテンツが好きな人たちの集まりで、開発した技術をコンテンツに応用したいと思ってきました」と明かす。PlayやShiftの本格的な開発は、2023年に始まった。 「今のコンテンツ業界のトレンドを見ると、バーチャルヒューマンやメタバースなど、声が必要となる分野がホットだからです。日本市場ではVTuberの人気が高い一方、地声を公開したくない人も少なくありません。そういう意味で、Shiftは特に日本市場に受け入れられやすい技術だと確信しています。日本にはコンテンツが豊富にそろっているので、私たちの技術を提供できる機会も多く、その強みをアピールできると思っています」 音声を、任意の音声にすぐに変換して出力するリアルタイムボイスチェンジャー(RVC)は、以前から日本でも多くの競合がサービスを提供している。Shiftの強みは何かと聞くと「RVCは昔から存在し、質の違いがあるだけで、競合他社が多いのは事実です。ただし、Shiftの質は非常に高いのです。競争力は高いと自負しており、他社との差は確実にあると考えています」と話し、技術力に自信を見せた。 自信の源泉は4つあり、同社が「学者の集まり」であることから論文も発表。音声分野で最も権威のある国際会議「INTERSPEECH」でも発表したという。 「1つ目は、競合他社と比べてもかなり遅延が少ない点です。2つ目は、変換された後の音声が非常に自然な声であることです。3つ目は、元となる音声データを学習させる必要があるものの、標準で20秒ぐらいの音声サンプルで実装可能な点です。最後は、同時にいろんなアプリケーションを実行しても問題ないほどデータ容量が軽い点です」 特に学習時間が20秒というのは圧倒的な短さだ。ある競合企業の関係者は、筆者の取材に「他社はこの何十倍という時間をかけて音声データをコンピュータに記憶させなければならない。数十秒で学習できるSupertoneの技術力は非常に優れている」と明かす。では、学習時間が長ければ精度は上がるものなのか。 「データは多ければ多いほどいいのですが、だからといって、20秒と1時間の差がそれほどあるわけではないです。Shiftにおいては量よりも質がより重要で、雑音が入っている1時間の音声よりも、20秒のクリーンな音声データのほうがより良いのです」 同社は音声の学習技術に加えて、ノイズを除去する技術も有している。今回、インタビュー音源の一部に「蛍の光」の曲の音が入っており、その音源の「蛍の光」のノイズ除去を依頼した。実際にノイズを除去した音源を聞いてみると、完璧に取り除かれていた。つまり、ノイズ除去の技術によって、常に質の高いデータを読み込ませられるということだ。 例えば兵役に就いている男性K-POPアーティストは新曲をレコーディングしてリリースすることができない。だがメンバー一人一人の音声データを学習させれば、理論上は新曲を出せるのかと尋ねると「技術的には可能です」と語る。「ただし私たちはコンテンツを尊重する会社で、アーティストの意見もあります。本人の許可なしで使用することはありませんし、研究をするにあたっても適切な方法で行いますので、絶対に一般公開しません。また、アーティストらに不安を与えないようにNDA(秘密保持契約)を結ぶなどいろいろと気を付けています」と話し、使い方には細心の注意を払う。 この辺りは、会社とアーティストの考え方次第だろうが、革新的な技術であることは間違いなさそうだ。一方のPlayについてはどうか。 「TTSについては、今までは音声を出力すると機械的な音声といいますか、人工的な音声でした。ですがPlayの場合は、かなり自然です。ゲーム内のアニメーションでも、演技力を伴ったような、表現の豊かさが強みです。VTuber向けの無料で使えるキャラクターがあり、Supertone Playのオープンベータ版では、約50種類のキャラクターボイスを提供し、さらに追加していく予定です。これも競合他社と差別化を図れる要素かと思います」 自然に発声できる技術力の源泉は、Supertoneが開発した音声生成に関するAI機能を備えたAIファンデーションモデル「NANSY」(Neural Analysis & Synthesis)にある。音色や発音、ピッチ、音量といった4つの要素に分解後、再構成する特殊な機能を利用して、リアルな音声を無限に生成できるのだ。