エンタメ大国・韓国発AIオーディオ企業「Supertone」の実力 日本市場をいかにして攻略するか?
BTSやSEVENTEEN、NewJeansなどグローバルアーティストを擁する韓国のHYBE。同社は音楽以外にもプラットフォーム、ゲームなどを開発する複数のテック事業を傘下に置く。今回取り上げる「Supertone」は、歌や演技といったコンテンツの声の生成とデザインを専門とするAIオーディオ企業だ。事業内容はリアルタイム音声変換、テキスト情報の音声変換(Text to Speech)、ノイズ除去、AIダビングなど「音」に特化している 【写真を見る】AI基盤のリアルタイム音声変換サービス「Supertone Shift」 ユーザーの声をいろいろなキャラクターの声にリアルタイムで変換するツール「Supertone Shift」(Shift)や、テキスト入力による簡単なせりふの編集だけで自然な音声コンテンツを生成できる創作ツール「Supertone Play」(Play)を開発。現在Shiftは正式版がリリースされ、Playはオープンベータ版が公開されていて、これらを軸に日本市場を開拓しようとしている。 同社のコンテンツ事業開発チームリーダーのKyo Sun Choo氏に、技術開発の意図や今後の展望を聞いた。
「20秒の音声データ」だけで学習 その技術的優位性とは?
Supertoneは2020年3月に創設。2023年にHYBEが450億ウォンで買収した。現在、約70人が働き、うち半数が研究開発に従事している。 「もともと、ソウル大学の教授を兼任している代表のKyogu Leeと5人の研究員が共同創業した会社です。R&D部門が技術開発を、メイン部門がその技術を製品化する体制を取っていて、私がいる事業開発チームは、Supertoneの事業戦略・企画・開発を担っています」 今回、同社が開発した2つの技術「Shift」と「Play」とはどんなプロダクトなのか。 「Shift」は、選択したキャラクターの声にリアルタイムで変換できる。47ミリ秒(0.047秒)と、人間が遅れをほぼ認識できないほどの低遅延であるのが特徴だ。ユーザーとキャラクターの声の混合比率や抑揚などの設定も、リアルタイムで変更可能となっている。 例えば、筆者がShiftを使用する前に10秒ほど声をインプットすると、声の低音が分析されて変換される声がより自然なものになる。Shiftは女性、高齢者、子ども、アニメチックなど38種類のキャラクターを用意していて(2024年11月5日時点)、任意に選んだ声に変換可能だ。 後者のPlayは、打ち込んだテキスト文章を、選択したキャラクターの声で読み上げることができる。Shiftと同様、音声の高さや抑揚などを調整できる上、英語や日本語など複数の言語で生成できるという。 デモをしてくれた担当者によると、現時点では、特に英語と韓国語に関して、かなり高い精度を誇っているという。今後は日本語の精度をさらに上げるとともに対応言語を増やし続け、よりグローバルなサービスを提供したいと話していた。対応言語が将来5、10、15と増えていけば利便性はより高まる。