“安心安全”なAI歌声ライブラリはなぜ生まれたのか? 無限の可能性を秘める「LAUGH DiAMOND」P&Dインタビュー
コナミデジタルエンタテインメントは、AI歌唱エンジンを用いた音声合成ソフト「VoiSona」(ボイソナ)向けのAI歌声ライブラリ「LAUGH DiAMOND」(ラフダイヤモンド)シリーズを4月1日に発売した。プロジェクトが持つコンセプトや、音声合成ソフトが乱立するなかでの独自の魅力、そしてキャラクターたちの歌声などについて、プロデューサーのラフダイP、ディレクターのこーじDに話を聞いた。 【写真】AI歌声ライブラリ「LAUGH DiAMOND」のプロデューサー&ディレクター ■VoiSonaの特徴が「圧倒的な個性」に ――今年4月1日にVoiSona向けAI歌声ライブラリ「LAUGH DiAMOND」シリーズがリリースされました。反響はいかがですか? ラフダイP:リリースするにあたって、VoiSonaを開発されたテクノスピーチさんといろいろやり取りさせていただいていたのですが、「苦労するとは思いますよ」と最初から言われていたんです。たとえば、可不(CeVIOプロジェクトが手がける音声創作ソフトウェア“CeVIO AI”用の音声合成ライブラリ)があれだけ話題を集めたのは、可不の音楽的同位体であるVTuberの花譜の活動がしっかりあったうえで、リリースにあたってはオリジナルソングの発表などを含めたプロモーションをやられていたからこそだと思うんです。そういった意味で、我々はまったくもってゼロの状態から始めていますからね。 実際、リリースしてみて感じたのは、「たしかにな」ということで(笑)。ただ、おもしろいのはリリース数日で4キャラクター分の“歌ってみた”音源をネット上にアップされている方々もいらっしゃって。その9割が外国の方なんですよね。「どういうことなんだ、これは⁉」と思いつつも、おもしろい動きとして注目しています。 ――外国の方は常にアンテナを張り巡らせて、日本のカルチャーに対して敏感に反応する傾向がありますよね。 ラフダイP:そうですね。今回の取り組みをするにあたっていろいろアドバイスをいただいていたドワンゴさんも、ボカロに興味を持つ海外のDTMファンの方々が増えてきているというお話をされていました。しかも、海外の方なのに、みなさん日本語で歌わせているというのがおもしろい傾向で。音声合成ソフトは日本語を簡単に歌わせられる。そこに価値を感じていらっしゃるんでしょうね。そういう方々こそが、もしかすると「LAUGH DiAMOND」のイノベーターさんなのかもしれません。 ――そもそもゲームメーカーであるKONAMIさんが音声合成ソフトのシーンに参入しようと思ったのはなぜですか? ラフダイP:私はもともと、歌うとか喋るだけに限らず、考える、生成するという部分も含めたAIというものに非常に興味を持っていて。7年くらい前から実験や研究、検証をうっすらと続けてきてはいたんです。 そのなかで生成AIの議論がここ数年、急速に高まりを見せてきたじゃないですか。世の中からの期待も大きいし、実際使われるのも当たり前の状況になってきた。そこで必要だと思ったのは、安心で安全な生成AIを作ることだったんです。 権利が怪しいものだったりすると、ユーザーさんは安心して使えないですからね。それなら大きな看板を掲げている当社のような存在が参入すれば、みなさまに安心して使ってもらえるものが提供できるんじゃないかなと、「LAUGH DiAMOND」チームとしては考えています。結果的にかなりの時間がかかりましたけど、リリースのタイミング的はこれが一番よかったんじゃないかなとは思っています。 ――安心・安全な製品をリリースすることに対しては、テクノスピーチさんも非常に大事にされていますよね。そういった理念を認知させるという意味で、KONAMIさんのようなある種、サードパーティ的な企業がどんどん増えていくのは重要なことのような気がします。 ラフダイP:我々「LAUGH DiAMOND」チームもそこが重要だと思っています。AIを扱っていくところは、安心で安全なものを提供しないと生き残っていけませんからね。そういう企業が多数参入していけば、必然的にシーン全体が安全なものになっていくと思います。 ――こーじDは構想段階から「LAUGH DiAMOND」には参加されていたんですか? こーじD:僕は途中からですね。 ラフダイP:こーじDの本職はゲームのサウンドディレクターなので、私が作ったレールに途中から乗っかってもらった感じです。各キャラクターの音声データが揃ったタイミングで、「じゃあこれを、調子がいいバージョン、めちゃくちゃ上手いバージョン、普通のバージョンで歌えるように調声して」と言って大量にテストデータを作ってもらいました(笑)。 こーじD:投げられたっていう(笑)。 ラフダイP:その結果、こーじDは信じられないぐらい調声が上手になったんですよ(笑)。しかもめちゃめちゃ作業が速い。すさまじいボリュームの調声をやってもらいましたからね。もはや調声のスペシャリストの領域に達していると思います。しかも、VoiSonaのバージョンが上がったら、過去に調声したものを聴き直して手直ししたりもしていますからね。 ――こーじDはもともと、音声合成ソフトに触れたことはあったんですか? こーじD:初音ミクや鏡音リン・レンなどヤマハさんのソフトはけっこう使っていましたね。ただ、それ以外はまったく使っていなかったので、いきなりVoiSonaを渡されたときはちょっととまどいました。 ――VoiSonaは初心者でも使いやすいところが評価されていますよね。 こーじD:たしかにそうなんですが、最初はちょっと慣れない部分もあったんです。そこはテクノスピーチさんとやり取りしながら、バージョンアップという形で改善してもらったりもしました。そうやって使い込んでいくことでVoiSonaの良さがどんどんわかっていって。VoiSona、めっちゃいいですよ。 ――さまざまな音声合成ソフトが存在する中、VoiSonaだけが持つ魅力ってどんなところにあると思いますか? ラフダイP:今回、「LAUGH DiAMOND」を商品化するにあたって、プロで活躍されているボカロPさんやクリエイターの方々ともいろいろお話させていただいたんです。そこでみなさんが口を揃えておっしゃったのが、「某音声合成ソフトの音質が非常によくて使いやすい」ということで。「どういうことなのかな」と思って、こーじDに聞いてみたところ、「波形やデータを見ても、VoiSonaとそこまで大きく変わらない」という返答をもらったんです。 そこからもっと突き詰めて考えていったところ、クリエイターの方々が口を揃えて「良い」と言っていた某音声合成ソフトは、調声をあまりせずともいい感じに上手に歌ってくれるという結論に辿り着きました。VoiSonaの場合は、たとえば特定の状況でピッチが上ずったりする癖なんかまで含めて、CVの方の歌声を忠実に再現しているので、使用する音声ライブラリによっては無調声だと下手に聞こえちゃう部分もあったりするんです。 こーじD:うん。でも、それがいいんですよ。楽器的なものを志向するか、生身の人間的な歌い手を目指すかという違いですね。 ――一見、そこが弱みになってしまいそうですけど、こーじDはそこを魅力に感じたと。 こーじD:そうですね。 ラフダイP:その理由は「LAUGH DiAMOND」のスタート時点でのコンセプトにあったんですよね。我々は、歌の上手い子は上手い、下手な子は下手でいいじゃんという思いをもってプロジェクトを始めていたんです。 たとえば、うちには風祭朝陽というキャラクターがいますけど、彼女はピッチやテンポ、歌い出しもズレるし、ビブラートも基本はかからないというキャラなんです。それをどう調声していくかで個性がどんどん出てくるようになるわけです。調声せずともキレイな歌が作れるほかの音声合成ソフトとは、根本的な設計思想の違いがあるというか。 ――なるほど。手間をかけずにキレイに歌わせるのか、手間はかかるけど自分にしか出せない個性を歌に込められるのかの違いがあると。 こーじD:そう、圧倒的な個性ですよね。人間はみんな性格が違う。それと同じように歌だってそれぞれに違いがあっていいわけですよ。それをちゃんと再現してくれるのがVoiSonaであり、「LAUGH DiAMOND」なんです。手間をかけずに優等生を使いたいというユーザーはほかのキャラクターやほかの音声合成ソフトを選べばいいわけですから。そこは好みも関係すると思います。 ラフダイP:そうだね。VoiSonaは手間がかかるし、癖もあるんだけど、「あなたにしか出せない音、歌が作れますよ」ということですね。細部にわたってかゆいところに手が届き、求めれば求めるだけ際限なくどこまでも突き詰めた歌を作れるのがVoiSonaと「LAUGH DiAMOND」の組み合わせならでは。そこがほかにはない大きな魅力だと思います。 ――複数人でのデュエット曲やユニット曲が作りやすいという「LAUGH DiAMOND」シリーズの特性も、そこに関係がありそうですね。 ラフダイP:下手な歌をも許容した結果としての副産物ではありますけどね(笑)。技術的な話をすると、以前は同じ音階の音をAちゃんとBちゃんに歌わせると時おり、気持ちの悪い瞬間が生まれていたんです。要は音が混ざってCちゃんの声が生まれてしまっていたんです。そうなるとユニゾン曲が作れなくなってしまうので、ボカロPの方々は音が混ざらないようにそれぞれのピッチをわざとズラすような工夫をされていたと思います。でも「LAUGH DiAMOND」であればその必要はないんですよね。だって端からズレているので(笑)。 こーじD:ユニゾンさせるだけなら細かい調整はいらないです(笑)。 ラフダイP:そのうえで、それぞれの個性を出すように調声してあげればいいわけですから。機械的な歌声から、人が歌っているとしか思えないような歌声までを調声して作り上げていくこーじDの姿を見ていると、「みんな調声しようぜ!」と思いますよね(笑)。自分だけの創作活動をしたいクリエイターの方を受け止めるだけの懐の深さが「LAUGH DiAMOND」にはありますから。 こーじD:僕はいつも妄想しながら調声してるんですよ(笑)。レコーディングブースに(風祭)朝陽や(篁)響季に入ってもらって、僕がサウンドディレクターとして「ここはもう少しこう歌ってみてくれる?」みたいな会話をしている妄想を。で、狙った場所に装飾音符をつけると歌い方が変化するんですけど、AIを使っているので、その前後の表情も変わるんですよね。そこがおもしろい。そして「おぉ、それいいね!」とか言いながら、また調声を続けていく(笑)。 ラフダイP:そんなこーじDの姿を見ていると、「LAUGH DiAMOND」のライブラリを使ってもらうことが、レコーディングディレクターの育成につながるような気もするんですよね。こーじDがやっていることって、実際のレコーディングディレクターがやっていることと同じですから。そういったスキルを上げたい方にもぜひ使ってみてほしいです。 ■「本当に唯一無二のライブラリになっている」(ラフダイP) ――AI歌声ライブラリとなるキャラクターについても聞かせてください。先ほど名前が挙がった風祭朝陽(CV:熊沢世莉奈)、篁響季(CV:鈴木杏奈)に加え、山田花音(CV:木戸衣吹)、小紫桃果(CV:白河みずな)という個性の異なる声の特性を持った4人がラインナップされています。 ラフダイP:ライブラリにしたときに声の質や歌い方がバラバラで、なおかつ歌声に個性がある方を選ばせていただきました。狙いどおり、見事にバラバラなラインナップになりましたね。それで大変になったのはこーじDだと思うんですけど(笑)。 こーじD:そうですね。でも開発途中にVoiSonaが1.0系から2.0系にバージョンアップされたことでかなり楽になりました。 ラフダイP:たとえば響季の声を担当してくれた鈴木杏奈さんは、カラオケグランプリのアンダー18で四天王になったくらいめちゃくちゃ歌が上手い方なので、1.0系だと再現不可能だったんですよ。 こーじD:そうですね。半分くらい諦めていました(笑)。いろいろな手法で調教を試してみたけど、それでもまだ再現できない唱法がたくさん出てきていたので。でも2.0系になった途端、すべてが解決してしまいました。 ラフダイP:こーじDの調声スキルが上がったのは、1.0系から始めたおかげかも。 こーじD:それはあるかもしれないですね(笑)。あとはVoiSonaのエディターの使いやすさが2.0系になってから急激によくなったのも大きいです。いま、公開されているものは本当に使いやすいと思いますよ。 ――豊富な歌唱テクニックを持つ響季とは対照的に、朝陽はナチュラルな歌が特徴的ですよね。 ラフダイP:めちゃくちゃ普通の子ですよね。それが愛らしい。海外のユーザーさんの間では朝陽の声が一番好きだと言ってくださっている方も多くて。良い意味で唯一無二の歌声でもあるんだと思います。 こーじD:ほかにはない歌声を持ってますよね。 ラフダイP:熊沢さんは非常に歌が上手い方ですが、素で歌ってもらうことをお願いしました。最高の学習結果を得ようと思えばNGテイクは消すべきなんですけど、音が外れていても、声が裏返っていてもOKにしたので、そこがライブラリとしては良い個性になっていると思います。ただ、商品としての多少の扱いづらさはあるかもしれません(笑)。 こーじD:でも、そこをディレクションする楽しさが生まれますから。「いま、裏返っちゃったから、もうちょっと頑張ってみよう!」みたいなことができる。そういう調声をしたい人にはたまらないと思いますよ(笑)。 ラフダイP:じゃあ、こーじD的に花音はどう見てるんですか? こーじD:率直に言うなら「キャピ♡」って感じですかね(笑)。木戸さんは素がそういう歌い方だったので、細かい部分まで気にする必要はなかったというか。 ラフダイP:木戸さんは役者さんとしてのキャリアが4人のなかで一番あるし、当然キャラクターソングも多く歌ってこられているから、歌の精度が安定して高いんですよね。だから結果的にとても使いやすいライブラリになったと思います。花音のようなアニメ声の音声ライブラリって実はほかにあまりないと思うので、そういう貴重さもあると思います。 ――もう1人、桃果はどうでしょう? こーじD:桃果は間違いなく天使ボイスです。 ラフダイP:それ、みんな言いますね(笑)。 こーじD:ボイスの収録時、白河さんが歌ってるのを聴いていたら眠くなってくるんですよ。気持ちよくなって落ちちゃう感覚になるというか。 ラフダイP:響季の鈴木さんとまさに対照的な歌い方だと思います。超絶技巧を持つ鈴木さんと比べると、白河さんは本当にナチュラルな歌い方。声質もとにかくいいですしね。ライブラリにするうえでも、その特徴を最高の形で学習させることができたので、4人のなかで一番本人に近い歌声を再現できるのは桃果かもしれないですね。ご自身の歌とライブラリの歌唱を聴き比べたとき、マネージャーさんも「どっちがどっちかわかんない」って言っていましたから(笑)。まあ、そこはこーじDの調声のすごさもあるんだとは思います。 こーじD:めちゃめちゃ調声して、作り込んだ状態で聴いてもらいましたからね(笑)。 ――では最後に、多くの可能性が秘められている「LAUGH DiAMOND」シリーズについて、開発サイドから使い方のおもしろい提案をいただけたらと思うのですが。 こーじD:VoiSonaには「LAUGH DiAMOND」以外のライブラリがたくさん用意されているので、その子たちと組み合わせてもいい感じにハマると思います。もちろん他社さんのライブラリと一緒に歌わせてみてもおもしろいだろうし。使い方の幅は本当に広いと思うので、ぜひさまざまなコラボレーションを楽しんでみてください。 ラフダイP:声が混ざってCちゃんが生まれてしまうという可能性はかなり少ないので、ユニゾンさせるおもしろさに気づいた方は、たとえばアイドルグループの曲を大人数で歌わせてみてもいいのではないでしょうか。そうしたユニゾン曲を作っているボカロPの方って案外少ないので、ブルーオーシャンな気がしますね。 こーじD:人数が増えれば増えるほど調声は難しくはなるんですけど、VoiSonaは比較的簡単な方だと思います。 ラフダイP:本当に唯一無二のライブラリになっていると思いますし、いろいろな可能性があると思うので、まずは多くのみなさんに「LAUGH DiAMOND」の存在に気づいていただきたいですね。
もりひでゆき