『プロスピ』最新作に込められた「立体音響×球場」と「音声合成×実況」の徹底ぶり 開発者たちが語る“音”の裏側
野球ゲームの人気作品「プロスピ」シリーズの最新作である『プロ野球スピリッツ2024-2025』が、9月19日に発売される。 【写真】実際に京セラドーム大阪などで『プロ野球スピリッツ2024-2025』の立体音響用データを測定する様子&すごくリアルなゲーム内の球場 同作はシリーズ発売20周年記念の節目となるタイトルで、PlayStation®5&Steam®向けにリリースされるのだが、発売前からさらに向上したグラフィックや選手のモーションのリアルさが話題になっている。 しかし、同作の注目ポイントはそれだけではない。立体音響技術をはじめ、「実在スタジアムのインパルスレスポンスを収録」「実況への音声合成の導入」など、音響面での大幅なアップデートが見られており、さらにスタジアムの臨場感が際立っている。 今回はそんな同作の音響面について、株式会社コナミデジタルエンタテインメントの野球タイトルでサウンド開発を担っている柏崎歩氏と原田和茂氏、そして音声合成の技術周りを対応した株式会社テクノスピーチの代表・大浦圭一郎氏の三人にインタビュー。ユーザーの体験をさらに高めるために徹底して作られた“音”について、じっくり話を聞いた。(編集部) ・「TV中継的な野球の表現」と「本当の球場に近い野球の表現」をゲーム内で両立させるための工夫 ーー今回はスタジアムの空間をより体感できるように「3Dオーディオ」と「コンボリューションリバーブ」という2つの技術を使ったそうですね。あらためてこの2つについてご説明いただいてもよろしいでしょうか。 柏崎:「3Dオーディオ」は文字通り、3次元で音の方向や距離を表現する手法です。昨今、多くのスピーカーを使わなくても、ヘッドホンやテレビのスピーカーなどから再生して体感できるシステムが多数開発されていて、ハイエンドゲームや映画へ標準的に導入されているものです。ゲームへの導入に関しては、ひと世代前だと5.1chや7.1chなどの形式を使っていたのですが、これはあくまで平面としてサラウンドを体感するというものでした。現世代のゲームはそこに高さが加わった音が鳴っています。今回の「プロスピ2024-2025」はグラフィックを大きく進化させたので、そこに相応しいサウンドを作りたいということで、「3Dオーディオ」にはかなり力をいれています。 具体的には「見た目とサウンドの印象」が一致するように心がけました。そこで「コンボリューションリバーブ」が関わってくるのですが、これは実在空間でキャプチャーした「インパルスレスポンス」というデータを使って、あたかもその空間にいるような響きをシミュレートするリバーブレーターのことです。「インパルスレスポンス」のデータはメモリをかなり消費するため、ひと世代前のハードでは使う事が難しかったのですが、今回はその制約をクリアできたので、本格的に実装することにしました。 ーーいずれも制約がなくなったことで実装に踏み込めた、ということですね。対応ハードをPlayStation®5とSteam®向けに絞ったのも、そのような表現を最大限に活かすためなのでしょうか。 柏崎:その通りです。PlayStation®4も対応ハードに入れていたら、そのような仕様にはなっていなかったと思います。 ーー立体音響で音を表現するとなったとき、RPGなどのフィクションは目の前に広がっている空間より多少広かったり狭かったりしてもそこまで違和感がないと思うのですが、野球場というリアルな空間は、実際に行ったことのある方も多いぶん、調整が難しかったのではないでしょうか。 柏崎:RPGやアクションゲーム、FPSはリスナーに対して大きく動く物体があるがゆえに、立体の空間を表現しやすいです。ただ、野球場の場合は音を出すオブジェクトのほとんどが固定されていて数も少ないので、動きによる音の可変を表現するのが難しく、特に縦方向・高さを感じる音の表現についてはかなり苦労しました。スタンドからの歓声は、360度を取り囲まれているような感覚を味わっていただくために「Ambisonics (アンビソニックス) 」というフォーマットを使っているのですが、立体感を出すために、あえて音の定位を2階の客席くらいの高さに設定しています。 ーースタジアムの“鳴り”を演出するために、ほかに工夫したところはありますか? 原田:コンボリューションリバーブを含めての話になりますが、リアルな打球音はスタジアム空間を体感する上で欠かせません。実際に録音した野球選手の打球音を素材として使っていますが、コンボリューションリバーブを適用した時の残響の調整は、リアルを少し誇張したバランスで試行錯誤を繰り返しました。 ーーコンボリューションリバーブを作るための測定にあたって、苦労した点は? 柏崎:インパルスレスポンスを録る際は、サイン波のスイープ音(TSP信号)を出してそれを録音するんですが、そのために球場の中でスピーカーを持ち運んで、いろんな場所でスイープ音を鳴らさなければいけません。しかも、球場の歓声に相当する100db近い音圧を出す必要があったので、大きなスピーカーを6台用意して、かなり必死の思いで録音しました。 それに、スピーカーをどこに置いてマイクをどこに置いたら理想的な響きを得られるかがわからない状態でスタートしたのと、野球場なので芝の上で台車が使えないこともあり、大型のスピーカーをハンドキャリーで持って行って……そういう物理的な苦労も多かったです(笑)。 ーー大変ですね……。 原田:先ほどフィクションとリアルの話がありましたが、野球の表現にも同じような話があります。「TV中継的な野球の表現」と「本当の球場に近い野球の表現」という。 ーーたしかに! 体験や見え方・聴こえ方として全然違いますもんね。 原田:そうなんです。ゲームとしてフォトリアルにはなっているものの、体験としてリアルな球場の再現をするのが必ずしも正解とは言えないと思います。ゲームのプレイ画面はTV中継に近いですから。そのなかで臨場感をどう表現するかという部分において、サウンドチームの中で議論を重ねました。 例えばゲーム的な表現としてカメラが次々にスイッチングしていく場面で、その度に応援歌が右から聞こえたり左から聞こえたりすると違和感が出てしまうので、特定の状況では定位を固定したり、変化が緩やかになるように調整したりしています。 原田:定位に関してはTV中継的な表現がベースになっていますが、響きや音のダイナミック感については、キャッチャーぐらいのところにカメラを置いているくらいの見え方を想定して、そこから見たまま聴こえたままのサウンドを再現するように調整を進めました。 ーー今回の立体音響、合成音声はそれぞれ初めての試みかと思いますが、今後に向けて「こういったことも実現したい」といったビジョンなどはありますでしょうか? 柏崎:野球の表現はもっとリアルにできると思っています。たとえば音の配置をさらに緻密にする事で立体感を向上できると思います。一例として、応援団の応援歌はスタンドにひとかたまりの音源として配置していますが、太鼓やトランペットの演奏者一人ひとりからちゃんと音が聴こえると、球場全体のうねりがさらに表現できると考えています。 「助詞の付いた固有名詞を極力使わない事で回避していた」実況が音声合成でよりリアルに ーーここからは音声合成の仕組みについても聞いていきたいのですが、まずはテクノスピーチさんと組むに至った理由について教えてください。 柏崎:実況に音声合成を使いたいというのは、かなり前から考えていたことなんです。理由としては、ユーザーが任意で付けた名前を実況が喋ってくれるという仕組みにそもそもニーズがあって。日本人に多い名前やよくある名前みたいなものを数万個くらいは用意しているのですが、それでも無い名前というのはありますし、とはいえさらに種類を増やそうと思うと収録が大変です。 あと、「〇〇が~」や「〇〇の~」といった固有名詞+助詞で実況する場合、選手名×助詞の数だけ録音する必要があります。これまでは「〇〇、今のボールは仕留めておきたかったところ」と、助詞の付いた固有名詞を極力使わない事で回避していました。また、様々な記録の数字についても同様で、収録数や組み合わせたときにセリフのつながりが不自然になる事を考慮して、限定的な使用に留めていました。ただ、野球って記録のスポーツでもあるじゃないですか。戦略に直結する部分もあり、なるべく制約が少ない状態でそういったデータを喋らせたかったので、収録音声+音声合成のハイブリッドを進めようと思ったんです。 ーーそこからタッグを組む会社を探すにあたって、求めていた条件とは? 原田:このプロジェクトを始めた当初の話ではあるのですが、音声合成で作った音声って、あまり音質が良くなかったんです。「48kHz/24bit」を圧縮した収録音声と並べた時に音質差があり、併用するにはクオリティが足りなかったので、そこを解決してくれる企業を探していました。あとは、ゲーム中に起こった出来事に対してテキストを生成してそのまま鳴らすためには処理速度などを含めた動作条件を満たしている必要があり、さまざまなベンダーさんとお話をするなかで、テクノスピーチさんの技術が圧倒的にクオリティが高かったので、最終的にお願いする流れになりました。 ーーテクノスピーチの大浦さんはこれまでリアルサウンドでもVoisonaの開発者としてご登場いただいています。今回は音楽ではなくゲームの中での音声ということで、実際にKONAMIさんから依頼があったときに、どういう印象を抱きましたか。 大浦圭一郎(以下、大浦):音声の品質や肉声感、喋り方などのクオリティや、プログラムの実行速度など、非常に高い品質が求められるタイトルの合成音声を依頼いただいて、非常に光栄に感じました。 ーー通常の音声合成プロジェクトと大きく違った部分などはありましたか? 大浦:一番大きかったのは「新規収録をしない」ということですね。声優さんの音声合成ライブラリを作る場合は「こういう文章を読んでください」とお願いして、さまざまな声を例えば2時間ほど数日間の収録で録り切ってライブラリを作るんです。短期間のうちに収録しないとスタジオや喉のコンディション、喋り方が変わってしまいラーニングに悪影響を及ぼすので、多くの場合は新規収録です。 ただ、今回のケースは過去の収録データがかなりの数あったので、上記の懸念はデータ量でカバーできると判断しました。 ーー既存音声を大量にラーニングさせることで、大変だったことはありましたか? 大浦:いただいたテキストと音声ファイルの内容が、テキストでは「~~なので」と書いてあるのに音声は「~~だから」となっていたりと、ニュアンスは合っているけど全然違うものが多くて……。その修正はかなり手間でした(笑)。 ーー音声合成を使用したことで、新規収録のボリュームは減ったのでしょうか? 柏崎:いえ、そんなことはないです。収録で表現しきれない部分を補うために音声合成を導入したのですが、収録時間を短縮するという目的ではありませんから。それに、一つひとつの言葉に込められた感情の表現やライブ感は収録音声の方がまだ有利だなと思っています。 人間による新規収録&AI音声合成が互いを補完する、理想的な「人間とAIの共存」を果たしたゲームに ーー事前に音声を聞かせていただきましたが、まったく違和感がなくてどこからが音声合成なのかパッと聴きではわからないほどでした。 柏崎:ありがとうございます。違和感を覚えてしまうとゲームに集中できなくなりますので、ユーザーの方に気づかれないのが理想です(笑)。 ーーちなみに感情の抑揚みたいなものはどのようにコントロールしているのでしょうか。 原田:音声合成ソフトは感情のパラメータをスライダーでコントロールできるのですが、今回の「プロスピ」にそういった機能は搭載していません。ただ、ユーザー側でコントロールはできないものの、場面に応じてテンションが変わるようになっています。 ーー「ピンチの場面で奪った三振」など、チャンスやピンチの緊迫した場面で熱量が上がるというのは理想ですもんね。今回の両社の取り組みを経て「こういうこともやってみたいな」と思ったことがあれば教えてください。 柏崎:まだ実況にしか適用されていないので、今後は解説者が選手の名前を喋ってくれるようになれば、さらに満足していただけるのかなと。あとは、実況をテキストから自動生成して音声合成に喋らせる、ということもやってみたいです。 原田:今回は「プロスピ」でしたが、名前を呼ばせるという意味では「パワプロ」のほうが需要もある気がします。後者のほうは特に架空の選手の名前をつける方が多いですし。 ーーたしかに! 自分も子どもの頃は「パワプロ」のサクセス選手にアニメキャラの名前を付けたりしていました。 柏崎:あと、実況に限った話ではないのですが、今後はセイバーメトリクスなどの指標も入れていきたいと思っていて。いろんな指標が出てくると面白いし、対人戦でより作戦が緻密になるかなと。 ーーOPSやK/BBみたいな指標が出てくると、長打を警戒したり三振に気をつけたりとケアする箇所も変わってきそうです。大浦さんはいかがでしょう? 大浦:私は「プロスピ」よりも「パワプロ」派で、サクセスでも「大浦01」「大浦02」とナンバリングして選手を作っていくタイプなので……。パワプロに採用されたらとても嬉しいですね。あとは先ほども挙がりましたが、テンションを今以上に多種多様に見せられるようになれば、もっと違和感はなくなるのかなと。 ーー昨今のAIにまつわる話題といえば、著作権的にアウトなものをラーニングするといった事例がありますよね。ただ、今回のように権利周りをしっかりクリアしたうえで、特定のタイトルの音声だけをラーニングして、そのタイトルの発展に使われるというのは、今後のゲーム業界にとって、非常に良い例ができたと思います。 大浦:人間による新規収録もあり、AIによる音声合成もあり、それが一緒になって1つの製品に活かされるというのは、ある意味で「人間とAIの共存」といえますから、自分でも素敵なモデルケースができたと嬉しい気持ちです。それに、このタイトルだけではない形で今後の発展可能性もあると考えていて、今回はPlayStation®5&Steam®に対応したゲームなのでWindowsでの実装でしたが、弊社の音声合成モジュールはmacOSやスマホなどのOSでも動きますので、PlayStation®5以外にも例えばNintendo Switchなどのゲーム機にも対応できるよう、プログラムを準備していくつもりです。 また、実況アナウンサーさんも1名だけではなくて、副音声で英語実況をしてもらったり、解説席のOB選手や場内アナウンス、さらには応援歌というように、音声合成技術を利用できるケースっていうのはまだまだあると思うので、今後どういった形で発展させていけるかが楽しみです。 ーーそれは楽しみです! とはいえSwitchやスマホアプリにとなると、処理性能や容量の問題も大きな壁となりそうですね。 原田:そうですね。そういった制約も乗り越えながら、ユーザーの方のご期待にお応えしていきたいと思います。
中村拓海