NHKが東京五輪の試合のオンラインライブ配信で採用している、「ロボット実況」が話題になっている。

 バスケットボールやバレーボール、卓球、水泳など一部の試合のライブ配信映像に、合成音声による自動実況(と字幕:ロボット字幕)が入るシステムだ。

 例えばバレーボールなら、「日本、第二セット、6-4、ブラジル、リード」「次のサーブは日本です」など、水泳なら「日本の入江は、先頭から0秒44差の5位でターン」など、試合の状況を淡々とした合成音声で伝える

 音声のイントネーションはかなり自然で、「淡々として聞きやすい」「落ち着く声」と好評だ。人間の実況者と違って感情的になることがないため、「人間の実況よりロボット実況が好き」という人もいる。

 NHKによると「ロボット実況は」、2016年のリオ五輪から実証実験を行い、18年の平昌冬期五輪などで運用して磨きをかけてきた技術だという。

 仕組みを簡単に説明すると、「試合会場から送られてきた競技データを、各競技ごとに用意しておいたひな型を使って実況テキスト化。これを字幕と合成音声実況に変換し、ライブ映像とタイミングを合わせて配信」しているそうだ(解説ページより)。

ロボット実況の仕組み(提供:NHK)
ロボット実況の仕組み(提供:NHK)

 今回記者は、NHKの担当者に改めて、ロボット実況を開発した経緯や技術の詳細、今後の展望を聞いた

運転中や、電車に乗っていても

――ロボット実況を開発した理由は?

 オリンピック・パラリンピックでは多くの種目の競技が同時に開催されるため、全てを放送することができません。NHKでは、放送されない試合などの多くを、映像と会場音のみでインターネットで配信しています。

 また、テレビ放送では映像を見て分かる競技の状況や、点数などの画面上に表示する情報をアナウンサーが実況しない場合があるため、視覚障害者をはじめ、自動車の運転中のように映像が見られない状況にある人が、テレビ音声だけでは、競技を十分に楽しめないことも考えられます

 リアルタイムに配信される競技データには、画面上に文字で提示される試合情報を含め、さまざまな有用な情報が含まれているため、このデータから実況文を自動生成して合成音声と字幕で伝えるロボット実況システムの研究開発を進めてきました

 聴覚に障害のある方や電車に乗っている時など音が出せない場所でも楽しんでもらえるようにしました。

2016年のリオ五輪で実証実験 18年平昌五輪で実運用

――開発にかかった期間はどれぐらいですか?

 2016年のリオ五輪ではじめてロボット実況の自動制作実験を実施してから、東京オリンピック・パラリンピックでのサービス実現を目指して、ロボット実況の実施競技を充実させるための開発に取り組んできました。

 2018年の平昌五輪では、アイスホッケー、カーリング、ボブスレー・スケルトン、リュージュの4競技を対象に、現地から配信される競技映像にリアルタイムで実況・日本語字幕を付与するロボット実況サービスを NHKオンラインの特設サイトで実施しました。今回の五輪が2回目です。

平昌五輪カーリング 女子決勝、スウェーデン対韓国
平昌五輪カーリング 女子決勝、スウェーデン対韓国写真:ロイター/アフロ

聞きやすい声…人間の実況を学習、専用の音声合成器で開発

――ロボットの音声は、どのように開発されたのでしょうか?

 ロボット実況の音声として、2018年にNHKが開発したディープニューラルネットワーク(DNN)を用いた音声合成方式を採用し、ロボット実況専用の音声合成器を開発して使用しています。実際の実況音声の特徴をコンピューターで学習することで、スポーツ実況にふさわしい自然な口調を実現しています。

「オリンピック放送機構」からデータ受け取り、オリジナルのテンプレにはめる

――音声合成は、「会場から競技データが送られてくる」→「各競技ごとに用意しておいたひな型(テンプレート)を使って実況テキストを自動的に生成」→「合成音声実況(ロボット実況)に変換する」という仕組みだそうですね。会場から送られてくるデータは、どのようなものなのでしょうか?

 オリンピックでは、実施される競技に対して主催者の IOC や国際映像を制作するホスト放送機関のオリンピック放送機構(OBS:Olympic Broadcasting Services)が ODF(Olympic Data Feed)と呼ばれるリアルタイムの競技データを配信します。ODFには、「出場選手」や、現在の得点や選手のプレー内容に関する数値情報などの「試合状態」、試合中に起こった「イベント一覧」などの情報が含まれます。

――「各競技ごとに用意しておいたテンプレート」とは例えばどんなものでしょうか?

 テンプレートは、選手名やスコアなどの情報を穴埋めすることで実況内容が完成する文章のひな型です。競技のルールブックと配信データの仕様書、さらに、これまでのアナウンサーによる実況などの情報から、競技ごとに専用のテンプレートを人手により作成しています。

ロボット実況に向く競技は?

 リアルタイムに配信される競技データは、種目によって入力方法が異なります。

ボートのように機械的に計測されたタイムがそのまま配信される競技では、正確に、そして人間より早くコメントできるため、ロボット実況に向いています。

ボート男子のシングルスカルに出場した荒川龍太選手
ボート男子のシングルスカルに出場した荒川龍太選手写真:ロイター/アフロ

 オリンピックでは、ガンメータで計測したテニスのサーブの速度などのデータも使うことで、より多角的に競技実況を楽しんでもらえるように工夫しています。

ほぼ人力のデータ入力、ミスもあるが

 バスケットボールのように現地で人手によって入力して作る競技が多く、このようなデータには遅れがあるため、試合状況を説明すべきタイミングとずれてしまうものがあります。また人間が入力する場合には、入力間違いがあることもあり、その場合は、ロボット実況でも実際と違った実況となってしまうことがあります

 それを防ぐために複数のデータを突き合わせて正しいデータを発話できるような工夫もしています。

 競技データの多くは人手で制作されるため、すぐに訂正されますが、入力直後は誤りが含まれることがあります。ロボット実況では、競技データをもとに逐次情報を伝えるため、競技データの取り扱い方に課題があります。

 ロボット実況では、データ入力のタイミングも重要です。原理的に、どうしても試合進行に対して遅延が生じることがあるため、実際の状況と異なる実況となることもあります。

今回から「手話CG実況」も

――今後の展開は

 ロボット実況システムでは、どのような状況のときに、どのような内容を伝えるかという判断を行っていますが、性能をより一層向上させていく必要があります。

 今後はロボット実況の発話内容を充実させる技術開発を進めるとともに、オリンピック以外のスポーツ大会やデータ提供のない競技での実況の実現を目指していきます。

試合内容を伝える手話CGのキャラクター(提供:NHK)
試合内容を伝える手話CGのキャラクター(提供:NHK)

 更に、ロボット実況で開発した技術を応用し、競技データ(ODF)から手話のアニメーションを生成する手話 CG 実況を今大会で初めて実施しました。聴覚障害者の方にスポーツを楽しんでいただく新たな手段を提供したいと考えています。

 今回の東京大会で障害のある方のみならず、多くの方にロボット実況・字幕・手話 CG 実況を利用していただいたことで、障害のあるなしに関わらず同じように楽しんでいただき、一緒に楽しめるユニバーサルサービスの充実を目指したいと考えています