ロボットの会話に未来はあるか?発売秒読みのシャープ社製”ロボホン”から考える会話AIエンジン開発

いよいよ発売になる珍種(?) の携帯電話機ロボホン(写真:ロイター/アフロ)

噂のシャープから発表されていた、ロボット型携帯電話「ロボホン」の発売カウントダウンが始まった。このロボホン、昨今世間を騒がせている、あのシャープが”外資系になる以前”から約3年間を超えて開発してきた、ちょっとマニアックともいえる携帯電話機のプロジェクトであるが、それでも開発費用は20億円に届くという。

シャープ社の製品発表サイト

ロボホン公式サイト

リング先の写真を見ていただければわかるが、頭部についたプロジェクターが映像を映し出したり、話しかけた言葉に答えてくれたり、ポーズを取ってくれたり、これまでの携帯電話にはまったくない(!?)機能を搭載してた新機種である。中でも筆者が注目しているのは会話能力である。「話がわかるロボットとして、ロボホンは身振り手振りを交えておはなしします」と公式サイトにはある。関係者は「ロボットを持ち歩く時代の先駆け」と強調する。

筆者は1999年に発表した人面魚のゲーム「シーマン」を制作して以来、広義でのAIと呼ばれる分野に関わってきた。「シーマンのように人の言葉を理解するエンジンを作って欲しい」というクライアント企業の要請によるものだ。

だが実際のところ「シーマン」(の初期のバージョン)にはAI的な機能などほとんど実装していない。詳細は後述するが、「シーマン」が極めてきたことといえば、「会話を理解した”フリ”をする技」だけだった。それから15年間、人とコンピューターの会話はどうやったらおもしろくなるか? そのための会話エンジンの研究開発をしてきた立場から、この愛らしいロボットに期待すべきポイントをいくつか書いてみることにした。

◯ロボットは、なぜか発表会では流暢に話しをするが・・

さて本題に入ろう。

これまで多くの"ロボットくんたち"が日本で発売されてきたが、それらの中には残念ながら、商品レベルでユーザーと会話ができるものは今のところない。

むろん発表会のデモは別だ。どのロボットも発表会では壇上ではずいぶんと流暢に会話してるように見えるが、多くの智衆は、「このイベント用に作られ、リハーサルを何度も繰り返した、スペシャルなバージョンの会話でしょ」と、つまりそれがコンピュータが本当に生成したセリフではないことにうすうす気づき始めている。というのも、あれだけ鳴り物入りで宣伝されたpepper君が、ソフトバンクショップの店頭では来場者とおきまりの会話しかできていないことを、大衆は実体験してしまったからだろう。

◯シナリオ型のロボット会話に未来がない理由

なぜ発表会では上手にしゃべるロボットが一般ユーザーとは上手にしゃべれないのか?

発表会イベント版ではあらかじめシナリオが用意されているからである。

「ではシナリオをいっぱい作って製品版にも搭載すればいいじゃないか?」

製品版ではそうはいかない。シナリオには終わりがあるのだ。用意されたシナリオを一通り消化したら、何もしゃべらないただの機械に戻ってしまうからだ。オーディオCDと一緒である。

「こんにちは、XXくん」

「◯◯さん、こんにちは。やー今日は天気がいいですね」

壇上でプロデューサーが流暢な日本語で話しかけるとロボットも流暢な日本語で返してくる風景である。

「ほんとだね。ところで、XXくん、今日はこんなにたくさんの人がきてくれて幸せだね」

「はい、僕の発表会にこんなにたくさんの人が来てくれて僕もうれしいです。」

この風景は発表会にあわせて(代理店が手配した放送作家などの)人間が用意したシナリオにのっとった会話だ。

しかし製品版ロボットにはシナリオがなくても喋り続ける会話エンジンが必要だ。そのエンジンこそが”考えている”ようにみせるための肝であり、会話型ロボットの未来へのカギそのものである。そんな会話エンジンはどこかにあるのか?・・・・自社の製品をロボットライクに、ユーザーフレンドリーに喋らせたいと考えているメーカー各社は何にどう手をつけていいものか、困惑気味に手をこまねいているのが今なのである。

◯AIにもいろいろなカテゴリーがある

人工知能、いわゆるAIと呼ばれるものには、いくつかのカテゴリーがある。AIとひとことで呼ばれるものでも、一般ユーザーからすれば、まったく異なる種別のものが混在していることに気づく。

1.チェスや囲碁、あるいは自動化された為替の売り買い判定のように、(人間が話す自然言語ではなく)記号化された対象内で計算し判断するもの。

2.IBMワトソンのように、(人間か読むための)文字などとして存在する情報を解析して知識に変換し最適解を求めるもの

3.pepper君やシーマンのように、人間と向き合い、会話するもの。

いうまでもなく今回、シャープが発売するロボホンは、3に該当する。

筆者がこれま経験してきた分野もここである。どちらかというと人を面白がらせることに目的がある点で、エンターテイメントに近い分野といれるかもしれない。

さてプレゼンテーションで行われる壇上の司会者とロボットの会話、と、一般ユーザと製品版ロボットの会話はどう違うのか?その答えは簡単である。一般ユーザは何を語りかけてくるかが予期できない。壇上のロボットは、プロデューサーが最初の質問を発すると、その質問に対して実はあらかじめ用意された選択肢の中の1つを答えているだけである。

◯会話システムと聞いて技術者は何を考えるか?

ここからの話が会話ソフトの本質である。

ロボットの会話機能を開発されたし、という業務をいきなり振られたメーカー系エンジニアは何を考えるか?

まず世の中にライセンスされている音声認識エンジンの使い方を一通りチェックし、適当なサンプルを用いて一問一答をするプログラムを組む。

具体的には、ユーザーが発した言葉が「おはよう」だと認識できたら、ただちにロボットにそのジャンプ先である「おはよう」という挨拶語を発話させる。なかなか面白いじゃないかと上司に言われさらにこれと似た挨拶語の登録を100ほどおこない、本人ももしかしたら面白くなりそうだと期待を持つ。同様に1000回繰り返せば1000の言葉に対応できるじゃないか。そう考え2ー3週間いろいろやってみる。そして途中ではたと挫折する。「これじゃ何の会話にもなってない」と。

次に、一問一答したあとにロボットが話すシナリオを書いてみる。

「おはよう」のあとに、「その日の出来事をニュースサイトから取ってきてご主人と会話をさせては?」と考え、さっそくそれを組み込んでみる。でもやがてそれも挫折する。「所定位置のキーワードが違うだけで話の展開が同じだから、すぐに飽きられてしまう」と。

日々変化させるにはどうすればいい?と考えて、「365日日替わりの『今日は何の日』会話」を思いつく。しかしこれも同様だ。ロボットが一方的に話すだけで、会話にならない。

後輩から「毎日、担当者が書いた新しいシナリオを日々ダウンロードさせて喋り続けさせてはどうか?」という案も出るが、これも連続ラヂオドラマと同じで担当作家が休まず毎日作業しなければならないことに気づく。筆者の実経験値でいうなら、ユーザーに10~15分間の会話を楽しませるために用意するシナリオはその数倍分の原稿を書く必要がある。分岐の数だけシナリオの量が倍々に増えるからだ。こうなるとメーカーととユーザーの根くらべの様相を呈してくる。

いろいろ試してみるが、抜本的な方策が見つからず、ついに上司にこう提言する。

『むかしヒットした、喋る人面魚のゲームを作った人たちに相談してはどうか?』と。

◯なぜメーカーが自ら用意する会話エンジンは機能しないのか?

筆者は過去複数回、大手メーカーのロボットプロジェクトから会話システムの開発を打診依頼された経験がある。これらのプロジェクトに共通していたのは、彼らは予算のほとんどが機械部分の開発に割り当てていたこと。つまりロボットにとって重要な事は二足で歩行する運動能力と判断されていた。製品として世に出たあと、いかにユーザーとコミュニケートするかまでは予算をとってなかったわけだ。だから打診が来たタイミングはほぼローンチが目前に控えた時期で、要するに時間も予算も人材も使い切ってしまい、さあいよいよ、という段になって会話機能が必要だと上層部にいわれ途方に暮れている、といった状態がほとんどであった。コンプライアンスの厳しい大手だからこそ今になって予算を増やすわけにもいかず、どれも引き受けるにはリソースが不足しすぎており、筆者もどれひとつとして引き受けられる条件のものはなかった。悔しかったがすべて断念した。結局クライアント社内のエンジニアがやるしかないとなり、リソースがない分出来がお粗末なのは当然な結果となる。

◯会話AIに必要なのは省略を補完する技術であることに気づかない

さて、どうやったらユーザーとの会話が成り立つか?このときこそが、冒頭に書いた「理解したふりをする技術」の出番である。

結論を先に言うと、口語は文語とは異なる言語体系だということを、義務教育のペーパーテスト環境で育ってきた我れはなかなか気づけない。エンジニアがつくろうとするすべての会話の「つまらなさ」の原因はそこに起因しているのである。

講演会のスピーチを文字起こししたものを読んでも全然ピンとこない、という経験をどなたもお持ちだと思う。口語を文字起こしした読み物はどれも文章としては成り立ってない、いやもはや破綻している、ものが多い。

それでも音で聴くと難なく入ってくるのは、ことばがメロディに乗っているからである。メロディは強調ポイントを表現し、そして間(ま)を持つ。これが文字(文語表現)からは一切削除されている、強力な情報である。

◯わずかな歌詞が、なぜ曲に乗ると感動につながるのか?

短い言葉なのにメロディに乗ると、それが表情豊かになって心に入ってくるのは、間やテンポやメロディが付加されることで、言葉と言葉の合間の省略された部位に、リスナーがイマジネーションをすべりこませ補う行為が生まれる。つまり、間(ま)やメロディが、文字とは別の情報性を付加し、(本来の左脳から)右脳側に入ってこようとするわけである。省略のない論文調の文章だと、相手(のイマジネーション)入り込む余地がないぶん、こうはいかない。

したがって、ロボットメーカーの会話エンジンか担当者が会話エンジンを開発する際に意識しなければならないのは、(省略を大前提とした)口語の構造研究であり、その発想の転換がカギとなる。ちなみに私たちが学校の授業で習った知識はほぼすべて文語である。同じ日本語で構成されているので、その差異に気付くのはなかなか容易ではない。その論法に則って言うならば肯定文を疑問形にするのは、助詞の付加や語順の変換ではなく(疑問系への)メロディの変更である。これが私たちが耳にする口語の原則である。

(例; 「昨日?」「うん、昨日!」)

筆者も「文語文法の呪縛」から離れるのに随分と年月がかかった。日本の義務教育ペーパーテストでのみ通用する「読み書き英語」よろしく、「書かれた文字」で会話セリフを発話させようとする発想・・、これこそ、最初に陥る間違いである。口語と文語は異なる言語であることをエンジニアは自覚しなければ、発話エンジン開発の第一歩を踏み誤るのである。

◯「省略」は人間の怠慢がなせる技ではなく「会話の本質」である

そして、一番の効用、それはこの省略→補完のプロセスそのものが、会話によって意思の疎通が感じられた錯覚をもたらすものだからである。

披露宴の仲人の長いスピーチに欠落しておりお笑い芸人の漫才にはあるもの、それは省略が醸し出すリズム(テンポ)と共感である。築地市場のセリが、はたまた女子高生同士の宇宙語もどきの会話がそうであるように、同胞意識が強力な関係ほど省略が多い。それはなぜか?その補完プロセスそのものが「相手との共感表現」そのものだからである。同胞意識を温床とする「笑い」もそこに芽生える。

相手の省略を補いあいながら、「瓦屋根のように」相手の言葉に依存し、あいづちをいれながら進行する、それが私たちの日常交わしている「会話」であり、論理的であるより、感覚的に通じ合うことが大切になる。

要するに会話で人を魅了するには「ほどよい省略が必要不可欠である」ということだ。

一般的に「省略」は怠慢の産物ととらわれているふしがある。が、それが洗練されていると人々は話術に魅了され会話は弾む。省略なくして主語と述語、目的語をいちいちフルに充填して話していたのではウザくてまともな会話にならない。バスやATMの音声ガイドと、血の通った相手からのセリフ、その違いは、単に言い方の違いではない。”やりとり”がそこにあり、システムはそれを体系だてて組み込む必要がある。もっと具体的に言えば、相手が自分に対して”何を省略したか?”を補完する能力である。これは文語にはまったく存在しない概念である。

◯何がそこに省略されているか?を補完する会話システムとは?

自分が発した言葉であれ、相手が言い放ったセリフであれ、人が発言するときは、そこに残された「言葉の余韻」を前提とする習性がある。したがってエンジニアは、それは直前に発せられたことばを手掛かりとする「余韻引用」による省略を補完するAIを作る必要がある。詳細は申請中の特許などとも関係するのでここでは割愛するが、これが冒頭に述べた「理解したフリをする技術」の概要である。AIが力を発揮して欲しいのはまさしく、この、「省略と補完」であり、内容によってわざと相手をいつもとは違うニックネームで呼ぶことでの感情表現などといった技術だったりする。(シーマンは怒ると例えば相手を名前でなく「オッさん!」と呼ぶ、など)

◯いまだからこそ、シャープに期待すること

今回のロボホンに期待するのは、これまでのロボット会話AIがまったくつまらないものだった歴史に対して「目のつけどころがシャープ」である社風をどこまで体現してくれるか?である。このロボットに搭載される会話機能がどの程度のものかは公式資料には書かれていないが、商品コピーには「ココロ、動く電話。」とある。どこのロボットメーカーも成功していると言い難い中で、その商業的成功の有無の影響は、業界全体に及ぶわけで、ヒヤヒヤドキドキしながらもそこに同業者として、この「ココロ、動く電話。」という、シビれるようなコピーを掲げた新製品の登場に期待を寄せているのである。