生誕から20年、シーマンはAIになり得るのか?

1999年7月29日に発売されたゲーム「シーマン」

今から20年前の今日、「シーマン」というゲームが発売された・・・

1999年7月29日、世界で初めての音声認識を使った会話型ゲーム「シーマン~禁断のペット~」がセガから発売になってちょうど20年が経つ。そんな明日にこれまで開発に没頭してきた、自律型会話エンジンのプロトタイプを発表しようと思い立った。 その発表を控え、これまで会話ゲームの開発を通じてどんなを体験してきたか?そこからどんな発見をし、どんな成果としてきたか?についてお話ししたいと思う。

画像

耳に入る言葉には二種類ある。

私たちの耳に入ってくる言葉には大別して2種類ある。1つは情報として耳に入ってくる言葉、そしてもう一つは自分に向けられた言葉。この二つは似て全く異なるもので、テレビやDVDから流れてくる音は全て前者となる。そこに出てくる演者らはあなたのことを認識していないし、そこで語られる内容はあなたに対して向けられたものではない。こういうものはうつらうつら聞いてていい。ところが日常生活ではそれとはことなる種の言葉がある。それは、命令であったり、質問であったり、あるいは、相槌を求めるものであったり、とにかく、「あなた」に向けて放たれた言葉であり、アナウンサーが読み上げるニュースのようにぼーっと聞き流すわけにはいかない。「受け手」として何か反応行動が求められるからだ。

ドラマに出演している役者さんには1つのルールがある。それはカメラを見てはならないと言うこと。フィクションの世界には、観客やカメラは存在してはならないのだ。しかしシーマンは個々の観客(ユーザー)の性別や年齢を聞き出し、テレビの中から話しかけてくるキャラクター、つまり慣例の"逆"をする禁忌のゲームキャラとして作られた。そしてサブタイトルは~禁断のペット~となり、態度は常に、「上から」となった。

都庁からの電話

シーマンがブームになってしばらくした、2000年あたりに当時の石原都知事がITの視察の一環で当時流行っているゲームを一通りご覧になられるというイベントがあった。その中にこの「シーマン」があり、若手のスタッフが知事の前でデモを行ったのだった。そのイベントから一ヶ月ほど経過したある日、都庁からうちの会社に一本の連絡が入った。

その内容は、年に1度石原都知事が浩宮殿下とお会いし都政のご報告をする会があるそうで、その年には知事が「シーマン」の話をされた、とのこと。そして数日後に、東宮御所から浩宮殿下が「シーマン」をご覧になりたいというご連絡が都庁に入り「ついては再度デモの準備をしてほしい」というものだった。その日から、代表者の経歴書を、だとか、ゲームサンプルを何セット送られたし、など、都庁とてんやわんやの日々が始まったのだが、そのきっかけである知事の直感力にびっくりしたものだった。

画像

日本語に二人称がない?

ところがそんなやりとりが続いたある日から突然、都庁からの連絡が疎となりはじめた。明確な理由は知らされない。関係者たちはきょとんとするしかなかったが、私には思い当たることが1つあった。それは、「シーマン」というキャラが、ユーザのことを、「お前」と呼ぶことだった。個人の憶測だが、「まさかこんな呼び方をするゲームなぞを殿下にしていただくことなどできない」と判断がどこかで働いたのではないか。いづれにしても真実は確認のしようがない。

さてここからが本題だ。このゲームキャラに、ユーザーのことを「おまえ」と呼ばせるに至ったには、理由がある。その理由とはなにか? この理由こそが、以降、日本語の特殊性の象徴として私の頭を悩ませ続けることになる。それは、日本語には、目上の人に対する二人称代名詞がない、からである。「”あなた”があるじゃないか」という人がいるかもしれない。しかし日本社会の日常において日本人は、敬意を示す相手に「あなた」と呼ばないし呼べない。目上の場合、多くは「遠藤さん」とか、「部長」と三人称のように呼ぶことでやり過ごす。「あなた」と呼ぶ際には「なんとも説明のつかない失礼さ」が発生する。いずれにしても、当時の家庭用ゲーム機には「遠藤さん」のように固有名詞でユーザーを呼ばせるための容量はあるはずもなく、結局、当時私が選んだのは、「おまえ」という、日本で最も使われている、”上から表現”だったというわけだ。

ゲームはAIに進化できるのか?

さて、ここ最近の3-4年間ほど、最先端の人工知能研究を行う研究者や開発者の方々から取材依頼や面会打診があった。みなさんが異口同音に聞きたがるのは「どうやって90年代当時に、あそこまで高レベルな人工会話が可能だったのか?」ということだ。

実のところ、最初のバージョンのシーマンの会話には、大した技術など使われていない。膨大な会話の分岐と組み合わせ。それらを当時若かりし開発スタッフが丹念に組み上げてくれた賜物にすぎない。無理なことはしない、という哲学がなかったらこの開発プロジェクトは終わらなかったに違いない。人工知能などという大胆な試みなどそこにはなく、ただ世の中をびっくりさせたいという情熱が実現させたものだった。

「会話の主導権」を取る必要があったシーマン

シーマンがあたかも話を理解しているかのように思わせた裏には、ただしいくつかのトリックがある。その一つに、ゲームキャラが会話の主導権を取るという手法があった。ユーザーを答えを"選択"させる側に回してしまうのである。具体的に例えるならば、「お前、年齢は何歳?」という質問がそれに当たる。先にこう発話してしまうことで、ユーザーの発言を絞り込んでしまうのだ。開発側はそれを先読みして回答候補リストを作って入れておけば、Hit&Go、つまり回答に呼応したプログラムがあたかも理解しているかのように会話を進められる。

このように、ロボット側が会話の主導権を取ることで、選択肢型の会話へと誘導することができる。街で見かける”人型会話ロボット”は、ほぼこのスタイルだ。しかし厳密にいうと、これはAIでもなければ自律型会話でもない、ただ人が用意したシナリオを順次読み上げている再生機のようなものとなる。会話のパターンが決まってしまう。

目処が立っていないままの日本語会話

最近の話にもどる。訪れてくれる日本の人工知能研究者たちと話すたび、日本語の人工会話の自動化の水準が今どの辺りにいるのか?のといった近況の理解を深めることができたのは、その分野を離れていた私にとってこの上なく興味深い体験となった。わかってきたのは、日本語は文法が複雑かつ曖昧で、省略も多いため、その解析と記号化に苦戦している日本陣営の姿だった。とうに時代遅れの長物になっていると思い込んでいた経験値や知見が、むしろ、いま最もゴールの近くにある手法の仮説たりえるかもしれない、とこの時に思えてきた。すでにシーマンから20年近く経ったいるのだから、本来そこにあるべきなのは、シナリオ型ではなく、人間の発した言葉に対応して会話をする「待ち受け型」ということになる。いま巷に売られているスマートスピーカーはこのタイプである。ただしまだここには大きな課題が残っている。会話が一問一答なのだ。これでは、人間同士の会話のような「文脈」がまるで宿らない。記憶のない一問一答は「会話」とは呼ばない。文脈が宿らない会話に感情も芽生えてこない。今の時代に求められているのは、おのずと「文脈のある待ち受け」型の会話エンジン。それが目標ということになる。

文法がないままの日本語口語

私は、周囲の知人の出資を募り、「シーマン人工知能」なる研究所を立ち上げた。シナリオがなくても人と話を続ける「自律型会話エンジン」の開発がその目的である。私には、20年間実験を重ねてきたいくつかの「仮説」があった。それは日本語という奇妙な言語が持つ、一筋縄ではいかない、複雑でデリケートな言語をコントロールするための秘策だ。例えば欧米型の言語では、単語と単語の間に、半角スペースがあるので、単語の定義は明確だ。しかし漢字と平仮名が互いを補完するようにくっついている日本語文法では、単語の定義が曖昧だ。「めっちゃ疲れているんだけどさ。」が何ワードなのか、いまだにはっきり言えない。単語の定義が曖昧では、ビッグデータでプログラムに学習させようにも、あるいはその出力として言葉を自動生成させようにも、将棋で言うところの「棋譜」がなければ、機械学習すら危うい。こと口語では、文法策定がほとんど諦められている状態だ。メーカー開発者には「GAFAが何かやってくるはずだ」と言う雰囲気だけが蔓延していた。だったら口語の「棋譜」を作ってしまってはどうだ、と私は考えるようになった。

進化したシーマンはAIになり得るのか?

そして開発を初めて三年になる今年の7月30日、とても小さなイベントであるが、渋谷の会場にて来場者の前で初めてそれを披露する準備を進めているが、それは「待ち受け型」かつ「文脈」が宿る会話、つまりまさに「シーマンの進化系」だ。20年前は小学生だったという、現在の若きスタッフたちは週末を返上してその最終調整をしてくれている。僕はというと20年前のスタッフたちの熱量と同じ空気を隣室にて感じながらこの記事を書いている。明日がどんな日になるのか、期待と不安で体が震える。