みんな感じている「じつはわかりづらい」生成AIの使い道…ビッグテックが爆走中の「使いやすさ向上レース」と沈黙するアップルの「次の手」
「Project Astra」とはなにか
Googleが「将来のAIアシスタント向け技術」として発表したのが「Project Astra」だ。 これは、簡単にいえば「音声と画像によってAIと人間が対話する」技術だ。人間が語りかけた言葉に合わせて、AIが映像に映っている内容を把握し、対話を成立させる。 詳しくは、以下のデモ動画を見るのが近道だろう。印象として、前出のGTP-4oでのデモに近いものを受けるのではないだろうか。
「黄色いバスのジョンですね」
Project Astraは開発中の技術であるが、Google I/Oでは実際に試すことができた。 デモはタッチパネル付きのPCにヘッドホンをつなぎ、上からカメラでテーブルを撮影する形でおこなわれていたのだが、体験できたのはいくつかの簡単なゲームだった。 たとえば、上記の動画にも含まれている「画像の内容把握」。画面に描いた絵についてAIと話していき、描いたものがなにかを当てる。 写真の例の場合、「橋っぽいもの」「これはランドマーク」という情報から、「ゴールデンゲートブリッジである」と回答した。 ちょっとしたクイズもできた。 いくつかのおもちゃを用意し、順番にカメラに見せながら「これはジョン」「これはポール」と名前をつけていき、「ところで最初に見せたものの名前と色は?」と聞くと、「黄色いバスのジョンですね」とAIが答える……という形だ。 素早く自然な音声で応答するだけでなく、一連の問いの中での会話の順番や要素を記憶しておき、人間と自然な対話を目指していることがわかるだろう。
OSと連携して進む「オンデバイスAI」搭載
Googleとマイクロソフトに共通するのは、どちらも「OSを持っている」ということだ。Googleには「Android」があり、マイクロソフトには「Windows」がある。 オンデバイスAIを活用するには、2つの要素が必要になる。 1つは、AIの推論処理に向いたハードウエアを搭載していること。2つめは、それを活用するフレームワークを用意することだ。 AI処理には相応の性能が必要だ。CPUはその種の処理には不向きで、一般的にはGPUが使われる。しかし、AIの学習ではなく、使う側の処理である「推論」に関していえば、GPUも効率面で最適とはいいがたい。 そこで出てくるのが「NPU」というしくみだ。NPUとはなにか。