物理世界での生成AI利用に向けた取り組み最前線、グーグルは人工データでロボットの動きを改善する仕組みを開発
ロボットと生成AIの融合、その契機
FigureのFigure 02やテスラのOptimusなど、周辺環境に応じて複雑なタスクをこなすことができるロボットの開発が活発化している。Optimusに関して、イーロン・マスク氏は2025年までにテスラの主要工場で1,000台以上を配備する計画を明らかにしており、今後数年以内には、人型ロボットの実用化/普及が始まるものとみられている。 こうした最新ロボット開発の背景にあるのが生成AIだ。特に、グーグルが2022年8月に発表した「SayCan」プロジェクトが大きな契機になったといわれている。 SayCanの革新性は、大規模言語モデル(LLM)の意味的知識を活用し、ロボットがタスクについて推論し、それを達成するための一連の行動を決定できるようにした点にある。ここでいう「意味的知識」とは、LLMが大量のテキストデータから学習した言葉の意味や概念間の関係性、世界に関する一般的な理解を指す。たとえば、「コップ」と「飲む」の関係、「重い」と「軽い」の違い、「キッチン」にあるものの種類などの知識が含まれる。 グーグル(2022年8月16日)の発表によれば、SayCanは「言語モデルの知識を活用して、物理的に実行可能なタスクに対して高レベルのテキスト指示に従うことを可能にする」アプローチだ。つまり、SayCanは人間が与えた抽象的な指示を、LLMの意味的知識を用いて解釈し、ロボットが実行可能な具体的な行動手順に変換する。これにより、ロボットは複雑な指示を理解し、適切な行動を選択できるようになる。 たとえば「運動後に回復のためのスナックと飲み物を持ってきて」という指示に対し、SayCanは以下のような処理を行う: 1. LLMの意味的知識を使用して、「運動後の回復」に適したスナックと飲み物の種類を理解する(例:バナナやプロテインバー、水や電解質飲料など)。 2.環境内で利用可能なアイテムと照合し、最適な選択肢を特定する。 3.アイテムの位置を把握し、取得するための移動経路を計画する。 4.物体をつかむ、運ぶなどの具体的な動作シーケンスを生成する。 このように、SayCanはLLMの意味的知識を活用することで、人間の高レベル/抽象的な指示をロボットの具体的な行動に変換し、複雑なタスクの実行を可能にしている。 SayCanの登場以降、ロボティクス分野における言語モデル/ビジョンモデルの活用を模索する動きが活発化、さまざまなプロジェクトが立ち上がり、現在ではFigureやOptimusがその可能性を体現する存在となっている。