物理世界での生成AI利用に向けた取り組み最前線、グーグルは人工データでロボットの動きを改善する仕組みを開発
ロボットに豊かな表現力を与える研究も
グーグルはこのほかにも、生成AIを活用しロボットに感情を与えるプロジェクトにも関与している。トロント大学、グーグル・ディープマインド、ホク・ラボの研究チームが発表した「GenEM(Generative Expressive Motion)」と呼ばれる技術だ。 GenEMは、LLMに含まれる豊富な社会的文脈を利用して、ロボットの動きに表現を加える仕組み。従来の手法は、ルールベースやテンプレートベースのシステムを用いるもので、柔軟性に欠ける弱点があった。これに対しGenEMは、LLMを使用したコンテキスト理解、またそれに基づく適切な表現の選択により、ロボットの表現の柔軟性を大幅に上げることに成功した。 GenEMは以下のようなプロセスで、ロボットを表現豊かにする。 まず、たとえば「通りがかりの人があなた(ロボット)に手を振っている」といった状況を記述し、システムに入力することができる。これらの入力に対し、大規模言語モデル(LLM)が人間らしい反応を推論し、どのような反応が(社会的に)適切かを考える。 次に、別のLLMが、この人間らしい反応をロボットが実行可能な具体的な動作に変換する。たとえば、「うなずく」という人間の動作を、ロボットの頭部を上下に動かすという具体的な指示に変える。また「笑顔」のような表情は、ロボットの前面ディスプレイに特定の光パターンを表示するなどで表現することが可能だ。 研究チームによると、GenEMは様々な種類のロボットに適用可能で、人間からのフィードバックに基づいて動作を調整できるという。さらに、ユーザー評価では、プロのアニメーターが作成した動作と同程度の理解しやすさだったと報告されている。 この技術により、ロボットとのコミュニケーションがより自然で効果的になる可能性がある。介護ロボットが患者の表情を読み取り適切に反応したり、カスタマーロボットがより親しみやすい態度で接客したりすることが可能になるかもしれない。
文:細谷元(Livit)