実写の動画で見る「スーパー家事ロボット」がスゴい…!洗濯物の折りたたみから、食後テーブルの後片付けまで何でもこなす「驚くべき実力」
人間が体得する自然法則はロボットには難題
モラベックのパラドックスは、私たちが日頃簡単だと思っている仕事が実は意外に高度な作業であることを示唆している。同じ動画の中で、フィジカル・インテリジェンスの家事ロボット「0」は2本の腕でシャツの両端をつまみ、軽く前後あるいは上下に振って皺(しわ)を伸ばした後で器用にたたんでいる。 この作業は「重力」を巧みに応用しており、私たち人間なら誰でも半ば無意識に行っていることだ。人は生まれて成長する間に何年もかけて、これら自然界の法則やその応用方法を身体で学んでいくが、逆に「0」のようなロボットにはそれができない。 あくまでもエンジニア、つまり人間が意識的かつ技術的にそれらの能力をロボットに逐一実装しなければならない。だから私たち人間にとって簡単な日常行為や肉体労働がロボットには難しいのである。 また、これまでのロボット開発では、各々の作業を個別の技術としてロボットに実装してやる必要があった。一口に家事と言っても、洗濯物の折りたたみからテーブルの後片付け、部屋の掃除やゴミ出しまでいろいろあるが、これまでのロボットはそれらのうち「たった一つ」の作業しかできなかったのである。
生成AIの基盤モデルをロボットに応用
それに対し今回の「0」は、1台であらゆる種類の家事をこなす汎用ロボットである。つまりロボット開発における飛躍的な進歩であり、これを可能にしたのが生成AIの「基盤モデル(foundation model)」と呼ばれる技術だ。 具体的には、ChatGPTのベースとなるGPT-4oなど大規模言語モデルの別名が基盤モデルである。それはウェブ上の言語情報を中心に大量のデータを機械学習することで、ほぼあらゆる頭脳労働のベースとなる汎用性を備えている。これを「基盤モデル」として、そこに個別の用途を想定したチューニングを加えることで、ChatGPTは多彩な頭脳労働をこなせるようになったのだ。 一方、家事ロボット0の開発では、さまざまな運動や肉体労働のモーション・ピクチャなど大量の映像データを中心に機械学習することでロボット版の基盤モデルを実現している。だからこそ1台のロボットでいろいろな家事をこなせるようになったのである。 ただしフィジカル・インテリジェンスの関係者によれば、それら機械学習用のデータ量は未だ不十分であるため、現在の0は長い目で見れば汎用ロボット開発における初期段階にあるという。つまり0の基盤モデルは、ChatGPTの基盤モデルにたとえれば(2018年にOpenAIが開発した最初期モデルである)「GPT-1」のフェーズにあるという。 逆に言えば、それらロボット用の機械学習データを今後どんどん増加させていく、それによって0から1、2、3、4…と進化していく中で、その肉体労働の能力はさらなる汎用性を育むと同時に、より高度で複雑な作業も可能になっていくと推測できる。