ロボットに自ら考える力を。エンボディドAI技術「X Square」、世界最大スケールの基盤モデルを開発
人工知能(AI)に身体性を持たせた「エンボディドAI」の開発に取り組む中国のスタートアップ「X Square(自変量機器人)」はこのほど、立て続けにプレシリーズAで総額約1億元(約20億円)を調達した。徳聯資本(Delian Capital)や基石資本(Costone Capital)、既存株主の九合創投(Unity Ventures)などが参加した。資金は次世代エンボディドAIモデルの訓練と実用化に充てられる。 X Squareは2023年12月に設立され、エンボディドAIの基盤モデルの開発に注力している。24年4月初めには2回にわたるエンジェルラウンドで数千万元(数億円超)を調達したばかり。 創業者の王潜CEOは清華大学を卒業し、世界で最も早くニューラルネットワークに注意機構(attention mechanism)を取り入れた研究者の1人だ。米国トップクラスの研究室で多くのロボットラーニング分野のプロジェクトに参加した経験を持ち、ロボットの最先端分野を研究している。共同創業者の王昊CTOは北京大学でコンピュータ物理学を学んだ博士で、IDEA研究院では大規模言語モデル(LLM)「封神榜」開発チームでアルゴリズムの責任者を務め、中国初のマルチモーダルオープンソースLLM「太乙」を発表した。 LLM技術の発展でロボットが強力な「頭脳」を持つようになり、知覚や理解、タスク計画の汎化能力が向上した。 しかし世界中を見回しても、物理世界で複雑な操作をこなすという課題を解決することのできる汎用型AIは未だ誕生していない。これまでのロボットは特定のシーンやタスクに基づき開発されたもので、環境やタスクの変化に合わせて自律的に対処することは難しかった。長期的に考えると、“脳”となるモデルの汎化性が十分でなければ、エンボディドAI量産化の妨げになってしまう。 王潜CEOは、エンドツーエンドの統一モデル、つまり高度な汎化性を備えた汎用型エンボディドAIを訓練することが、現時点での最適解だと指摘した。 特定のタスクやシーンに特化した垂直型モデルと比べると、汎用型エンボディドAIはタスク汎化性のおかげで、開発者が新たなタスクごとにモデルをゼロから訓練する必要がなくなった。モデルのファインチューニングに必要な訓練データ量は減り、完成したモデルはタスクや環境に応じて自ら考えて対応を調整することができる。 X Squareが開発したロボット向け汎用型AIモデルのプラットフォームは、マルチモーダルLLMとロボット制御モデル、ロボット本体を組み合わせたものだ。同社は設立からモデルのアップデートを急ピッチで進め、わずか2カ月で初代のエンボディドAI向けモデルの訓練を完了、野菜を切ったり水を注いだりするような複雑で手順が多いタスクを実行できるようにした。2024年には、特定のタスクについてフューショット学習(AIに少量のデータで効率的に学習させる手法)を施したり、異なるタスク間で転移学習したりする能力が出現している。 X Squareは最近、世界で最大のパラメータスケールを持つエンボディドAI向けの基盤モデルとして、「Great Wall」シリーズの「WALL-A」モデルを完成させた。このモデルは複数の要素について最先端のレベルに達したと紹介されている。 *1元=約21円で計算しています。 (翻訳・36Kr Kapan編集部)