生成AIが自動運転がもたらす新たな可能性とは? 人間にしか対応できなかった「未知の状況」への挑戦
マルチモーダルLLMによりAIが自ら判断を下す
自動運転時に人間の「常識」を再現することは、過去10年間にわたって業界の大きな課題であり、根本的なアプローチの変更が必要とされてきた。最近の言語領域でのAIの進歩により、ようやく解決策が見つかりつつある。 大規模言語モデル(LLM)は、ChatGPTなどのチャットボットの背後にあるテクノロジーで、人間の言語を理解し生成する優れた能力を発揮する。この能力は、様々な領域にわたる膨大な量の情報でトレーニングされたことによるもので、人間の持つ常識も習得が可能になったという。 最近では、GPT-4oやGPT-4o-miniなどのマルチモーダルLLM(テキストだけでなく画像、音声など多様な形式に対応)が登場し、言語と視覚を組み合わせた、より拡張的な知識と推論能力の獲得が可能になっている。 これらのモデルは、複雑な未知のシナリオを理解し、自然言語による説明を提供し、適切なアクションを実行することができる。これを自動運転に活用すれば、カメラや各種センサーから集めたデータを元にAI自体が状況を判断し、アクセルやハンドルの操作など適切だと思う運転動作を行うことができる。 これは従来の「○○の場合はXXと行動する」と予め設定された膨大なルールの中から現在の状況に当てはまるものを探す、というアプローチとは大きく異なり、AI自身が直接判断をする。そのため、未知の状況に直面しても、AIが過去に別のケースで学んだことを応用し、自ら対処することが可能になるのだ。
英Wayveは対話も可能なLLM型自動運転システムを開発
現在自動運転の分野では、マルチモーダルモデルを使用して、カメラや各種センサーから運転状況を解釈し、モーターをどのように動かすか決定するという基礎研究に注力している。たとえば「私の前に自転車がいて、減速し始めている」というインプットに対し、どのような意思決定プロセスがとられたかを洞察するのだ。 イギリスの自動運転スタートアップWayveが手掛ける、マルチモーダルLLMによる自動運転システムLINGO-2では、自動運転を行いながら、その運転行動を言語情報として出力する。そしてなぜその行動を選択したのかという理由も説明することができる。この説明と意思決定プロセスをモデルのトレーニングに組み込むことで、未知のシナリオを処理するためのより効率的な学習も可能になるという。 さらにLINGO-2は、自動運転中に周囲の環境や運転操作についての質問に答えることができる。たとえばユーザーが「今何か前に障害物がある?」と尋ねると、LINGO-2は「はい。自転車が前にいます。そのため減速しています」と回答する。 これは乗客が自然言語によって自動運転システムと対話するという新しい可能性を示している。 WayveのLLMによる自動運転システムには世界の大企業からも注目が集まっており、2024年5月には、ソフトバンクグループ主導で、シリーズCとして10億5,000万ドルもの資金調達を実施。マイクロソフトやNVIDIAも出資者に名を連ねている。