4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
さまざまなテストでGPT-4を超える、Anthropicの新型LLM「Claude 3」
Anthropicが新たに発表した「Claude 3」は、大規模マルチモーダルAIモデルファミリーの最新版です。Claude 3ファミリーには、最も高性能な「Opus」、性能と速度のバランスが取れた「Sonnet」、最も高速かつ低コストの「Haiku」の3つのモデルが含まれています。いずれのモデルも画像処理・分析機能を備えたマルチモーダルモデルとなっています。また、英語以外の言語での流暢さも向上し、グローバルな利用シーンに適したモデルとなっています Claude 3は数学、コーディング、長文処理、マルチモーダルタスクなどのベンチマークで高い性能を示し、新たな基準を打ち立てました。HaikuはClaude 2と同等以上の性能を純粋なテキストタスクで発揮し、SonnetとOpusはそれを大きく上回りました。特にOpusは、GPQA、MMLU、MMNUなど多くの評価で最先端の結果を達成し、多くのタスクでGPT-4と同等以上の性能を示しました。 知識のカットオフは2023年8月で、一般ユーザー向けのClaude.ai、Claude Proや、企業向けのAnthropic API、Amazon Bedrock、Google Vertex AIなどで提供します。Claude 3モデルは、少なくとも100万トークンに及ぶ長大なコンテキストを扱えるといいますが、実際の製品としては20万トークンまでのコンテキストウィンドウが提供されます。
画面を見てキーボードとマウスを自律的に操作するAI「CRADLE」、トリプルAタイトルで実証
CRADLEは、汎用人工知能(AGI)の実現に向けて、コンピュータを人間のように操作できる汎用AIエージェントを開発するためのフレームワークです。画面の画像とオーディオを観測として受け取り、キーボードとマウス操作を出力として生成することで、どのようなコンピュータタスクもマスターできるエージェントの構築を目指します。 CRADLEフレームワークは、情報収集、内省、タスク推論、スキルキュレーション、アクション計画、メモリの6つの主要モジュールで構成されており、これらが連携することで、複数モダリティの情報を理解し、過去の経験を振り返りながら、タスクに関連する最適なスキルを生成・更新し、具体的なキーボード・マウス操作を計画することができます。 CRADLEフレームワークを複雑なAAAゲーム「Red Dead Redemption II」(RDR2)に適用し、ゲーム内のAPIやステータスにアクセスせずに、画面の画像のみを観測として使用し、キーボードとマウス操作を出力としてゲームを制御しました。 事前知識やリソースへの依存を最小限に抑えつつ、チュートリアルから学習し、家の探索、武器選択、乗馬、戦闘など、多様なタスクを自律的にこなし、初心者プレイヤーが40分程度かかるメインストーリーのミッションを完了しました。また、キャンプから町の雑貨店まで移動し、物資を調達するオープンワールドでのミッションも実行しました。
山下裕毅(Seamless)@TechnoEdge
【関連記事】
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
- 複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久)
- 「春はあけぼの、YOYO白くなりゆく」をSuno AI作曲でラップにしてみた。清少納言が現代に生きていたら枕草子をどう歌っただろう(CloseBox)
- ゲーム内の「村人のセリフ」をChatGPTで大量生成する方法(第1回)。RPG村人が住む世界を作るまで