GoogleとOpenAIの争いは激化必至か 2024年注目の生成AIトレンド4項目
2023年は、「ChatGPT」をはじめとした生成AIが急速に普及した年であった。その普及のスピードは、スマートフォンやSNSといった過去のITトレンドを凌駕するものであった。こうした生成AIの勢いは、2024年も続くのであろうか。この疑問に対して本稿は、現状の生成AIにまつわるトレンドを4項目挙げたうえで、それらを考察していきたい。 【画像】4Dモデルを生成できる「Align Your Gaussians」 3Dモデルに「モーション」を追加することで4Dとしている ■二大LLMプラットフォームの台頭 GPTとGeminiのつばぜり合い 2023年の生成AI市場は、ChatGPTを提供するOpenAI社がけん引していたと言っても過言ではないだろう。同社は2023年3月にGPTシリーズの最新モデルである「GPT-4」をリリースし、同年11月には画像認識機能を標準実装した「GPT-4 Turbo」と、開発者が自作のGPT活用アプリを販売できる「GPT Store」構想を発表し、2024年1月10日には同ストアを立ち上げた。こうして同社は、LLM(Large Language Model:大規模言語モデル)を基盤にした「LLMプラットフォーム」を構築する第一歩を踏み出したのであった。 GPT Store構想が発表された翌月の2023年12月6日、GoogleはGPT-4に対抗する最新LLM「Gemini」(「ジェミナイ」と発音する)を発表した(※1)。同モデルはテキスト、画像、音声、プログラミング言語のコードなどの入出力が可能なマルチモーダルLLMとして開発され、性能が高い順に「Gemini Ultra」「Gemini Pro」「Gemini Nano」と3つのバージョンが用意された。Gemini Nanoは性能こそ上位2バージョンに劣るものの、演算性能に制限があるスマホなどでの活用に最適化されている。 Gemini Ultraに関しては、「MMLU」(数学や医学を含む57の科目に関してLLMの知識と問題解決能力をテストするベンチマーク)で90.0%の正答率を実現した。この性能は、同テストで86.4%の正答率を記録したGPT-4を凌駕するものである。 このGeminiは、発表日より英語版のBard(Googleが開発したチャットAI)を駆動するコアとして活用され、さらには同社が開発するAndroidスマートフォン『Pixel 8 Pro』の新機能にも導入される。またBardは2023年12月19日よりGmailやGoogleドキュメントをはじめとするGoogle製品と連携するようになった(※2)。このようにしてGoogleは、「Geminiプラットフォーム」と呼べるような新たなLLMプラットフォームを着々と構築している。 2024年の生成AI市場は、OpenAIが運営する「GPTプラットフォーム」と、Googleが立ち上げつつある「Geminiプラットフォーム」が激しく競り合うことになるだろう。こうしたつばぜり合いは、Appleの「App Store」とGoogleの「Play ストア」(立ち上げ当初の名称は「Android Market」)が2008年に立ち上がってスマホアプリ市場が誕生して今日に至っているプラットフォーム競争史に、新たな1ページを記すものになるかも知れない。 LLMプラットフォームの競争は、性能面ではGeminiがやや有利のように見える。しかしながら、OpenAIは2024年に“大きな発表”をおこなう可能性を示唆しており、その内容にも注目だ。 2023年12月24日、同社CEOのサム・アルトマン氏はXのフォロワーに対して、「2024年に同社に開発して欲しいもの」を尋ねた。寄せられた回答には「GPT-5」や「動画生成」などがあったのだが、そうした回答を受けて同氏は「(フォロワーの回答を)読み続けていますが、できる限りのことをみなさんに届けていきます(そして、ここでは触れていない、私たちが楽しみにしていることもたくさんあります)」とポストしたのだ。このことから、同社が2024年に何らかのサプライズを用意していることがうかがえる。 ■LLMアプリのカンブリア爆発 アプリの多様化に関わる3つのキーワード 前述したように2024年は、二大LLMプラットフォームが熾烈な競争を繰り広げると予想される。この競争から多種多様なLLMアプリが誕生することは、想像に難くない。2024年は、「LLMアプリのカンブリア爆発」が起こった年として記憶されることになるだろう。 LLMアプリの多様化を考察するうえで重要なキーワードを挙げるならば、「マルチモーダル」「AIエージェント」「AutoGen」の3つがある。1つ目の「マルチモーダル」は、テキストや画像といった「カテゴリーの異なる情報」を統合して処理できるAIの能力を意味している。 このカテゴリーの初期のアプリ事例には、GPT-4を使った「Be My Eyes」がある。弱視のユーザーのために開発されたこのアプリは、たとえば冷蔵庫の中を撮影すると食材を認識し、おすすめのメニューを提案するといった活用が可能だ。 そのほかにもマルチモーダルLLMアプリで実現できるタスクは、無数に考えられる。たとえばクローゼットの中にある衣服を撮影するとおすすめのコーディネートを提案したり、Webページのデザイン画像を入力するとそのデザインを実現するHTMLコードを出力したりするアプリが今後普及するだろう。 2つ目のキーワードである「AIエージェント」とは、何らかのタスクを自動的に実行するLLMアプリを指している。LLMアプリの始祖とも言えるChatGPTは、「自然言語で入力した質問に答えてくれるAI」であることは周知のとおりである。 実のところ、同アプリは質問に答えるだけではなく、たとえば「以下に入力した英語を翻訳して」といったような自然言語で指示したタスクも実行できる。こうしたLLMのタスク遂行能力を利用するのが、AIエージェントである。2024年は、AIエージェントによる各種業務の自動化が進むだろう。 3つ目の「AutoGen」とは、人間であるユーザーとAIエージェントのコラボレーションを可能とするフレームワークである。このフレームワークの開発に関わったMicrosoftリサーチは、AutoGenの活用事例を解説したウェブページを公開している(※3)。 そのページで図解されている事例には、AIエージェントが進行役(以下の画像では「Manager」)を担当するチャットミーティングがある。こうしたミーティングでは、AIエージェントに発言の要約や、過去の発言の検索を頼めるようになるだろう。またAutoGenを活用すれば、AIエージェントをゲームマスターにしたマルチプレイTRPGのような、新たなエンタメLLMアプリが誕生するかも知れない。 ■クリエイティブ現場での活用が進む「グラフィックAI」の進化と普及 2022年に台頭した画像生成AIは、賛否を受けつつも2023年には「AI美少女」に代表されるようにデジタル文化の一部にすっかり定着した。その流れを汲んで、2024年には動画や3Dオブジェクトを生成するグラフィックAIが普及すると予想される。 動画生成AIに関しては2023年6月に「Runway Gen-2」が公開され(※4)、同年11月には「Pika」正式版も公開されたように(※5)、着々と利用環境が整いつつある。2023年12月19日には、Googleが「VideoPoet」を発表した(※6)。既存の動画生成AIの技術的基盤には拡散モデルが使われているのだが、VideoPoetにはLLMが活用されている。こうした技術革新により、VideoPoetはより一貫性のある動画を生成できるようになった。YouTubeにはVideoPoetを活用した短編動画が公開されているが、こうしたテキストのみから生成された動画が2024年には大量に発表されるだろう。 3Dオブジェクト生成に関しても、2023年には大きな進歩があった。同年にはテキスト入力や1枚の画像から3Dオブジェクトを生成するAIの研究がさかんに行われていたのだが、年末には4Dオブジェクトを生成する技術である「Align Your Gaussians」が発表された(※7)。この技術を使うと、テキスト入力によって3Dオブジェクトをモーション(動作)付きで生成できる。モーションという次元が付加されるので、4Dオブジェクト生成というわけである。こうした技術は、インディーゲーム開発やメタバースコンテンツ制作の現場において活用が進むだろう。 2023年11月末から12月はじめにかけては、動画生成AIの新たなカテゴリーとして「ダンス生成AI」があいついで発表された。TikTokの開発元であるByteDanseらの研究チームが発表した「MagicAnimate」(※8)は、人物を撮影した静止画とダンスを撮影した動画を入力すると、静止画の人物がダンスする動画を出力するというものだ。中国のオンラインマーケット企業最大手であるアリババグループ、その傘下の研究所が発表した「Animate Anymore」(※9)は、アニメキャラクターがダンスする動画を生成できる。2024年には、こうしたダンス生成AIを活用した動画がSNSでシェアされるようになるだろう。 ■普及に伴う懸念への対策も進む 「電子透かし」の国際規格が誕生か 生成AIの普及に伴って懸念されるようになったのは、偽情報や偽画像といったフェイクコンテンツの拡散をはじめとする新たなリスクの発生である。こうしたリスクへの取り組みも、2023年に大きく前進した。同年5月に広島で開催された『G7広島サミット』では、生成AIリスクに取り組む国際的枠組みとなる「広島AIプロセス」が設立された。そして、11月にはイギリスのブレッジリー・パークにおいて『第1回AI安全サミット』が開催され、あらためて生成AIリスクに対する国際協調体制が確認されるとともに、2024年に韓国とフランスでAI安全サミットが開催されることも決定した。 広島AIプロセスの進捗に合わせて、主要各国は自国向けのAI安全策を発表している。例えばアメリカは2023年10月に生成AIに関する大統領令を発令している(※10)。この命令では、「AGI(Artificial General Intelligence:汎用人工知能)」の開発につながるような“もっとも強力なAIシステム”の開発については、アメリカ政府と情報共有することを義務づけている。 2023年12月には、欧州議会でEU加盟国を対象とした「AI規制法」(※11)について政治的合意に達した。同法ではAIによるなりすましの禁止、任意のコンテンツがAI生成物であることを開示する義務等を定めている。そして、同法に違反した企業には罰金の支払いを命じるという厳しい内容となっている。 日本の生成AIガイドラインについては、内閣府が主導するAI戦略会議が策定中である。第7回の同会議では「AI事業者ガイドライン案」が提出され、同案にもとづいた正式版のガイドラインが2024年3月に公開予定であることも確認された(※12)。同ガイドラインは、さまざまなAIリスクを低減する施策をAI事業者にうながす内容となっている。 情報が瞬時に世界中へと共有される現代においては、偽情報と偽画像などのフェイクコンテンツに対して、国際的に協調して対処することが不可欠となる。主要AI各国のあいだではAI生成画像であることを確認できる“電子透かし”の国際規格を策定することで足並みを揃えており、2024年には何らかの進捗が期待されている。前述の韓国とフランスで開催されるAI安全サミットでは、この取り組みに関する大きな成果が発表されるかも知れない。 以上のように、生成AIは2024年においても技術的に大きく進歩すると同時に、活用されるフィールドがますます広がると予想される。こうしたポジティブな側面がある一方で、フェイクコンテンツをはじめとする生成AIリスクはより我々にとって身近なものとなるだろう。こうしたネガティブな側面については、生成AIがもたらすリスクを正しく認識して対処するための知識、今後一般常識となりうるであろう“生成AIリテラシー”の確立と普及が有効なのではないだろうか。 (※1)Google US Blog「Introducing Gemini: our largest and most capable AI model」 https://blog.google/technology/ai/google-gemini-ai/ (※2)Google Japan Blog「Bard が マップ や Gmail, YouTube などの Google のサービスと連携」 https://japan.googleblog.com/2023/12/bard1pintegration.html (※3)Microsoft Research Blog「AutoGen: Enabling next-generation large language model applications」 https://www.microsoft.com/en-us/research/blog/autogen-enabling-next-generation-large-language-model-applications/ (※4)runway Research「Scale, Speed and Stepping Stones: The Path to Gen-2」 https://research.runwayml.com/scale-speed-and-stepping-stones-the-path-to-gen-2 (※5)PIKA「ANNOUNCING PIKA」 https://pika.art/launch (※6)Google Research「VideoPoet: A large language model for zero-shot video generation」 https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html (※7)NVIDIA Toronto Lab「Align Your Gaussians:Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models」 https://research.nvidia.com/labs/toronto-ai/AlignYourGaussians/ (※8)ByteDanceほか「MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model」 https://showlab.github.io/magicanimate/ (※9)Institute for Intelligent Computing「Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation」 https://humanaigc.github.io/animate-anyone/ (※10)THE WHITE HOUSE「FACT SHEET: President Biden Issues Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence」 https://www.whitehouse.gov/briefing-room/statements-releases/2023/10/30/fact-sheet-president-biden-issues-executive-order-on-safe-secure-and-trustworthy-artificial-intelligence/ (※11)EU「EU AI Act」 https://artificialintelligenceact.com/ (※12)内閣府「AI戦略会議 第7回」 https://www8.cao.go.jp/cstp/ai/ai_senryaku/7kai/7kai.html
文=吉本幸記