アップルの「画像の意味を捉える」マルチモーダルAIモデル「4M」、画像編集の自動化などへの布石か
アップルがAIモデル「4M」をリリース、その概要
アップルがスイス連邦工科大学ローザンヌ校(EPFL)と共同開発した小型AIモデル「4M」の公開デモをHugging Faceプラットフォームで公開した。このモデルは、テキスト、画像、3D空間など複数のモダリティを統合的に処理できるマルチモーダルモデルだ。数カ月前に、GitHubでリリースされたオープンソースモデルだが、今回人気のAIプラットフォームであるHugging Faceで公開されたことで、認知度がさらに高まった格好となる。
4Mは、Massively Multimodal Masked Modelingの略称で、多様なモダリティ/コンテンツの処理と生成が可能だ。ユーザーはテキスト記述から画像を生成したり、複雑な物体検出を実行したり、自然言語入力で画像空間を操作したりすることができる。 この4Mの公開は、アップルの従来の研究開発アプローチから大きな転換を示すもので、AIコミュニティで注目される動きとなっている。Hugging Faceは、業界スタンダードといっても過言ではない、AIモデルのリポジトリプラットフォーム。メタやマイクロソフトなどテック大手からスタートアップまでさまざまなプレイヤーが、自社で開発したAIモデルを披露・公開する場となっているのだ。同プラットフォームにおける4Mの公開から、アップルは自社のAI能力を示すだけでなく、開発者の関心を引き、自社技術を中心としたエコシステムを構築しようとしている様子がうかがえる。 これまで生成AIモデルの開発において、グーグルやマイクロソフトなどと異なり沈黙を保ってきたアップルだが、2024年に入りAI関連取り組みを加速、4Mを含めさまざまなAIモデルをリリースしている。投資家はこの動きを好意的にとらえており、同社の株価はこの数カ月で20%以上上昇、時価総額も6,000億ドル近く増加した。OpenAIとのパートナーシップもアップルがAIに本腰で取り組むことを市場にアピールする材料となっており、アップルが「AI銘柄」として認識され始めているともいわれている。 4Mに関して、特筆すべきは、やはり多様なモダリティに対応できる統一性といえるだろう。テキスト以外へのモダリティに対応できるため、アップルのエコシステムにおける応用が期待されるのだ。たとえば、4Mを統合することでSiriのバージョンアップが考えられる。後述するが4Mは画像の深度マップやセマンティック分類が可能であり、「この写真の背景を夜景に変更して」といった複雑な画像編集指示にも対応できるようになる可能性がある。またFinal Cut Proにおける動画編集の自動化ができるようになる可能性もゼロではない。 4Mモデルは2億パラメータから28億パラメータまで複数のサイズで開発されたが、いずれも小型であり、オンデバイス/ローカル環境でも十分に利用できる点も特筆に値する。
【関連記事】
- AIの学習データをめぐる競争 アップルとシャッターストック提携などに見る競争激化とその最新動向
- アップルも注目する最近の生成AIトレンド「小型LLM」、オフラインでも利用できる生成AIの登場とスマホ/ラップトップ市場へのインパクト
- アップルVision Pro、1,000個以上のアプリが登場。OpenAIのCEOは絶賛もメタ・ザッカーバーグCEOは厳しい評価、リリース後の賛否さまざまな声
- OpenAIサム・アルトマンCEOのAIチップ開発で7兆ドル調達の野望、GPU関連スタートアップの台頭など、激変するAIチップ市場の現状
- GAFAMに続くIBM、生成AIに焦点当てた5億ドルのベンチャーファンド設立 法人向けAIテックへの投資を加速