パナソニック、「いいね」判定で好みの画像を生成できるAI技術を開発
パナソニックホールディングスとパナソニックR&Dカンパニー オブ アメリカ(PRDCA)は12月2日、「いいね」の判定だけで、好みの画像にパーソナライズできる画像生成AI「Diffusion-KTO(Knowledge Transfer Optimization)」を開発したと発表した。 これは、米カリフォルニア大学などの研究者と共同で開発したもので、一人ひとりの好みや価値観を数値化した「ユーティリティ関数」を応用する新たなアプローチにより、ユーザーの好みや目的に一致した高品質な画像を効率良く生成することができるという。画像生成AIのベースモデルに「Stable Diffusion」を採用し、ファインチューニングを施している。 パナソニックは、2025年にはグループ全体で活用する予定で、協業しているスタートアップ企業のFastLabelが持つ「Data-Centric AIプラットフォーム」を通じて活用していく。AI開発プロセス全体のコストを10分の1にまで削減する計画だ。 パナソニックグループは、データから実装まで一貫したAI開発プロセスの高度化を行い責任あるAIの活用を加速する「Scalable AI」および「Responsible AI」の方針を打ち出している。この中では、わずかなデータでタスクをこなせるAIや、多様な物理空間へ簡単に実装できるAIの開発を掲げている。今回の取り組みもこの方針に沿ったものと位置付けている。 パナソニックホール ディングス DX・CPS本部 デジタル・AI技術センター AIソリューション部 課長の小塚和紀氏は、「パナソニックグループの事業の特性から、AIを活用する際には、一般的な画像生成で出力した画像ではなく、お客さまの暮らしや現場に最適な画像データが必要になる。Diffusion-KTOによりデータ収集を効率化し、AIを適用できる事業を増やすことができる」と述べた。 パナソニックグループは、幅広い事業を展開する一方で、その多くが物理空間での事業となっており、AIを適用しにくい条件が多いこと、製品や現場ごとにデータ構築やチューニングの手間がかかりスケールがしにくいという課題を抱える。特に、データ収集やアノテーション、チューニングなどのデータ構築に関わる工数が80~90%を占め、AIを展開する上でのボトルネックになっているという。 例えば、物体領域検出AIの場合には、学習に必要な枚数の画像を用意し、人手で物体領域の輪郭を付与するアノテーションの作業が必要になる。具体的に、パナソニックの冷蔵庫にはカメラが搭載され、AIによって野菜室にある野菜の種類や鮮度などを画像認識で確認できるようになっているが、野菜の形状や見え方、ラップの有無などを事前にデータとして用意しないといけない。そこで今回の技術を用いることにより、画像のバリエーションを広げ正確にラベルを付与することで、認識精度を高めることができると期待されている。 パナソニックグループでは、未学習の物体を認識できるマルチモーダル基盤の「HIPIE」(ヒピエ)や、FastLabelとの協業によりアノテーションやチューニングの手間を低減することでAI開発全体の効率化してきたが、今回の技術では、データ収集が困難な現場でも最適なデータ生成が可能な画像生成モデルのチューニング手法を確立した点が特徴だとする。ユーザーの「いいね(good)」や「嫌い(bad)」の2つのバイナリーフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率良く生成できる。 主任技師の加藤祐介氏は、「今回の手法は、選好学習により指示文に対して2つの画像を用意し、どちらが好みであるかを学習させることで、同じ指示文でもユーザーの好みに近い画像が出力できる点が特徴になる」と説明した。 従来の画像生成AIは、ユーザーが指示文で画像の特徴を細かく指定する必要があったが、今回の技術では、好みの画像を得るためにプロンプトエンジニアリングを駆使しながら画像を生成していた手間も省けるというわけだ。 また、選好学習のためのペアデータの生成に時間を要して、データ数が多くなるほど負担が大きくなるという課題もあったが、今回の技術はその点も解消できるという。加藤氏は、「各画像に対して『good』あるいは『bad』のラベルを付与するだけで学習できるようにし、データ生成の手間とコストを最大“N”倍短縮できる」と述べた。“N”はデータセットの枚数を指している。 従来の選好学習が「DPO(Direct Preference Optimization)」と呼ばれているのに対し、今回のバイナリーフィードバックによって生成モデルを調整する選好学習は「KTO(KehnemanTversky Optimization)」と呼ばれる。元々は文章生成の分野で研究されていた手法で、有害な回答を避けたり、よりパーソナライズした回答を得たりするために用いられてきたという。KTOを画像生成のタスクに活用したのは、今回が初だという。 また、画像生成AIでは、拡散プロセスに基づいた生成モデルであるDiffusion Modelが一般的に用いられる。徐々にノイズを除去し画像を生成する仕組みだが、この拡散プロセスの途中の各生成画像に対して好みを反映することで、好みの画像を中心にノイズを除去することができる点も特徴だという。この結果、「good」ラベルが付与された画像に近いものが生成されやすくなり、逆に「bad」ラベルが付与された画像は生成されにくくなるという。 Diffusion-KTOでは、学習データとして「Pick-a-Pic v2」のデータセットを活用し、指示文に対して2枚の画像をペアで用意。どちらの画像が好ましいかを比較して、優劣度をラベル付けしたデータで選好学習を実施している。 「Amazon Mechanical Turk」で募った300人による評価では、既存の手法に比べて、Diffusion-KTOにより生成した画像の方が人の好みを反映した画像を生成していることが証明されたほか、AIによる定量評価でも、既存の選好学習手法に比べて人の好みに対し、優勢であるとの判定が行われたという。ベースモデルのStable Diffusion v1-5に対して、最大87.2%の勝率を達成している。 Diffusion-KTOの今後の活用についてパナソニックグループでは、現場や製品向け学習データの生成での活用を想定。現場の特徴を反映した画像を生成することで、AIの学習データ不足を解決することを目指す。 先の冷蔵庫の野菜認識では、珍しい野菜や特殊なラップで梱包(こんぽう)された野菜など、データ収集が難しい低頻度の画像を学習データ用として生成。よりリアルな冷蔵庫内の画像を生成することで、学習データを収集する手間を削減できるとする。 小塚氏は、「画像生成AIに冷蔵庫内の野菜のデータを生成させると、色鮮やかな野菜がきれい並び、ぎっしりと詰まった画像になるが、これは現実の世界ではあり得ない。パーソナライズ化することでパック詰めされた野菜も一緒に入っているリアルに近い冷蔵庫内の画像を生成することで、現場に酷似したデータで学習ができる」(小塚氏)と話す。 原理的には画像生成だけでなく、テキスト生成や音声生成など他の生成モデルにも応用できることから、ユーザーの好みに応じたパーソナライズが求められる多くの分野で利用も模索していくという。なお、今回発表した技術は、12月10日からカナダのバンクーバーで開催されるAIの国際会議 「NeurIPS 2024」で発表する。