生成AIへの投資増加も、データ品質などの課題に。最新調査で明らかになった生成AI普及のボトルネックとは?
データ品質で変わるAIモデルのクオリティ
最近、データ品質がAIモデルのサイズやクオリティに大きな影響を及ぼすことを如実に示す事例が増えてきており、DataikuとCognizantの調査結果を踏まえても、今後データ品質を改善できるツールの需要は確実に高まると予想される。 たとえば、マイクロソフトが最近リリースした統合ビジョンモデル「Florence-2」はその好例といえるだろう。 Florence-2は、ビジョンタスク向けのAIモデルで、2億3,200万パラメータと7億7,100万パラメータの2つのサイズで開発された。パフォーマンス比較で、後者の7億7,100万パラメータモデルが、100倍以上規模が大きなグーグル・ディープマインドのビジョンモデル「Flamingo(800億パラメータ)」を上回ったのだ。 これまで大規模言語モデルの開発では、機械学習コミュニティなどで構築された既存のデータセットを使うことが多かった。しかし、これらのデータセットのクオリティは、重複などもあり、高いといえるものではなかった。マイクロソフトは、Florence-2の開発にあたり、データセットを見直すところから出発。データセット専用のモデルによるアノテーションやフィルタリングを行い、エラー修正や不適切なアノテーションを除去しつつ、高品質なデータセットを構築し、それをAIトレーニングに使用したのだ。結果、非常にコンパクトながら、高い性能を持つAIモデルが完成した。 Florence-2だけでなく、ほかにもさまざまな高性能・小型モデルの開発が進められており、AIモデルの小型化・高性能化トレンドが形成されつつある。
文:細谷元(Livit)