生成AIへの投資増加も、データ品質などの課題に。最新調査で明らかになった生成AI普及のボトルネックとは?
DataikuとCognizantの調査で浮き彫りとなった課題
マッキンゼーの調査で生成AIへの関心の高まりと実際の導入ケースの急増が明らかになったが、同時に多くの課題があることも別の調査で浮き彫りとなっている。 たとえば、DataikuとCognizantが2024年4月に実施した世界の大手企業200社の上級アナリストおよびIT責任者を対象とした調査によると、生成AIの実用化において、データ品質/使用可能性が大きな課題になっていることが判明した。実に回答者の45%がデータ品質/使用可能性が課題であると回答したのだ。 これは生成AIに限らず、機械学習モデルの構築においてもボトルネックになってきた問題であり、多くの企業で依然データ問題を克服できていない状況を示す数字でもある。 同調査は、データ品質/使用可能性問題をさらに深堀っている。データ品質/使用可能性に関して、最大の懸念は何かという質問に対して、48%が「クリーンデータの欠如」と回答、また27%が「データ信頼性の欠如」、21%が「ツールやスキルの不足」を挙げた。 一般的に、多く企業ではさまざまなデータが蓄積しており、データ量は豊富にあるといえる。しかし、ほとんどのデータインフラは、生成AIや機械学習を考慮せずに構築されたため、データの互換性がなく、AIのトレーニングとして使用するには「荒すぎる」という問題が、この調査であぶり出されたのだ。 そのため、これらのデータをAIに使用するには、前処理、クリーニング、匿名化、統合が必要となるが、そのプロセスを実行する「ツールやスキル」が不足している状況も数字にあらわれた格好となる。 一方、AIライフサイクルにおけるツールが多すぎる問題も同調査で判明した。AIライフサイクルの各段階で5つ以上のツールやソフトウェアを使用しているとの回答は60%と高いものだった。これに関連して、32%がツールが多すぎると回答、理想的にはツールは5つ以下で済ませたいという回答は71%に上った。 組織内の方針や規制遵守の課題も無視できない。31%の回答者が、組織内の方針や内部規制が生成AIの使用を妨げていると回答。また、26%の回答者がインフラの障壁を指摘している。 生成AIの予算配分についても興味深い結果が得られた。次の12カ月の予算のうち、生成AI専用の予算を設けているという回答は34%だったのに対し、既存のIT予算から捻出するとの回答は51%となったのだ。多くの企業が生成AIを既存のIT・データサイエンス予算の中で扱っている現状が示された。 それでも、73%の企業は今後1年間で50万ドル(約8,000万円)以上を生成AIに投資する予定と回答、また46%は100万ドル(約1億6,000万円)以上を投じる計画と回答するなど、強気の投資ムードは依然続く見込みとなっている。