マイクロソフトやアクセンチュアなど現場のデータで明らかに、生成AIが及ぼす生産性へのリアルな影響
実験の方法
マイクロソフト、アクセンチュア、そして匿名の大手電機メーカー(以下、匿名企業)の3社で行われたこれらの実験は、各企業の通常業務の一環として実施された。 マイクロソフトの実験は2022年9月の第1週に開始され、主に米国に所在する1746人の開発者を対象とした。このうち50.4%がCopilotへのアクセス権を無作為に付与された。無作為化は個人レベルとチームレベルの両方で実施。対象となった開発者は、エントリーレベルの開発者からチームマネージャーまで幅広い職位を含み、マイクロソフト内で様々なソフトウェア製品やサービスの開発、設計、テストに従事している。 アクセンチュアの実験は2023年7月の最終週に開始され、東南アジアにある複数のオフィスの開発者320人を対象とした。このうち61.3%がCopilot使用グループに割り当てられた。一方、匿名企業の実験は、2023年10月に開始され、3054人の開発者が対象となった。 生産性の測定には、プルリクエスト、コミット、ビルド(コンパイル)の回数、ビルド成功率などの指標が用いられた。プルリクエストは、ソフトウェア開発者の作業単位として捉えられ、コミットやビルドは直接的な成果物ではないが、達成された作業量に比例すると考えられる。また、ビルド成功率はコード品質の指標として用いられた。
実験結果の詳細、生産性改善度合いが実際より低く評価されている可能性
この大規模な実験から得られた結果は、AIツールが高度なスキルを要する職種の生産性に与える影響を如実に示している。3つの実験を統合した分析によると、GitHub Copilotを使用した開発者の週あたりのタスク完了数は26.08%(標準誤差:10.3%)増加した。また、コード更新回数(コミット)が13.55%(標準誤差:10.0%)、コンパイル回数が38.38%(標準誤差:12.55%)増加するなど、副次的な指標でも生産性向上が確認された。 特筆すべきは、マイクロソフトの実験で明らかになった経験年数や職位による効果の違いだ。在職期間が短い開発者や若手の職位にある開発者ほど、Copilotの採用率が高く、生産性の向上も顕著だった。具体的には、在職期間の短い開発者は84.3%、長い開発者は74.8%がCopilotを採用し、その差は9.5ポイント(標準誤差:2.2pp)に上った。若手開発者の採用率は82.1%、シニア開発者は76.8%で、5.3ポイント(標準誤差:2.1pp)の差があった。 さらに、在職期間の短い開発者は、Copilotの初回使用から1カ月以上経過しても継続して使用する傾向が強く、この技術からより大きな利益を得られると期待している可能性が示唆された。一方、在職期間の長い開発者は、Copilotが提案するコードを受け入れる割合が約4.3%(1.0ポイント)低かった。 生産性向上の程度も、経験年数や職位によって大きく異なった。在職期間の短い開発者は、プルリクエスト、コミット、ビルドのすべての指標で27%から39%の生産性向上を示したのに対し、在職期間の長い開発者では8%から13%の向上にとどまった。同様に、若手開発者は21%から40%の生産性向上を示したのに対し、シニア開発者では7%から16%の向上にとどまっている。 この結果は、AIツールが経験や能力の差を補完し、組織全体の生産性向上に寄与する可能性を示唆している。特に、経験の浅い開発者や若手の職位にある開発者がAIツールから大きな恩恵を受けられることは、人材育成や組織のスキルギャップ解消の観点から重要な発見だと言える。 しかし、この調査にはいくつかの課題も存在する。特に、開発者間での生産性の大きなばらつきや、実験期間中のCopilot採用率の変動が、結果の統計的な信頼性に影響を与えている。たとえば、マイクロソフトの実験では、ChatGPTやCopilotが一般に広く知られる以前に開始されたため、実験の初期段階では開発者たちのCopilot採用率が低かった。 また、生成AIのコーディングスキルが急速に高まったのが2024年以降であることを鑑みると、生産性改善の度合いが低く算出されている可能性もある。実験期間が最も新しい匿名企業の場合でも2023年10月となっており、現時点から1年もの差が存在する。2023年10月時点において、GitHub Copilotの屋台骨となっていたのは、おそらく2023年6月にリリースされたOpenAIのGPT-4-0613モデル。 GPT-4-0613はリリース当初、競合モデルに比べ圧倒的なパフォーマンスを持つモデルとして注目されていた。しかし、2024年10月時点においては、ほぼ競争力を持っていない。 たとえば、主要LLMリーダーボードの1つLiveBenchで確認すると、GPT-4-0613のコーディングスコアは37.31にとどまる。これに対し、Claude3.5 Sonnetは60.85と、ほぼ2倍のスコアを持つ。コーディングに特化したリーダーボードLiveCodeBenchでも、最新モデルとGPT-4-0613の大きな差を確認できる。コーディングタスクを一回目試行で成功した割合を見ると、GPT-4-0613は32.5%にとどまる。 一方、OpenAIの最新モデルo1-miniは67.2%と、2倍以上の差をつけている。さらに注目すべきは、難易度別の成功率だ。最も難しいタスク「Hard」において1回目試行で成功する割合は、GPT-4-0613が2.8%、o1-miniが31.7%と、その差は10倍以上に拡大するのだ。こうしたLLMの進化を考慮した新たな調査結果が待たれるところだ。
文:細谷元(Livit)