Yahoo!ニュース

生成AIとコピーレフト

八田真行駿河台大学経済経営学部教授
Open Source ぽい画像がこれしかなかった(写真:イメージマート)

真のオープンソースAI?

最近、「オープンソースAI」について多くの議論が交わされている。意味が曖昧な自称オープンソースAIが横行する一方で、オープンソースAIをきちんと定義しようという動きもある。最も著名な例は、OSIことOpen Source Initiativeが主導する「オープンソースAIの定義(OSAID)」だろう(ドラフトの日本語参考訳)。

私も先日パリでの議論に参加したのだが、そのときある疑問が浮かんだ。AI実装の分野において、コピーレフトに相当する概念はありうるのだろうか?

コピーレフトとは、GNU GPLなどオープンソースライセンスの一部が主張する概念である。適用されたライセンスがコピーレフトを主張しているソースコードを改変して配布する場合、改変した部分をオリジナルと同じ条件の下で公開することが求められる。コピーレフトの対象となっているコードのいかなる部分もプロプライエタリ(いわゆるクローズド、誰でも自由に使えない状態)にすることは不可能であるため、これはライセンサーよりもライセンシーに大きな力を与えるライセンス形態であり、共同作業の成果物の共有と公開を強く推奨するものである。コピーレフトを主張することはオープンソースであるための必須条件ではないため、コピーレフトはオープンソース概念の「強い」形態といえる(オープンソースの定義と同様、オープンソースの「弱い」または「幅広い」定義は、現在議論中のOSAIDがすでにほぼカバーしている)。

生成AIの場合、そもそも「オープンソース」にすべきものは何かという問題がある。従来のオープンソースの場合、主な対象は(ソース)コードであり、それは著作権によって保護されていた。コピーレフトの裏付けとなっていたのも著作権である。しかし、生成AIの場合、コードとデータの関係は従来のソフトウェアよりも密接だ。したがって、コードをオープンソース化するだけでは十分ではない。実際、多くの生成型AIシステムでは、モデルのトレーニングに使用されたコードはすでにオープンソース化され、オープンソースライセンスのもとで公開されているが、学習/トレーニング結果として使用される必要なデータ(例えば重み)はオープンソースとして公開されていないことが多い。また、トレーニングに使用されるデータには、そもそも一般に入手できないデータが含まれている可能性もある。そのため、たとえOpenAIやMetaが使用したすべてのコードがオープンソースで入手可能で、彼らと同等の計算資源があったとしても、おそらくGPT-4やLLaMaを正確に再現することはできないだろう。

真のソフトウェアの自由

元々のFSF(フリーソフトウェア財団)による「ソフトウェアの自由」の定義に立ち戻ると、自由なソフトウェアは以下のことを可能にすべきだと考えられる。

  • どんな目的に対しても、プログラムを望むままに実行する自由 (第零の自由)。
  • プログラムがどのように動作しているか研究し、必要に応じて改造する自由 (第一の自由)。ソースコードへのアクセスは、この前提条件となります。
  • ほかの人を助けられるよう、コピーを再配布する自由 (第二の自由)。
  • 改変した版を他に配布する自由 (第三の自由)。これにより、変更がコミュニティ全体にとって利益となる機会を提供できます。ソースコードへのアクセスは、この前提条件となります。

これら4つの自由は、単なるお題目ではなく実質的に保証されなければならない。コピーレフトが直接関係するのは第一から第三の自由だが、過去においては、ソースコードが自由に利用可能であれば、これらは保証されていると言えた(ソフトウェア特許が主張されている場合など、例外的な場合を除く)。しかし、現在の生成型AIではそうではない。いわゆるオープンウェイトでは、商用利用やカスタマイズが一定の範囲で許可されることもあるが、これはかつてのフリーウェアに似たライセンス形態であり、真のFLOSS(Free/Libre and Open Source Software)とは言えない。

結局のところ、コピーレフトが保証しようとしていたのは、ソースコードとオブジェクトコードの等価性であった。コピーレフトの本質は、私たちが実行するオブジェクトコードは人間にとって扱いにくく不透明なものであっても、オブジェクトコードと一対一に対応し人間が読みやすいソースコードが利用可能であることは保証されているということである。

新たな「コピーレフト」としての再現可能ビルド

この意味で、生成AIにおけるコピーレフト的なもののより適切な定義は、おそらく「再現性のあるビルド」という概念である。これは、同じソースコードとツールチェーンを用いた場合、常に全く(ビット単位で)同じオブジェクトコードを生成することを保証しようとするソフトウェアのビルド方法である。

例えばビルドの過程で生成されたファイルのタイムスタンプが異なるだけでも結果のハッシュは変わるので、厳密な意味での再現性のあるビルドを達成するのは難しいこともある。しかし、第三者による検証は非常に簡単だ。なぜなら、手元の同じソースコードから同じものが生成できることを実際に示せばよいからだ。ユーザが検証を面倒くさがって自分ではやりたがらなくても、Hugging Faceのようなサードパーティのプラットフォームがリリースごとに一度検証してくれればよい。

もちろん、著作権に基づくコピーレフトのような強制力はないし、計算資源やコストの面でも現状では再現性のあるビルドを要求するのは非現実的かもしれない。ただ、いまは巨大なLLMが流行っているが、データのサイズや計算需要の削減は様々に模索されているし、汎用的な面白チャット相手というよりは実用的なツールとして、ドメイン特化で範囲を限定した比較的小規模のSmall Language Models (SLMs) が今後は広まっていくのではないかと個人的には考えている。その場合、AIシステムを再現可能にして検証するのにそれほどリソースを必要としないだろう。

また、サプライチェーン攻撃のようなある種のトリガーに対してユーザが意図しない反応を引き出すようにLLMに学習させることは不可能ではないので、政府調達や軍事目的など、本当に高度なセキュリティが求められるケースでは再現可能なビルドがどのみち必要になると思われる。そのような場合、再現性自体がセールスポイントになる可能性があり、ビッグテックのような生成AIの作成者自身が自分から再現可能性を追求するインセンティヴが生まれるだろう。また、EUのAI法ではAIのオープンソース化が求められているようだが、これまで私が議論してきたような意味での再現性を生成AIに法律で求めることも可能かもしれない。

駿河台大学経済経営学部教授

1979年東京生まれ。東京大学経済学部卒、同大学院経済学研究科博士課程単位取得満期退学。一般財団法人知的財産研究所特別研究員を経て、現在駿河台大学経済経営学部教授。専攻は経営組織論、経営情報論。Debian公式開発者、GNUプロジェクトメンバ、一般社団法人インターネットユーザー協会(MIAU)理事。Open Knowledge Japan発起人。共著に『日本人が知らないウィキリークス』(洋泉社)、『ソフトウェアの匠』(日経BP社)、共訳書に『海賊のジレンマ』(フィルムアート社)がある。

八田真行の最近の記事