【生成AI活用の危険性】誰でも簡単に作れる高度な偽情報、プロパガンダ工作にどう対応すべきか
どのような技術が「革新」的なのか
何が「高品質」な偽情報・プロパガンダを可能にしているのか。 ChatGPTが注目を浴びている理由の一つは会話・対話の自然さ、それを可能にする高度な意味・文脈理解である。われわれが日常的なコミュニケーション(会話、メール、チャット等)で用いる「自然言語」は、コンピューターへの指示・フィードバックに用いられる「プログラミング言語」とは比べものにならない程、曖昧性、多義性、文脈依存性を帯びるため、従来の機械学習・深層学習をもってしても、自然言語の処理・生成は困難であった。 この状況を打開したのが近年の複数のAI関連技術であり、特に重要とされるのは深層学習の一種である「Transformer」技術だ。専門家によれば、従来主流であった回帰型ニューラルネットワーク(RNN)は一つ一つ単語を逐次処理するものだが、Transformerは複数の単語同時並列処理が可能だ。 結果、今日の生成AIは高速・効率的な計算を通じて、高精度の文章を生成することができる。そしてTransformerの性能は、(1)モデルのサイズ(パラメータ数)、(2)学習データのサイズ、(3)計算量の3つの変数に従い向上する。 それゆえ、テック企業は数千億のパラメーターを持つような大規模LLMの開発競争に投資している。特にブレイクスルーだったのはChatGPT(初期LLMは「GPT-3.5」)の前身のLLM「GPT-3」といわれる。 20年5月に発表されたGPT-3は16~19年のインターネット上の文章を言語問わず収集し(45TB)、厳選した「言語全集」(570GB)を作成した上で、1750億個のパラメーターで自然言語を処理・生成する。LLMの大規模化は進み、現在の有料版ChatGPT PlusのLLM「GPT-4」のパラメーター数は公開されていないものの、100兆個との推計さえある。 この他にもLaMDA(Google)、PaLM2(Google)、LLaMA(Meta)といったLLMが次々と発表されている。ただし、前述の通りLLMの大規模化は競争の主軸ではなくなりつつあるかもしれない。