生成AIは「鉄腕アトム」になれるのか? 東大・東工大教授が語るAI研究の最先端
次に、似た意味が別々の単語で表されるという類義語の問題だ。たとえば、lemonが「ヒットした」「ブレイクした」「流行した」はほぼ同じ意味だが、それぞれ別の単語である。この意味のつながりを理解できないと、別の確率として計算されてしまう。
こうした類義語問題への対処として、2013年頃から「単語埋め込み」や深層学習の研究が盛んになると、こうした類義語問題に取り組みやすくなった。これは、固定次元のベクトルを使うことによって、コンピューターが単語の意味を内部的に表現する仕組みのことである。
たとえば、「アメリカ」と類似している単語ベクトルを検索すると、「米国」「アメリカ合衆国」のベクトルがヒットする。人間にはわからない数字の羅列だが、コンピューターなりに類義語を理解していることになる。
このような「単語埋め込み」を利用したのが、「それぞれの単語を単語ベクトルで表現して、ベクトルを合成していく」というアーキテクチャだ。矢印の向きに単語の情報を伝播させていくことで、「アーティスト」は音楽、「lemon」は曲だと認識できるという。 ┌────────── 『文脈依存型の単語埋め込み』というのが、2017年頃に明確に打ち出されたアイデアです。『アーティスト』のベクトルに対し、『ヒット』 『日本人』 『lemon』の情報を統合したベクトルを作ることで、より意味が明確になった埋め込み表現を合成できる。周辺の文脈を考慮した表現が得られることで、曖昧性問題に内部的に対処できていると我々は考えています(岡崎氏) └──────────
ChatGPTの台頭と「プロンプト」による学習
そうした議論の後に台頭したのが「GPT-2」だ。大規模なテキストで言語モデルを学習するだけでさまざまなタスクが解けるという可能性を示したが、「機械翻訳」など特定のタスクに特化したAIと比較すると性能面で劣っているという点が問題とされていた。
またその頃、「言語モデルの性能は規模(パラメータ数、訓練データ量、計算能力)に強く依存しており、モデルが採用するアーキテクチャ(パラメータ数は層数に対し比例して増加)は関係ない」というスケーリング則が発見された。これを動機として、言語モデルのサイズを2桁大きくしたのが「GPT-3」だった。