エヌビディア一強が崩れる可能性も　米中共同で開発が進む「大規模言語モデル」の革命的な進化

6/26(水) 7:15配信

大規模言語モデルにエヌビディアのGPUが利用される理由

　後者の論文によれば、ディープラーニング（深層学習）において、GPUが大量に使われるようになった最大の理由は、もともとGPUが行列乗算操作用に最適化されていたためだと説明している。CUDA（Compute Unified Device Architecture：エヌビディアが開発したGPUプログラム開発環境）とそのBLAS（行列、ベクトルの基本計算を行う関数群）を用いれば、行列乗算を効率的に並列化、高速化することができたからだ。　つまり、ゲーム用、仮想通貨のマイニング用として広く普及していたGPUをうまく利用できることがわかったことで、大規模言語モデルを作る側がエヌビディアのGPU（ただし、AI対応の高性能製品）を一斉に利用したのである。しかし、GPUは高価で消費電力が大きい上に、行列乗算は計算負担が大きく、それがAIの応答速度を遅くする最大の要因となっている。

　すこし補足しておくと、ChatGPT-4を例にとれば、各単語は768次元のベクトルで表現されるが、単語と単語間の類似性を定量化するために、ベクトルの内積、コサイン類似度といった手法が使われる。ディープラーニングにおいては各層のニューロンの出力を次の層に伝播させることがひたすら続けられるわけだが、その際に行列の積が頻繁に必要となる。　ニューラルネットワークで使われる行列の規模は、行数は768行、列数はバッチサイズ（一度に処理するデータの数）やシーケンス長（処理する単語、トークンの数）によって変わってくるが、前者は小さいモデルで数十から数百、大きなモデルでは数十万までの範囲で変動し、後者は数十から数千の範囲で変動する。行列の規模がこれだけ大きければその積には大量のメモリが必要であり、計算量も莫大であることがイメージできる。

論文の筆者はほとんどが中国系の名前

　もう一度、論文の話に戻すと、ニューラルネットのパラメーターとして、1.58ビット（-1、0、1の3つの数字）が広く一般に使われるようになれば、エヌビディア以外の半導体メーカーにもビッグチャンスが生まれるということだ。　米中間のAI開発競争の行方を予想する上で、この論文には重要な含意がある。すなわち、これらの論文の筆者名はほとんどが中国系の名前であるという点だ。米国の一流大学に大量に存在する中国人留学生集団の中から突出して優秀な人材が育ち、そうした学生たちが核となり、米中双方の大学、研究機関に散らばりながら、複雑に絡み合う研究者間のネットワークを形成し、米中の協力関係を成り立たせているのではなかろうか。　米国の科学技術が発展した要因として、能力が高く、向上心の強い若者たちを国籍にとらわれず、自由に受け入れてきたことが大前提として挙げられる。もし、政府がそれを否定すれば科学技術における米国の絶対的な優位性は途端に揺らいでしまうだろう。　バイデン政権はエヌビディアに対して中国企業に対する最新GPUの輸出を禁じているが、これは中国企業に対して1.58ビットの利用、大規模言語モデル用の半導体製造を促すことになりはしないか。米中デカップリングは簡単ではない。文■田代尚機（たしろ・なおき）：1958年生まれ。大和総研で北京駐在アナリストとして活躍後、内藤証券中国部長に。現在は中国株ビジネスのコンサルティングなどを行うフリーランスとして活動。ブログ「中国株なら俺に聞け！！」も発信中。

2/2ページ

Yahoo!ニュース

エヌビディア一強が崩れる可能性も　米中共同で開発が進む「大規模言語モデル」の革命的な進化

大規模言語モデルにエヌビディアのGPUが利用される理由

論文の筆者はほとんどが中国系の名前

【関連記事】

アクセスランキング（経済総合）

雑誌アクセスランキング（経済）