AIモデル開発/ファインチューニングで起こり得るGPUのメモリ不足を解消するアプローチ
AIモデル開発/ファインチューニングのコスト
大規模言語モデル(LLM)の開発やファインチューニングには、莫大な計算リソースが必要となる。その中でも特に、GPUのコストが大きな課題となっている。 LLMの開発コストは、モデルの規模によって大きく異なる。たとえば、グーグルのGemini Ultraは開発に1億9,100万ドル(約268億円)、OpenAIのGPT-4は7,800万ドル(約110億円)かかったと推定されている。比較的小規模なモデルでも、DatabricksのDBRXは1,000万ドル(約14億円)の開発コストがかかったと報告されている。 これらの巨額な開発コストは、ほとんどの組織にとって手の届かないものだ。そのため、多くの企業は既存のオープンソースモデルをベースに、自社のニーズに合わせてファインチューニングを行う方法を選択している。 しかし、ファインチューニングにもかなりのコストがかかる。特に、パラメータ数の多いモデルのファインチューニングは非常に高コストだ。SmartCatのAIエンジニア、ミロス・ジビック氏の分析によると、700億パラメータを持つLlama 3モデルのファインチューニングには約1.5テラバイトのGPU VRAMが必要となる。これは20台のNVIDIA A100(各80GB VRAM)に相当し、このような構成のGPUコストは約40万ドル(約5,620万円)にも上る。 クラウドプロバイダーを利用する場合でも、コストは決して安くない。AWSの8台のA100 GPUを1時間使用するコストは約40ドル(約5,620円)だ。700億パラメータモデルを20台のGPUで5日間ファインチューニングすると、約1万2,000ドル(約158万円)のコストがかかる計算になる。 これらのコスト課題により、実際の現場では100億パラメータ未満の比較的小規模なLLMを主に使用するケースが多いとジビック氏は述べている。これらのモデルは、16GBから24GBのVRAMで訓練可能であり、より手頃な価格で実装できる。たとえば、Mistral 7B(70億パラメータ)モデルをセルビア語用にファインチューニングする場合、AWSのNVIDIA A10インスタンスを使用して10時間未満、20ドル(約2,800円)以下のコストで実現可能だという。