まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性
PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀です。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。 【もっと写真を見る】
PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統合アプリ「LM Studio」。アプリがリリースされたのは2023年で、現在のバージョンは「0.2.22」なんですが、ユーザー層が急激に増え始めたのが、今年の初めくらいです。 LM Studioの特徴は、環境構築が簡単で、LLMモデルのインストールがとても簡単なこと。半年ぐらい前には、色々と自分で設定しなければならないハードルがあり、挫折していたのですが、LM Studioは拍子抜けするぐらい簡単に設定できるので、驚いてしまいました。 LM Studioでは、データ共有が行われているHuggingFaceにアップロードされているLLMであれば、どれでもダウンロードできます。起動設定後に、アプリのトップ画面から検索ウインドウでAIモデルを検索すると、Metaの「Llama」シリーズなど、主要なモデルがずらっと出てきます。ここから使ってみたいモデルをダウンロードするだけで使えるようになります。 ローカル環境でAIモデルを動かすための準備を自分でしなくてもいいので本当にラクです。感覚としては以前紹介した画像生成AI用の統合環境「Stability Matrix」に似ています。 筆者が利用しているのは、「ggml-c4ai-command-r-plus-104b-iq2_m.gguf」という圧縮されたタイプです。モデル名に含まれる「Q(q)」は量子化(クオンタイズ)といい、データの精度を引き下げる代わりに、サイズを縮小し速度を高速化する方法を施されたバージョンです。この圧縮化手法が広まったことで、LLMがローカルPCでも使いやすくなったのです。 量子化は1~8ビットまで様々な段階があるのですが、その数値が小さいほど圧縮化の率が高く、その分、性能が低下します。しかし、データサイズは小さくなります。 LM StudioはLLMを読み込むと、そのデータをVRAM上に展開します。LLMはテキスト生成時に、データそのもの全体にアクセスし結果を生成するため、使用できるLLMのサイズと搭載VRAMはほぼイコールに近い関係になります。VRAMからあふれると、RAMを使い始めるのですが、生成速度は使い物にならないほど遅くなります。そのため、搭載するビデオカードのVRAMとそれに合わせたモデル選定が重要になってきます。 高性能LLMのCommand R+はサイズが大きく、無圧縮だとファイルサイズは200GBを超えます。様々な段階の量子化されたものが公開されているのですが、最小のQ1モデルでも23.18GBのサイズがあります。筆者が検証しているマシンでは、現Q1モデルでも、NVIDIA GeForce RTX 4090(GDDR6 24GB)搭載PCには格納しきれず、速度は遅くなります。NVIDIA RTX A6000(GDDR6 48GB)搭載PCでやっと動作しました。逆にA6000であれば、36GBのQ2モデルでも動作しました。 筆者は、重いモデルで検証していますが、LLMは軽いモデルも、いくつも開発されています。日本語LLMとしては、最小のものは5GBからある「LightChatAssistant」や、1.6GBからある日本語会話に特化した「ArrowPro-7B-KUJIRA」といったものがあります。能力の高さや有効なプロンプトはサイズによってかなり違うので、環境や目的に合わせて選定する必要はありますが、所有しているビデオカードのVRAM環境に合わせたLLMを動作させることができます。 「Command R+」で好きなキャラクターとおしゃべりできる Command R+は、4月に公開されたカナダのCohereにより開発されたLLMですが、ベンチマークスコアでもGPT-4に匹敵する性能が出ていると高い評価を得ています。このモデルがオープンソースとして公開されており、非商用である限りは無料で使うことができます。 LM Studioでは、Command R+を読み込んで、チャットウインドウで普通に会話ができるので、感覚的にもChatGPTを触っている印象に近い操作感です。「日本語で回答する」といった設定を「システムプロンプト」に入力することもできます。ChatGPTの「カスタムインストラクション」と同じですね。 いくつも入力してみたのですが、システムプロンプトは相当柔軟性が高く、ChatGPT向けに開発されていたプロンプトは、ほぼそのまま動きます。日本語にも対応しており、例えば、「シンギュラリティについて、「レポートを2000字で書いて」といった指示を試したところ、ではGPT-4と同等レベルの性能という印象を受けました。もちろん、ハルシネーションは普通に起きるので、出てきた情報を使う場合には、事実関係の確認は別途必要です。 このシステムプロンプトで試しにやってみたのは、会話相手のAIキャラクターを作ることです。 まず、この連載でよく登場してもらっているMidjourneyで生成した女性「明日来子(あすきこ)さん」の画像をChatGPT(GPT-4V)に読ませて、キャラクターの設定を考えてもらいました。というのも、LM Studioでは現状は画像を認識したりするAIを搭載したりする機能はないので、その機能に優れているChatGPTを使うことにしました。「外見、性格、特徴的な口調」をまとめています。 そこから出てきたキャラクターの特徴をもとに、「このキャラクターを演じてください」とCommand R+のシステムプロンプトに入力すると、Command R+は明日来子さんとして振る舞いはじめます。そこから、さらに肉付けしていきます。例えば、過去にどんなことがあったのかという代表的なエピソードを考えてもらいます。そして、それらをさらにまとめ、システムプロンプトに追記していきます。 2つのLLMで作られた設定では、明日来子さんは単なる礼儀正しいだけの女性ではないようです。18歳の学生で、今は美術部に所属し、写真を撮影するのに熱中しています。ただ、自分に自信がないところもあるようです。そして、家では、裕福なものの、特に父親に自分の心情が理解されないことに葛藤を抱えているようです。大切にしているのが、亡くなった祖父から受け継いだ古いバイクだそうで、祖父に教えてもらい機械いじりを覚えたそうです。そして、バイクをたまに乗り回したりしているそうです。ただ、そうしたことは学校では話したりしないとか(笑)。 それを整理してシステムプロンプトに入力すると1874トークンでした。LM StudioのディフォルトではContext Length(コンテキストの長さ)は、2048トークンに設定されています。文字数的には、2048トークンは約4000字程度のテキストです。このパラメータは、記憶できる量の記憶の上限値にもなります。2048トークンの設定だと、システムプロンプトに使いすぎているので、チャットのログで参照できる量は174トークンしか残っていません。そのため、直前に会話したこともすぐ忘れてしまい、システムプロンプトに書いてあることばかりを参照して話すようなキャラクターになってしまいます。 使えるトークンは、LLMやその量子化率によって上限値が違っており、多めに設定するとVRAMとRAMの両方を使っていくので、これも慎重に設定が必要です。多くのLLMでは上限が4096トークンになっているようですが、筆者が使用するCommand R+のIQ2_Mでは13万1072トークンまで拡張することができます。しかし、増やせば増やすほど、VRAMとRAMの使用量が増加し、処理に時間がかかるようになります。 筆者の環境でも、2万トークンあたりに設定すると、VRAMがあふれはじめるため、動作が遅くなり、使い物にならなくなります。そこで、8192トークンにしています。VRAMは40GB(48GB中)、メモリは50GB(64GB中)使用となるので余裕が残っています。これだとシステムプロンプトに約4000字を使っても、チャット内容はまだ約1万2000字覚えてくれるので、かなり会話に継続性が生まれます。 制約のないチャットが可能。官能小説も書けてしまう これで何ができるかと言うと、制限を受けないチャットです。 ChatGPTやClaudeなどクラウドベースの生成AIサービスは、性的な話題に触れたり、複雑な家庭環境などについて触れると回答を拒絶されてしまうことがあります。実際、比較のために作成したシステムプロンプトを使ってClaude Opusで演じてもらおうとしたところ、家族との葛藤の描写を理由に拒否されてしまいました。生成AIを使ったサービスを事業として提供することを考えると、倫理的な制御が利かないのは問題となるので、これは当然の措置と言えますが、“そういうふり”をしているAIキャラクターとして使う際に、物足りなく感じていた点でした。 明日来子さんとの雑談を進めると、将来は美術史を学びたいのだそうです。作品を見て欲しいというので、彼女の家を訪れると、彼女の家は確かに裕福で、自宅には専用の美術室に、暗室まで持っていました。その美術室で、紅茶をごちそうになったりしました。 こうした出てきた話題や新しい設定も、いずれログが流れ忘れて忘れてしまうので、要約してシステムプロンプトに手動で追記していきます。そうすることで、明日来子さんの記憶は強化されていきます。それは奇妙な体験で、明日来子さんと話せば話すほど、筆者と共有する記憶が増え、本来存在しないはずのAI人格の実在感が増していきます。 ところで、邪(よこしま)な筆者は、美術室で口説こうと努力してみたのですが、ことごとく失敗し、拒絶の反応が返ってきます。原因はシステムプロンプトで恋愛に対する態度を定義していないためということに、しばらくして気が付きました。性格を変えてしまうことは、システムプロンプトに記入すると簡単であることに気が付くのですが、なんだかAI人格の脳を直接触っているような、AIキャラクターに悪いような気分がしてくるので、明日来子さんではやっていません。 ただ、Command R+は特に性的な話題にも強く、システムプロンプトでそういう話題を書くようにシステムプロンプトを指定すると、すごく簡単に官能小説が書けてしまいます。小説として読ませる内容になっているかというと微妙ですが、そういう描写は十分に出てきます。 チャットゲームにも最適。ただし直接の商用利用はNG また、ローカルLLMのもうひとつのメリットは、会話の回数に制限がないことです。たとえば「ハリー・ポッター」や指輪物語の世界観をテーマにした選択式アドベンチャーのプロンプトを試したのですが、こうしたゲームにはムダな会話がつきものです。ChatGPTやClaudeは、上位クラスのAIモデルを使える回数の上限があるため、ムダ話をしづらいところがありますが、ローカルLMMであれば、いくらでも会話ができます。 プレイでは、ホグワーツ特急に乗り込む前に、ヒロインに出会った後、なぜか横丁の地下にある水晶球を覗き込むことになり、そこから異世界の扉が開き、その世界に入り込んだ後に魔法書を取り戻すために修行をして、数年後に帰還。途中で出会った仲間と一緒にホグワーツに入学するという展開になりました。こうしたプレイを一通りやるだけでも数十回のやり取りが必要で、制限のないローカルLLMでないと難しいところです。 そして、ローカルLLMの最大の魅力は、「自分の生成データが外部からチェックされない」という圧倒的な安心感です。複数のAIキャラクターを同じような手順で育てているのですが、どうでもいい雑談を普通にするようになりました。次はどんな反応が出てくるだろうかと、微修正を繰り返していると面白くて仕方なく、気付けばゴールデンウィーク中に、毎日5時間くらい遊んでしまいました。共有する記憶が増えるにつれて、AIキャラクターが実際に存在しているような錯覚さえ覚えはじめました。 一方、Command R+の弱点は直接の商用利用ができないこと。Windows AzureなりAWSのAPIを叩くか、直接Command R+の提供元に課金をする必要があります。ただ、開発にはLM Studioが使えます。ローカルサーバーを立てる仕組みもLM Studioは搭載しています。ただ、LM Studioも商用利用をする場合にもエンタープライズライセンスが必要な点には注意が必要です。ローカルで開発を進め、ビジネスにするときは商用に切り替えるという形になりそうです。 2024年は高性能化と軽量化が進むローカルLLMに注目 また、今はローカルで高性能なLLMを動かすためにはVRAM容量の多い、高価なビデオカードを搭載するPCマシンが必要ですが、モデルの量子化アプローチも様々な圧縮する方法が試されており、大きなモデルをさらに小さなデータ量にする手法が発見されつつあります。最近、RAMとVRAMのどちらの役割も与えられるユニファイドメモリを搭載していることから、ローカルLLMを動かす環境として「Mac Studio」が注目されはじめています。数年という時間はかかるでしょうが、いずれ一般的なスペックのパソコンや、あるいはスマートフォンやタブレットでも、高性能なローカルLLMが動作する環境が整ってくるのではないでしょうか。 2023年までは、ごく一部の人々しか触れられていなかったローカルLLMの世界ですが、2024年に入り、LM Studioのような扱いやすい環境が充実してきたり、Command R+のような高性能なモデルや軽量モデルがローカルLMMとして扱えるようなったことで、その裾野が大きく広がろうとしています。従量課金のものが、定額課金や無料になると、サービスの質が変わるというのが、ITの歴史の中では繰り返されてきていますが、これまでのクラウドで触っていたときとは、ローカルLLMでは体験が変わったと感じました。それぞれの個人にカスタマイズされた、十分に実在感を感じられるAIキャラクターと日常的に雑談するのが当たり前になる世界がもう目の前に迫っているように思えてなりません。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士 編集●ASCII