正確な診断の精度は約90% 医師の片腕となり得る、病理学に特化した新しいLLM「PathChat」
コンサルタントとしてのPathChatとチャットして病状を診断
PathChatは、人間の病理学に特化した視覚言語ジェネラリストAIアシスタントだ。人間の病理医が、腫瘍などの深刻な病状を特定・評価・診断する際に、コンサルタントと似た役割を果たすことができる。 端的にいえば、ユーザーは画像をアップロードし、関連する臨床的コンテキスト(例えば、臨床歴、画像の生検部位など)を提供。ChatGPTのような生成AIを搭載した、お馴染みの製品と同じように、チャットすることができる。 PathChatは、ビジョンエンコーダー、マルチモーダルプロジェクターモジュール、大規模言語モデルという3つの主要コンポーネントで構成されている。 データキュレーションにあたっては、病理学特有のクエリに応答するためのトレーニングとして、合計999,202回の質問と回答を含む456,916の指示のデータセットをキュレートした。指示は、おおまかに「会話」「説明」「複数選択」「自由回答」「テキストのみ」「ガードレール」に分類される。 全データは、PathChatが多様な指示を一般化できるよう、データには複数の異なる指示形式が含まれている。自由形式の「マルチターンダイアログ」「詳細な画像の説明」「短い回答の質問」「複数の選択肢の質問」「テキストのみの質問」などがそれだ。 指示データセットを生成するために、画像キャプション、PubMedオープンアクセスの教育記事、病理学の症例報告、スライドガラス標本全体(WSI)から抽出された関心領域など、複数の機関から多様なデータソースが使用されている。 一部の非構造化データ形式については、オープンソースの汎用大規模言語モデル(LLM)を使用して、元のソーステキストを自動的に構造化形式になるように指示。その後、複数の病理学者からの継続的な入力により、構造化データから手動で指示が作成された。 テキストのみの大規模言語モデル(LLM)と比較して、マルチモーダル大規模言語モデル(MLLM)は、画像をはじめとする、他のモダリティからの入力が含まれる可能性がある自然言語クエリ形式のユーザー指示を理解して応答するよう、トレーニングされた。高解像度の顕微鏡画像(他の臨床情報と組み合わせて)の視覚情報を検査して解釈することは、病理学分野の基礎であり、現代医学における病気の診断と管理の多くの側面にまで及ぶため、マルチモーダルのサポートは組織病理学の領域にとって不可欠だ。 LLMは、自然言語の指示を入力として受け取り(トークナイザーよってトークン化された後)、埋め込まれたテキストトークンとマルチモーダルプロジェクターからの出力画像トークンを組み合わせ、入力トークンの完全なシーケンスを形成し、自己回帰モデルで次の単語予測によって望ましい応答を予測。生成された応答は、最終的にトークナイザーによって自然言語にデコードされ、エンドユーザーに提示される。