正確な診断の精度は約90% 医師の片腕となり得る、病理学に特化した新しいLLM「PathChat」
画像と臨床コンテキストが与えられた場合、精度は89.5%
マハムード研究室では、PathChatの能力を評価する実験も行った。 まず、組織学画像に基づいて直接診断を下す能力を試した。質問内容は11の異なる主要な病理学診療所と臓器部位からの54の診断をカバーしている。どの質問にも、2つの評価戦略が組み込まれている。1つは画像と複数選択ができる質問のみを提示。2つ目は、実際の診断ワークフローを厳密に模倣するために、追加で患者の年齢、性別、臨床歴、放射線学的所見などの臨床コンテキストが提示されている。 そして、PathChatをLLavA 1.5とLLaVA-Medと比較してみた。すると、PathChatは画像のみの評価設定の場合、78.1%、追加の臨床コンテキストが与えられた場合は、89.5%の精度を記録。ChatGPT4を動かすGPT4Vと比較しても、前者で32.2%の、後者で21.3%の差をつけて、PathChatの優秀さが証明された。このほか自由形式の病理学関連の質問への回答を生成する能力の評価でも、LLavA 1.5とLLaVA-Medとの差は各々50%近く、また次点となったGPT4Vとも約20%の差をつけて、PathChatの優秀さが目を引いた。
各パフォーマンスが大幅に向上したPathChat 2
PathChatが、病理医の注目を集める一方で、マハムード研究室では、すでにPathChat 2がプレビューの段階だという。同研究室で開発されたPathChat、及びそのほかの基礎モデルの独占ライセンスを持つモデラAI社によれば、病理学者、研修生、研究者による生成AI利用を意識して、PathChat 2は開発されたという。 特定の会話内で、テキストとインターリーブされた、複数の高解像度画像を受け入れることができるため、インタラクティブなスライドビューアーを通じて直接、各相談ケースをより包括的な評価を下すことが可能。PathChatと比較すると、鑑別診断、形態学的説明のパフォーマンスが大幅に向上し、指示に従う能力や自由形式の質問への回答、レポートの要約などのさまざまなタスクを実行する能力が向上しているそうだ。