ヘルスケアと金融分野でGPT-4超え、Writerの専門モデルが示すポストGPT-4の世界
金融領域でも専門モデルが高いパフォーマンス
Writerは医療分野を専門とする「Palmyra-Med-70b」と同時に、金融領域に特化した「Palmyra-Fin-70b」もオープンソースとしてリリースした。 Palmyra-Fin-70bに関して特筆すべきは、金融分野の試験「CFA」における3次試験(多肢選択式テスト)の合格スコアを取得した点だろう。この試験は、過去11年間にわたる平均合格スコアが60%、合格率は50%以下といわれる難関試験。1年ほど前にGPT-4がCFAの試験を受けたところ、33%しか取得できなかったと報じられている。この試験において、Palmyra-Fin-70bは、73%を獲得したという。 Writerは、Palmyra-Fin-70bの性能を評価するために、「long-fin-eval」という内部ベンチマークを開発。これは実際の金融ユースケースを模したもので、長文の文書と高品質の質問回答セットのサンプルで構成されている。モデルは提供された文書と質問に基づいて回答を生成し、その出力はGPT-4 Turboによって評価される。 この評価でPalmyra-Fin-70bは、9.04のスコアを獲得し、Claude 3.5 Sonnet(9.02)、Qwen-2 70B instruct(8.9)、GPT-4o(8.72)などの主力モデルを超えるパフォーマンスを示した。 Palmyra-Fin-70bは、金融用語を理解しつつ、財務報告書、市場データ、経済指標を分析・要約し、重要な情報を抽出して簡潔で構造化された要約を生成することが可能だ。この能力を活用することで、幅広いユースケースが想定される。たとえば、投資分析、リスク管理、金融研究などのアプリケーションが考えられる。 一方、Palmyra-Fin-70bの使用には注意も必要だ。Hugging Faceの情報によると、高品質なデータを活用しているものの、不正確さ、バイアス、誤った情報を含む可能性があり、また実際の金融環境で厳密に評価されていない。そのため、人間の監視なしに直接的な金融意思決定や専門的な金融アドバイスに使用することは推奨されていない。 生成AI市場は、モデルの大規模化への限界が見え始めており、小型モデルや専門モデルの開発、またエージェントシステムの開発にリソースがシフトしつつある。専門モデル分野では、Palmyra-Med-70bなどに続きどのようなモデルが登場するのか、今後の動向を注視したい。
文:細谷元(Livit)