2024年クラウドAIを巡る5つのトレンド:想像を超えるスピードと規模感でAIが現実のものに
3.マルチモーダルモデルとAIエージェントが、人とソフトウェアの関係を変える
テキストベースのチャットボットは過去のものとなり、マルチモーダルモデルとAIエージェントの台頭が、AIの潜在的な適用範囲を劇的に拡大している。
より自然な会話体験のできる音声AIアプリケーション
べッセマー社は、特に音声AIアプリケーションが、今後12カ月の間に飛躍的に成長すると予測している。これまでの音声AIは、自動音声認識(ASR)により音声をテキストに書き起こし、それをLLMに繋げて、テキストをText-to-Speechモデルにフィードバックさせる、という流れだった。しかしOpenAIの最新モデルGPT-4oなどでは、テキストに書き起こすことなく生の音声データをそのまま処理・推論し、ネイティブ音声で応答する音声ネイティブアーキテクチャへの移行が進んでいる。 これにより、会話型音声製品の応答時間が劇的に短縮され、またこれまでは取り込むことのできなかった、ユーザーの感情やトーンといった非テキスト情報に対する理解も大幅に向上するという。これまでよりはるかに自然な会話体験が提供可能になることで、音声AIの活用先も広がり、今後5年間で最大100億ドル規模の市場が誕生するとも推測されている。
自律型AIエージェントの実用化期待
自らタスクを処理し、作業工程を管理する自律型AIエージェントも、直近での飛躍が期待される分野だ。 自律型AIエージェントは既にカスタマーサービスやプロジェクト管理などの分野で使われているものの、まだ複雑なマルチステップタスクをエンドツーエンドで完全に自律的に機能するほどには信頼性高く動作していないのが現状だ。 しかしこの分野の進歩は非常に速く、思考連鎖推論、自己反映、ツールの使用、プランニング、マルチエージェントコラボレーションなどさまざまな方法を通じて、AIエージェントの動作を改善するための、新しいアーキテクチャアプローチに焦点を当てた研究が盛んに行われている。 最近公開された新しいデモはどれも前回よりも優れており、AIソフトウェアエンジニアであるCognition AIのDevinは、AIのプランニングおよび推論機能が拡大し続けるにつれて何が可能になるかを示唆している。