生成AIのプロンプトを最適化できる「たった1つ」のこと、理解すべきは強みと弱み
帰納的推論を分離する新手法とは?
この問題に対し、カリフォルニア大学ロサンゼルス校(UCLA)とアマゾンの研究チームが包括的な研究を行い、LLMの帰納的推論プロセスを演繹的推論から分離して評価できる新しい評価フレームワーク「SolverLearner」を開発した。2段階のプロセスにより、帰納的推論プロセスを分離するアプローチだ。 たとえば上記の例では、以下のようなプロセスとなる。 IO プロンプティング: 入力: 2, 4, 6, 8, 10 入力: 3, 6, 9, 12, 15 質問: 5, 10, 15, 20, ? 第一段階では、LLMに次のような指示が提示される。 「これらの数列のパターンを分析し、一般的なルールを見つけ出してください。そのルールをPython関数として記述してください」 するとLLMは以下のような回答を生成する: def sequence_rule(start, length): return [start * i for i in range(1, length + 1)] この関数は、数列が等差数列であり、初項に1, 2, 3, ...を掛けたものであることを示すもの。 次に第二段階として、この関数を外部のPythonインタプリタに渡し、新しい入力で実行する。 print(sequence_rule(5, 5)) 出力は次のようになる。 出力: [5, 10, 15, 20, 25] LLMは数列の一般的なパターンを見出し、それを関数として表現。実際の計算は外部のインタプリタが行うので、LLMの演繹的推論(単純な数字の操作)を排除することが可能となり、LLMが本当に数列のパターンを理解したかどうかを、より明確に評価できるようになるのだ。
SolverLearnerの評価で発覚したLLMの新事実
研究チームは、GPT-3.5とGPT-4を対象に、構文推論、算術演算、空間推論、暗号解読などの多様なタスクでSolverLearnerを用いた評価を行った。その結果、LLMは帰納的推論において驚くべき能力を示した。特にGPT-4は、ほとんどのケースで完璧な精度(ACC=1)を達成した。 一方で、同じタスクセットに対する演繹的推論の評価では、LLMの性能は大幅に低下した。特に、事前学習データにほとんど含まれていないような「反事実的」な推論タスクにおいて顕著な性能低下が見られたのだ。たとえば、通常の10進法の算術では高い性能を示すが、8進法や11進法などの珍しい基数での計算では著しく性能が落ちる傾向が確認されたという。 この研究結果は、LLMが明示的な指示に従うよりも、例から学び、データのパターンを発見することに長けている可能性を示唆している。つまり、LLMは与えられた規則を正確に適用する能力(演繹)よりも、例から一般的なパターンを学習する能力(帰納)において優れているということだ。 これらの発見は、LLMの実世界での応用に大きな影響を与える可能性がある。LLMを用いたアプリケーション開発においては、明示的なルールベースのアプローチよりも、適切な例示を通じた学習アプローチの方が効果的である可能性が高いからだ。また、LLMの訓練においても、演繹的推論能力の向上に特に注力する必要があることが示唆された格好となる。