Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す
推論モデル期 その他 scientific-discoveryevaluation テキスト(自然言語)エージェント・computer use・tool use
2026-05-11 · arXiv cs.AI
English summary
Proposes a method to extract internal search trees from LLM chain-of-thought traces and uses it to show that LLM planning is empirically myopic: the model handles short-horizon reward-maximizing moves well, but rarely chooses moves that pay off long-term. The findings visualize long-horizon planning limits in reasoning models and agents.
LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。
ポイント
- LLM 推論トレースから探索木 (search tree) を抽出
- LLM の計画は近視眼的 (myopic) であることを実証
- 短期報酬は得意、長期最適は不得意
- reasoning モデル・agent の長期計画の限界を示す
ソース
arXiv cs.AI