LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。

ポイント

  • LLM 推論トレースから探索木 (search tree) を抽出
  • LLM の計画は近視眼的 (myopic) であることを実証
  • 短期報酬は得意、長期最適は不得意
  • reasoning モデル・agent の長期計画の限界を示す

ソース

arXiv cs.AI