推論モデル期

OpenAI o1 / o3、DeepSeek-R1、Qwen QwQ など extended thinking を内蔵した推論モデルが新ジャンルとして登場。

期間: 2024-09-12 〜 2025-03-01

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 6 件

推論モデル期その他 2026-05-11

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立

推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。

ソース: arXiv cs.AI

推論モデル期その他 2026-05-11

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す

LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。

ソース: arXiv cs.AI

推論モデル期その他 2026-05-11

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

推論を増やすほどバイアスも増える — 推論モデルの長さ駆動型位置バイアス

推論モデル（reasoning models, e.g., o1 / Claude reasoning）における『長さ駆動型位置バイアス (length-driven position bias)』を発見した論文。推論ステップが長くなるほど、最初・最後の選択肢を選びやすくなる系統的バイアスが強まることを示す。『より考えさせれば良い答えが得られる』という素朴な期待への警鐘で、reasoning 系モデルの evaluation 設計に影響する重要な findings。

ソース: arXiv cs.AI

推論モデル期 DeepSeek 2025-01-20

DeepSeek-R1 公開（オープンウェイト推論モデル）

DeepSeek が o1 級の推論能力を持つ R1 をオープンウェイトで公開。学習コストが既存 GPT-4 級の数十分の1という主張で世界に衝撃。

ソース: DeepSeek

推論モデル期 Anthropic 2024-10-22

Claude Computer Use （ベータ）公開

Anthropic が Claude 3.5 Sonnet にデスクトップ操作能力を付加した Computer Use をベータ公開。エージェントが画面を見てクリック・入力する世界の幕開け。

ソース: Claude (language model)

推論モデル期 OpenAI 2024-09-12

OpenAI o1 (preview) リリース

推論時間を伸ばすことで難問の正答率を大幅に伸ばす o1-preview が公開。AIME で74%（GPT-4o は12%）。新ジャンルとしての推論モデルが定義された。

ソース: OpenAI o1