推論能力の飛躍(o1 / o3 / R1 / extended thinking 等。一般的な能力向上は capability-update)

記事 5 件

推論モデル期 その他 2026-05-11

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立

推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。

ソース: arXiv cs.AI

エージェント期 Mistral AI 2026-04-21

python - v2.4.1 - 2026-04-21 13:44:04

mistralai (python) v2.4.1 — conversations.restart_stream に think chunk 対応

Mistral AI Python クライアント v2.4.1(2026-04-21 リリース)は conversation 関連 API の更新。`mistral.beta.conversations.restart_stream()` の request に破壊的変更、output delta に ThinkChunk と signature が追加された。Mistral のモデルが extended thinking を返す際のストリーミング処理を扱える。

ソース: Mistral AI Python Client Releases

エージェント期 Meta AI / Meta 2026-04-08

FEATURED

Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル

Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。

ソース: Meta AI Blog

推論モデル期 DeepSeek 2025-01-20

DeepSeek-R1 公開(オープンウェイト推論モデル)

DeepSeek が o1 級の推論能力を持つ R1 をオープンウェイトで公開。学習コストが既存 GPT-4 級の数十分の1という主張で世界に衝撃。

ソース: DeepSeek

推論モデル期 OpenAI 2024-09-12

OpenAI o1 (preview) リリース

推論時間を伸ばすことで難問の正答率を大幅に伸ばす o1-preview が公開。AIME で74%(GPT-4o は12%)。新ジャンルとしての推論モデルが定義された。

ソース: OpenAI o1