推論能力の飛躍(o1 / o3 / R1 / extended thinking 等。一般的な能力向上は capability-update)
記事 5 件
推論モデル期 その他 2026-05-11
Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立
推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。
ソース: arXiv cs.AI
エージェント期 Mistral AI 2026-04-21
mistralai (python) v2.4.1 — conversations.restart_stream に think chunk 対応
Mistral AI Python クライアント v2.4.1(2026-04-21 リリース)は conversation 関連 API の更新。`mistral.beta.conversations.restart_stream()` の request に破壊的変更、output delta に ThinkChunk と signature が追加された。Mistral のモデルが extended thinking を返す際のストリーミング処理を扱える。
ソース: Mistral AI Python Client Releases
エージェント期 Meta AI / Meta 2026-04-08
Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル
Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。
ソース: Meta AI Blog
推論モデル期 DeepSeek 2025-01-20
DeepSeek が o1 級の推論能力を持つ R1 をオープンウェイトで公開。学習コストが既存 GPT-4 級の数十分の1という主張で世界に衝撃。
ソース: DeepSeek
推論モデル期 OpenAI 2024-09-12
推論時間を伸ばすことで難問の正答率を大幅に伸ばす o1-preview が公開。AIME で74%(GPT-4o は12%)。新ジャンルとしての推論モデルが定義された。
ソース: OpenAI o1