既存モデルの能力向上(context 長拡張・速度・新機能等)

記事 16 件

推論モデル期 その他 2026-05-11

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立

推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。

ソース: arXiv cs.AI

エージェント期 その他 2026-05-11

Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion

Entropy-Gated Continuous Bitstream Diffusion — 自己回帰モデルとのギャップを縮める拡散モデル

言語モデリングにおける自己回帰モデルとのギャップを縮める Entropy-Gated Continuous Bitstream Diffusionという新アーキテクチャを提案。連続ビットストリーム空間で拡散プロセスを動かしつつ、エントロピーで生成タイミングをゲートする設計により、長らく自己回帰モデルが優勢だった言語生成領域で拡散モデルが競争力を取り戻す可能性を示す。

ソース: arXiv cs.CL

エージェント期 Google DeepMind / Google 2026-05-10

推論速度を最大 3 倍にした Gemma 4 の MTP drafter とは何か

Gemma 4 の MTP drafter — 推論速度を最大 3 倍にする技術

Google の Gemma 4 に搭載された MTP (Multi-Token Prediction) drafter の仕組みを解説。従来の speculative decoding に対する改良として、自己回帰モデル内で複数トークンを並列予測し、ドラフトモデルを別途用意する必要がない設計が特徴。報告では推論速度が最大 3 倍に向上。ローカル LLM 推論の高速化技術として注目される。

ソース: Zenn (llm)

エージェント期 OpenAI 2026-05-07

v2.36.0

OpenAI Python SDK v2.36.0 — Realtime v2 対応

OpenAI 公式 Python SDK v2.36.0 は Realtime API の第 2 世代(realtime 2)に対応した。従来 v1 で提供されていた音声・テキストの双方向ストリーミング API が刷新された世代にアップグレードされ、SDK 側もそのインターフェースを公開する。実時間で音声入出力を扱う Voice Agent 構築の主要パスとして、OpenAI 側の更新とSDK 側の追従が短期間で揃った形になる。

ソース: OpenAI Python SDK Releases

エージェント期 xAI 2026-05-07

Connectors in web, iOS, and Android

Grok Connectors — Web / iOS / Android で外部サービス連携

xAI は Grok に Connectors 機能を追加し、Web・iOS・Android で外部サービスとネイティブに連携できるようにした。Google Drive・Gmail・GitHub などのサービスをGrok から直接参照・操作でき、エージェント的なワークフロー実行を強化する。ChatGPT Connectors・Claude の MCP / connectors に対抗する展開。

ソース: xAI News

エージェント期 OpenAI 2026-05-06

v2.35.0

OpenAI Python SDK v2.35.0 — Image API 第 2 世代対応

OpenAI 公式 Python SDK v2.35.0 は Image API の更新(image 2)に対応した。画像生成エンドポイントのインターフェースが刷新され、SDK もそれを反映している。前後の v2.34 / v2.36 と合わせて、Image / Admin API / Realtime と複数の API 系統が短期間で第 2 世代へ更新されている時期にあたる。

ソース: OpenAI Python SDK Releases

マルチモーダル期 xAI 2026-05-05

Grok Imagine Quality Mode API

Grok Imagine Quality Mode API — 高品質画像生成 API

xAI は Grok Imagine に高品質モード Quality Mode の API を公開した。従来の高速モードに対して、計算リソースを多めに使って細部の品質を向上させる上位ティアを提供。Grok Imagine API を活用する開発者は、用途に応じて速度・コスト・品質のトレードオフを選択できる。

ソース: xAI News

マルチモーダル期 xAI 2026-05-02

Custom Voices and Voice Library

Grok Custom Voices と Voice Library を提供開始

xAI は Grok にカスタム音声機能 Custom Voices と、事前用意された音声を選べるVoice Library を公開した。ユーザーは自分の音声特性をベースにしたカスタムキャラクター音声を作成でき、Grok とのインタラクションをパーソナライズできる。エンタープライズ向け IVR / バーチャルアシスタント用途の拡張を示唆。

ソース: xAI News

エージェント期 xAI 2026-04-30

Grok Voice Think Fast 1.0

Grok Voice Think Fast 1.0 — 低レイテンシ音声推論モデル

xAI は低レイテンシで対話可能な音声推論モデル Grok Voice Think Fast 1.0 を公開した。従来の Grok Voice Agent より応答遅延を大幅短縮しつつ、ある程度の推論能力を維持。ライブ通話・カスタマーサポート IVR・リアルタイムガイドなど、即応性が要求される用途を狙う。

ソース: xAI News

エージェント期 xAI 2026-04-18

Grok Collections API

Grok Collections API — ドキュメント集合体の管理

xAI は Grok Collections API を公開。複数ドキュメントを Collection としてグループ化し、メタデータ・タグ・参照スコープをまとめて管理できる。RAG / 知識ベース用途でドキュメントセットを Grok に与える際の API 表面を整理する。OpenAI Vector Stores・Claude Files API と類似の構造。

ソース: xAI News

エージェント期 Anthropic 2026-04-16

Introducing Claude Opus 4.7 Product Apr 16, 2026 Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the

Claude Opus 4.7 登場 — コーディング・エージェント・長時間タスクで性能向上

Anthropic は最新世代の Opus モデル「Claude Opus 4.7」を公開した。コーディング、エージェント実行、長時間にわたる連続タスクで前世代を上回る性能を示し、Claude シリーズのフラッグシップとして位置付けられる。前バージョン Opus 4.6 と比較して、複雑な多段ツール呼び出しを伴うタスクの完遂率が向上したほか、コード生成の精度・保守性の評価指標で改善が報告されている。Claude API / Claude Code / Claude.ai 上で利用可能。

ソース: Anthropic News

エージェント期 xAI 2026-04-10

Grok 4.1 Fast and Agent Tools API

Grok 4.1 Fast と Agent Tools API — 推論速度と汎用エージェント能力を強化

xAI は Grok 4.1 ベースの高速版 Grok 4.1 Fast を公開し、同時に Agent Tools API を公開した。Fast は推論速度を優先しつつ Grok 4.1 の主要能力を維持。Agent Tools API はWeb 検索・コードインタープリタ・ファイル読み書き等の標準ツールを一体で提供し、汎用エージェントを組み立てる際の摩擦を減らす設計。

ソース: xAI News

エージェント期 Meta AI / Meta 2026-04-08

FEATURED

Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル

Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。

ソース: Meta AI Blog

エージェント期 xAI 2026-04-07

Grok 4.1

Grok 4.1 — 推論・コード・エージェント能力を底上げした主力モデル

xAI は主力モデル Grok 4.1 を公開した。Grok 4 系列の機能改善版として、推論能力・コーディング・エージェント実行に渡って性能向上が見られる。Anthropic Claude Opus 4.7・OpenAI 系最新モデルと並ぶフロンティアモデルとして位置付けられ、Grok の主要 API・X 上のチャット体験で広く採用される。

ソース: xAI News

マルチモーダル期 Meta AI / Meta 2026-03-27

FEATURED

SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡

Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-16

Learn More

SAM Audio — 音声分離向け初の統合マルチモーダルモデル

Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ソース: Meta AI Blog