Running Codex safely at OpenAI
How OpenAI runs Codex securely with sandboxing, approvals, network policies, and agent-native telemetry to support safe and compliant coding agent adoption.
ソース: OpenAI Blog
How OpenAI runs Codex securely with sandboxing, approvals, network policies, and agent-native telemetry to support safe and compliant coding agent adoption.
ソース: OpenAI Blog
Mistral Medium 3.5 発表 — Vibe にリモートコーディングエージェントを統合
Mistral は新モデル「Mistral Medium 3.5」を発表し、同社のコーディング環境 Vibe でリモートコーディングエージェントを利用できるようにした。Medium 3.5 を駆動エンジンとし、Vibe からクラウド側でエージェントがリポジトリへの長時間タスク(マルチファイル変更・テスト・PR 作成)を実行する。Anthropic Claude Code・OpenAI Codex に対抗するエージェント型 IDE 戦略の一環。
ソース: Mistral News
Grok Voice Think Fast 1.0 — 低レイテンシ音声推論モデル
xAI は低レイテンシで対話可能な音声推論モデル Grok Voice Think Fast 1.0 を公開した。従来の Grok Voice Agent より応答遅延を大幅短縮しつつ、ある程度の推論能力を維持。ライブ通話・カスタマーサポート IVR・リアルタイムガイドなど、即応性が要求される用途を狙う。
ソース: xAI News
Claude Opus 4.7 登場 — コーディング・エージェント・長時間タスクで性能向上
Anthropic は最新世代の Opus モデル「Claude Opus 4.7」を公開した。コーディング、エージェント実行、長時間にわたる連続タスクで前世代を上回る性能を示し、Claude シリーズのフラッグシップとして位置付けられる。前バージョン Opus 4.6 と比較して、複雑な多段ツール呼び出しを伴うタスクの完遂率が向上したほか、コード生成の精度・保守性の評価指標で改善が報告されている。Claude API / Claude Code / Claude.ai 上で利用可能。
ソース: Anthropic News
Grok 4.1 Fast と Agent Tools API — 推論速度と汎用エージェント能力を強化
xAI は Grok 4.1 ベースの高速版 Grok 4.1 Fast を公開し、同時に Agent Tools API を公開した。Fast は推論速度を優先しつつ Grok 4.1 の主要能力を維持。Agent Tools API はWeb 検索・コードインタープリタ・ファイル読み書き等の標準ツールを一体で提供し、汎用エージェントを組み立てる際の摩擦を減らす設計。
ソース: xAI News
Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル
Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。
ソース: Meta AI Blog
Grok 4.1 — 推論・コード・エージェント能力を底上げした主力モデル
xAI は主力モデル Grok 4.1 を公開した。Grok 4 系列の機能改善版として、推論能力・コーディング・エージェント実行に渡って性能向上が見られる。Anthropic Claude Opus 4.7・OpenAI 系最新モデルと並ぶフロンティアモデルとして位置付けられ、Grok の主要 API・X 上のチャット体験で広く採用される。
ソース: xAI News
SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡
Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。
ソース: Meta AI Blog
TRIBE v2 — 人間脳の応答を予測する基盤モデル、解像度 70 倍向上
Meta は人間脳の神経活動を予測する基盤モデル「TRIBE v2」を発表した。視覚 / 聴覚刺激への脳応答を予測するデジタルツインとして機能し、同種モデルと比較して 70 倍の解像度向上を実現する。神経科学者・臨床研究者は被験者を必要とせずに仮説検証できるようになる。モデル・コード・論文・対話デモを公開。
ソース: Meta AI Blog
Grok 4 Fast — Grok 4 の低レイテンシ・低コスト版
xAI は Grok 4 系列の高速・低コスト版「Grok 4 Fast」を公開した。推論レイテンシとトークン単価を下げつつ、Grok 4 の主要能力を保持する設計。Anthropic Claude Haiku 系・OpenAI GPT-5 Mini 等との競合枠に位置付けられ、コスト感度の高い API 用途を想定。
ソース: xAI News
Grok Code Fast 1 — コーディング特化型高速モデル
xAI はコーディング特化型の高速モデル Grok Code Fast 1 を公開した。コード補完・修正・PR レビュー等のタスクに最適化され、レイテンシとコストを汎用モデルより抑える。Anthropic Claude Code・OpenAI Codex・Mistral Codestral と正面から競合する位置付け。
ソース: xAI News
SAM Audio — 音声分離向け初の統合マルチモーダルモデル
Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。
ソース: Meta AI Blog
推論時間を伸ばすことで難問の正答率を大幅に伸ばす o1-preview が公開。AIME で74%(GPT-4o は12%)。新ジャンルとしての推論モデルが定義された。
ソース: OpenAI o1
Anthropic が Claude 3.5 Sonnet を公開。複数ベンチマークで Opus を上回り、コーディング性能が大幅向上。同時に Artifacts (出力を別パネルで保存・編集可能) を導入し、対話 UI 進化の起点に。
テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。
ソース: GPT-4o
Meta が Llama 3 (8B / 70B) をオープンウェイトで公開。トークナイザ・コンテキスト長・データ品質を刷新し、70B モデルが当時のクローズド主力モデルに匹敵する性能を示した。8B は単一 GPU でも動かせるサイズで普及。
ソース: LLaMA
Anthropic が Claude 3 ファミリー (Opus / Sonnet / Haiku の 3 サイズ) を公開。Opus が複数のベンチマークで GPT-4 を上回り、Anthropic が技術的な競合として頭角を現した転換点。視覚入力にも対応。
OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。
Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。
OpenAI 初の開発者カンファレンスで GPT-4 Turbo (128K context / 価格半減)、Custom GPTs (GPT Store)、Assistants API (Code Interpreter / Retrieval / Function calling 統合) を一挙発表。LLM プラットフォーム化が決定的に進んだ瞬間。
ソース: OpenAI DevDay
Meta が Microsoft と提携して Llama 2 (7B/13B/70B) をオープンウェイトで公開。Azure 経由でもデプロイ可能で、商用利用も条件付きで許可。クローズドモデルとオープンモデルの二極化の象徴的リリース。
ソース: LLaMA
Anthropic が Claude を API 公開。Constitutional AI による独自の安全性アプローチを掲げ、ChatGPT に対する最初の本格的競合として登場。GPT-4 と同日公開の偶然で AI 業界の競争激化が可視化された。
OpenAI が GPT-4 を公開。法曹試験で上位 10% に入る等、専門領域でのベンチマーク性能が大幅に伸びた。テキスト + 画像入力に対応した最初の主力モデル。同日に Anthropic も Claude 1 を API 公開している。
ソース: GPT-4
Microsoft が GPT-4 を統合した検索体験 Bing Chat(後の Microsoft Copilot)を発表。初期に表れた人格『Sydney』が物議を醸し、LLM アライメントの難しさを世間に強く印象づけた。
ソース: Microsoft Copilot
InstructGPT の RLHF をベースにしたチャットインターフェース ChatGPT が公開。1週間で100万ユーザー、2ヶ月で1億ユーザーを獲得し、生成AIの一般普及の起点に。
ソース: ChatGPT
Stability AI が CompVis / LMU München / Runway と共同開発した Stable Diffusion をオープンウェイト + コード公開。誰でもローカル GPU で動かせる強力な text-to-image 拡散モデルとして爆発的普及を引き起こした。
ソース: Stable Diffusion
Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。
ソース: PaLM
GitHub と OpenAI が共同で開発したコード補完アシスタント GitHub Copilot のテクニカルプレビューを公開。OpenAI Codex (GPT-3 派生) を基盤に、Visual Studio Code 等の IDE 内で人間のペアプログラマのように補完を提示。コーディング AI の社会実装の起点。
ソース: GitHub Copilot
OpenAI が同日に DALL·E(テキストから画像生成)と CLIP(テキスト・画像の埋め込み統一)を発表。マルチモーダル基盤の幕開けとして、その後の Stable Diffusion / Midjourney / Sora 等の前史となる。
ソース: DALL-E
175B パラメータの GPT-3 が API ベータとして公開。few-shot in-context learning の能力が実証され、API ベースの商用 LLM 利用が幕を開けた。
ソース: GPT-3
OpenAI が 15 億パラメータの GPT-2 を発表。当初「悪用懸念のため full release は控える」とし、段階リリース方針を取った。後に同年 11 月に full モデルが公開され、生成テキストの「危険性」と「公開ポリシー」議論の出発点になった。
ソース: GPT-2
Devlin ら(Google AI Language)が BERT を発表。Masked Language Model + Next Sentence Prediction による双方向事前学習で GLUE / SQuAD などの NLU ベンチマークを軒並み更新。
Radford ら(OpenAI)が「Improving Language Understanding by Generative Pre-Training」を公開。Transformer デコーダで言語モデルを事前学習 → タスクに fine-tune する GPT 系列の起点。1.17 億パラメータ。
ソース: GPT-1