エージェント・computer use・tool use

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 19 件

エージェント期 OpenAI 2026-05-11

OpenAI launches DeployCo to help businesses build around intelligence

OpenAI が企業向け AI 導入支援会社「DeployCo」を設立

OpenAI は 2026 年 5 月 11 日、企業が最先端 AI を本番運用に導入し、測定可能なビジネスインパクトに変換することを支援する新会社「DeployCo」を発表した。これは OpenAI 本体のモデル開発と並行して、フロンティア AI を「企業価値」に変える実装層を専門に担う組織として位置づけられる。

ソース: OpenAI Blog

エージェント期 AnthropicAmazon / AWS 2026-05-11

Claude Code にAWSのコスト調査をさせたら数千万円分の改善ポイントが見つかった

Claude Code に AWS コスト調査をさせて数千万円の改善点を発見

ジーニー社が Claude Code に AWS コストの調査をさせた結果、数千万円規模の改善ポイントを発見したケーススタディ。Claude Code が CloudWatch・Cost Explorer・タグ付け状況を横断的に分析し、未使用 EBS volume、過剰プロビジョンされた RDS、リザーブドインスタンス未活用などを抽出。AI エージェントによるクラウドコスト最適化の具体事例として有用。

ソース: Zenn (ai)

推論モデル期その他 2026-05-11

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す

LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。

ソース: arXiv cs.AI

エージェント期その他 2026-05-11

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM エージェントのメモリ機構サーベイ — ストレージから経験へ

LLM エージェントのメモリ機構の進化を体系的にサーベイした論文。単なる『ストレージ』としてのメモリから、行動履歴を抽象化して『経験 (experience)』として活用するメカニズムへの移行を整理。short-term / long-term / episodic / semantic 等の階層、retrieval 戦略、自己反省・要約による圧縮、外部 store との統合などを網羅。Anthropic / OpenAI / Google の各エージェント実装の理論的整理に有用。

ソース: arXiv cs.AI

エージェント期その他 2026-05-11

Securing Computer-Use Agents: A Unified Architecture-Lifecycle Framework for Deployment-Grounded Reliability

コンピュータ使用エージェントのセキュリティ — Architecture-Lifecycle 統合フレームワーク

コンピュータを操作するエージェント（computer-use agent）の信頼性向上を狙ったArchitecture-Lifecycle 統合フレームワーク。設計・運用・廃止までのライフサイクルを通して、権限管理・実行隔離・ログ・人間監督の各レイヤを統合的に扱う。Claude Computer Use・Anthropic Operator・OpenAI Operator の本番展開で問題になるセキュリティ設計に対する学術的フレームワーク提案。

ソース: arXiv cs.CL

エージェント期その他 2026-05-11

AIエージェントが「Figma」でデザインを作成・編集可能に　“意図しないUI生成”を防ぐ仕組みとは

Figma 上の AI エージェントがデザインを作成・編集可能に — 意図しない UI 生成を防ぐ仕組み

Figma が AI エージェント機能を導入し、デザインを作成・編集できるようにした。意図しない UI が生成されることを防ぐため、デザインシステム・コンポーネントライブラリの制約をエージェントに渡す仕組みを採用。デザインツールにエージェントを組み込む際の実装パターンとして参考になる。

ソース: ITmedia AI+

エージェント期その他 2026-05-10

LLM に日本の法令・法規を正しく引かせるために、日本の法規 MCP ファミリーを作った話

日本の法令・法規 MCP サーバーファミリーを作って LLM に正しく引用させる

日本の法令・法規を LLM に正しく引用させるための MCP サーバーファミリーを開発した報告。e-Gov 法令検索 API を MCP として包んで、Claude や ChatGPT 等が正確な条文と最新の改正状況を引いて回答できるようにする。LLM の hallucination 抑制 + 日本のリーガルテックでの実用化に向けた一歩。

ソース: Zenn (llm)

エージェント期 Mistral AI 2026-05-08

Remote agents in Vibe. Powered by Mistral Medium 3.5. Product Introducing Mistral Medium 3.5, remote coding agents in Vibe, plus new Work mode in Le Chat for complex tasks. Apr 29, 2026 Mistral AI

Mistral Medium 3.5 発表 — Vibe にリモートコーディングエージェントを統合

Mistral は新モデル「Mistral Medium 3.5」を発表し、同社のコーディング環境 Vibe でリモートコーディングエージェントを利用できるようにした。Medium 3.5 を駆動エンジンとし、Vibe からクラウド側でエージェントがリポジトリへの長時間タスク（マルチファイル変更・テスト・PR 作成）を実行する。Anthropic Claude Code・OpenAI Codex に対抗するエージェント型 IDE 戦略の一環。

ソース: Mistral News

エージェント期 OpenAI 2026-05-07

v2.36.0

OpenAI Python SDK v2.36.0 — Realtime v2 対応

OpenAI 公式 Python SDK v2.36.0 は Realtime API の第 2 世代（realtime 2）に対応した。従来 v1 で提供されていた音声・テキストの双方向ストリーミング API が刷新された世代にアップグレードされ、SDK 側もそのインターフェースを公開する。実時間で音声入出力を扱う Voice Agent 構築の主要パスとして、OpenAI 側の更新とSDK 側の追従が短期間で揃った形になる。

ソース: OpenAI Python SDK Releases

エージェント期 xAI 2026-05-07

Connectors in web, iOS, and Android

Grok Connectors — Web / iOS / Android で外部サービス連携

xAI は Grok に Connectors 機能を追加し、Web・iOS・Android で外部サービスとネイティブに連携できるようにした。Google Drive・Gmail・GitHub などのサービスをGrok から直接参照・操作でき、エージェント的なワークフロー実行を強化する。ChatGPT Connectors・Claude の MCP / connectors に対抗する展開。

ソース: xAI News

エージェント期 Anthropic 2026-05-06

v0.100.0

Anthropic SDK for Python v0.100.0 リリース — Managed Agents の multiagents / outcomes / webhooks 対応

Anthropic 公式 Python SDK の v0.100.0 が公開された。最大の追加は Managed Agents の multiagents / outcomes / webhooks / vault validation をAPI レベルでサポートしたこと。複数エージェントの協調実行と、その結果（outcomes）の受け取り、webhook 経由での非同期イベント通知、Vault による設定検証を一体で扱える。従来の単発リクエスト型から、長時間動作する agent 群の制御に重点を置いた構成になっている。わずか 2 日間で v0.98 → v0.99 → v0.100 と立て続けにバージョンが上がっており、Managed Agents 周りの API 面が急速に固まっている時期にあたる。

ソース: Anthropic SDK (Python) Releases

エージェント期 Anthropic 2026-05-05

May 5, 2026 Announcements Agents for financial services

Anthropic、金融サービス向けエージェントを発表

Anthropic が金融サービス業界向けの専用エージェント群を発表。Claude を基盤に、リサーチ・コンプライアンス・ポートフォリオ分析・顧客対応など金融業務に特化したワークフローを提供する。規制要件・データセキュリティ・監査可能性を組み込んだエンタープライズ向け垂直統合の一例。

ソース: Anthropic News

エージェント期 Anthropic 2026-05-04

v0.98.0

Anthropic SDK for Python v0.98.0 — Managed Agents API 改善・Workload Identity Federation・OAuth 対応

Anthropic 公式 Python SDK v0.98.0 は機能追加が複数まとまった重要リリース。Managed Agents 関連の API が改善され、Workload Identity Federation（AWS/GCP の IAM ロールからの短期トークン交換）、対話型 OAuth ログイン、複数 auth profile の管理機構が一気に入った。これにより、開発者は API キーを直接埋め込まずに各クラウドの IAM ロールや個人 OAuth で認証できるようになる。Anthropic の認証経路がエンタープライズ向けに大きく拡張された節目のリリース。

ソース: Anthropic SDK (Python) Releases

エージェント期 Anthropic 2026-04-16

Introducing Claude Opus 4.7 Product Apr 16, 2026 Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the

Claude Opus 4.7 登場 — コーディング・エージェント・長時間タスクで性能向上

Anthropic は最新世代の Opus モデル「Claude Opus 4.7」を公開した。コーディング、エージェント実行、長時間にわたる連続タスクで前世代を上回る性能を示し、Claude シリーズのフラッグシップとして位置付けられる。前バージョン Opus 4.6 と比較して、複雑な多段ツール呼び出しを伴うタスクの完遂率が向上したほか、コード生成の精度・保守性の評価指標で改善が報告されている。Claude API / Claude Code / Claude.ai 上で利用可能。

ソース: Anthropic News

エージェント期 xAI 2026-04-14

Grok Voice Agent API

Grok Voice Agent API を公開

xAI は会話型音声エージェント構築のための Grok Voice Agent API を公開した。音声入力受信 → 処理 → 音声出力までを一体で扱う API で、電話応答 / カスタマーサポート / 音声アシスタント等の用途を想定。OpenAI Realtime API・Cartesia・Vapi 等と直接競合するレイヤー。

ソース: xAI News

エージェント期 xAI 2026-04-10

Grok 4.1 Fast and Agent Tools API

Grok 4.1 Fast と Agent Tools API — 推論速度と汎用エージェント能力を強化

xAI は Grok 4.1 ベースの高速版 Grok 4.1 Fast を公開し、同時に Agent Tools API を公開した。Fast は推論速度を優先しつつ Grok 4.1 の主要能力を維持。Agent Tools API はWeb 検索・コードインタープリタ・ファイル読み書き等の標準ツールを一体で提供し、汎用エージェントを組み立てる際の摩擦を減らす設計。

ソース: xAI News

エージェント期 Meta AI / Meta 2026-04-08

FEATURED

Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル

Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。

ソース: Meta AI Blog

エージェント期 xAI 2026-04-07

Grok 4.1

Grok 4.1 — 推論・コード・エージェント能力を底上げした主力モデル

xAI は主力モデル Grok 4.1 を公開した。Grok 4 系列の機能改善版として、推論能力・コーディング・エージェント実行に渡って性能向上が見られる。Anthropic Claude Opus 4.7・OpenAI 系最新モデルと並ぶフロンティアモデルとして位置付けられ、Grok の主要 API・X 上のチャット体験で広く採用される。

ソース: xAI News

推論モデル期 Anthropic 2024-10-22

Claude Computer Use （ベータ）公開

Anthropic が Claude 3.5 Sonnet にデスクトップ操作能力を付加した Computer Use をベータ公開。エージェントが画面を見てクリック・入力する世界の幕開け。

ソース: Claude (language model)