エージェント・computer use・tool use
記事 19 件
エージェント期 OpenAI 2026-05-11
OpenAI が企業向け AI 導入支援会社「DeployCo」を設立
OpenAI は 2026 年 5 月 11 日、企業が最先端 AI を本番運用に導入し、測定可能なビジネスインパクトに変換することを支援する新会社「DeployCo」を発表した。これは OpenAI 本体のモデル開発と並行して、フロンティア AI を「企業価値」に変える実装層を専門に担う組織として位置づけられる。
ソース: OpenAI Blog
エージェント期 AnthropicAmazon / AWS 2026-05-11
Claude Code に AWS コスト調査をさせて数千万円の改善点を発見
ジーニー社が Claude Code に AWS コストの調査をさせた結果、数千万円規模の改善ポイントを発見したケーススタディ。Claude Code が CloudWatch・Cost Explorer・タグ付け状況を横断的に分析し、未使用 EBS volume、過剰プロビジョンされた RDS、リザーブドインスタンス未活用などを抽出。AI エージェントによるクラウドコスト最適化の具体事例として有用。
ソース: Zenn (ai)
推論モデル期 その他 2026-05-11
LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す
LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。
ソース: arXiv cs.AI
エージェント期 その他 2026-05-11
LLM エージェントのメモリ機構サーベイ — ストレージから経験へ
LLM エージェントのメモリ機構の進化を体系的にサーベイした論文。単なる『ストレージ』としてのメモリから、行動履歴を抽象化して『経験 (experience)』として活用するメカニズムへの移行を整理。short-term / long-term / episodic / semantic 等の階層、retrieval 戦略、自己反省・要約による圧縮、外部 store との統合などを網羅。Anthropic / OpenAI / Google の各エージェント実装の理論的整理に有用。
ソース: arXiv cs.AI
エージェント期 その他 2026-05-11
コンピュータ使用エージェントのセキュリティ — Architecture-Lifecycle 統合フレームワーク
コンピュータを操作するエージェント(computer-use agent)の信頼性向上を狙ったArchitecture-Lifecycle 統合フレームワーク。設計・運用・廃止までのライフサイクルを通して、権限管理・実行隔離・ログ・人間監督の各レイヤを統合的に扱う。Claude Computer Use・Anthropic Operator・OpenAI Operator の本番展開で問題になるセキュリティ設計に対する学術的フレームワーク提案。
ソース: arXiv cs.CL
エージェント期 その他 2026-05-11
Figma 上の AI エージェントがデザインを作成・編集可能に — 意図しない UI 生成を防ぐ仕組み
Figma が AI エージェント機能を導入し、デザインを作成・編集できるようにした。意図しない UI が生成されることを防ぐため、デザインシステム・コンポーネントライブラリの制約をエージェントに渡す仕組みを採用。デザインツールにエージェントを組み込む際の実装パターンとして参考になる。
ソース: ITmedia AI+
エージェント期 その他 2026-05-10
日本の法令・法規 MCP サーバーファミリーを作って LLM に正しく引用させる
日本の法令・法規を LLM に正しく引用させるための MCP サーバーファミリーを開発した報告。e-Gov 法令検索 API を MCP として包んで、Claude や ChatGPT 等が正確な条文と最新の改正状況を引いて回答できるようにする。LLM の hallucination 抑制 + 日本のリーガルテックでの実用化に向けた一歩。
ソース: Zenn (llm)
エージェント期 Mistral AI 2026-05-08
Mistral Medium 3.5 発表 — Vibe にリモートコーディングエージェントを統合
Mistral は新モデル「Mistral Medium 3.5」を発表し、同社のコーディング環境 Vibe でリモートコーディングエージェントを利用できるようにした。Medium 3.5 を駆動エンジンとし、Vibe からクラウド側でエージェントがリポジトリへの長時間タスク(マルチファイル変更・テスト・PR 作成)を実行する。Anthropic Claude Code・OpenAI Codex に対抗するエージェント型 IDE 戦略の一環。
ソース: Mistral News
エージェント期 OpenAI 2026-05-07
OpenAI Python SDK v2.36.0 — Realtime v2 対応
OpenAI 公式 Python SDK v2.36.0 は Realtime API の第 2 世代(realtime 2)に対応した。従来 v1 で提供されていた音声・テキストの双方向ストリーミング API が刷新された世代にアップグレードされ、SDK 側もそのインターフェースを公開する。実時間で音声入出力を扱う Voice Agent 構築の主要パスとして、OpenAI 側の更新とSDK 側の追従が短期間で揃った形になる。
ソース: OpenAI Python SDK Releases
エージェント期 xAI 2026-05-07
Grok Connectors — Web / iOS / Android で外部サービス連携
xAI は Grok に Connectors 機能を追加し、Web・iOS・Android で外部サービスとネイティブに連携できるようにした。Google Drive・Gmail・GitHub などのサービスをGrok から直接参照・操作でき、エージェント的なワークフロー実行を強化する。ChatGPT Connectors・Claude の MCP / connectors に対抗する展開。
ソース: xAI News
エージェント期 Anthropic 2026-05-06
Anthropic SDK for Python v0.100.0 リリース — Managed Agents の multiagents / outcomes / webhooks 対応
Anthropic 公式 Python SDK の v0.100.0 が公開された。最大の追加は Managed Agents の multiagents / outcomes / webhooks / vault validation をAPI レベルでサポートしたこと。複数エージェントの協調実行と、その結果(outcomes)の受け取り、webhook 経由での非同期イベント通知、Vault による設定検証を一体で扱える。従来の単発リクエスト型から、長時間動作する agent 群の制御に重点を置いた構成になっている。わずか 2 日間で v0.98 → v0.99 → v0.100 と立て続けにバージョンが上がっており、Managed Agents 周りの API 面が急速に固まっている時期にあたる。
ソース: Anthropic SDK (Python) Releases
エージェント期 Anthropic 2026-05-05
Anthropic、金融サービス向けエージェントを発表
Anthropic が金融サービス業界向けの専用エージェント群を発表。Claude を基盤に、リサーチ・コンプライアンス・ポートフォリオ分析・顧客対応など金融業務に特化したワークフローを提供する。規制要件・データセキュリティ・監査可能性を組み込んだエンタープライズ向け垂直統合の一例。
ソース: Anthropic News
エージェント期 Anthropic 2026-05-04
Anthropic SDK for Python v0.98.0 — Managed Agents API 改善・Workload Identity Federation・OAuth 対応
Anthropic 公式 Python SDK v0.98.0 は機能追加が複数まとまった重要リリース。Managed Agents 関連の API が改善され、Workload Identity Federation(AWS/GCP の IAM ロールからの 短期トークン交換)、対話型 OAuth ログイン、複数 auth profile の管理機構が一気に入った。これにより、開発者は API キーを直接埋め込まずに各クラウドの IAM ロールや個人 OAuth で認証できるようになる。Anthropic の認証経路がエンタープライズ向けに大きく拡張された節目のリリース。
ソース: Anthropic SDK (Python) Releases
エージェント期 Anthropic 2026-04-16
Claude Opus 4.7 登場 — コーディング・エージェント・長時間タスクで性能向上
Anthropic は最新世代の Opus モデル「Claude Opus 4.7」を公開した。コーディング、エージェント実行、長時間にわたる連続タスクで前世代を上回る性能を示し、Claude シリーズのフラッグシップとして位置付けられる。前バージョン Opus 4.6 と比較して、複雑な多段ツール呼び出しを伴うタスクの完遂率が向上したほか、コード生成の精度・保守性の評価指標で改善が報告されている。Claude API / Claude Code / Claude.ai 上で利用可能。
ソース: Anthropic News
エージェント期 xAI 2026-04-14
Grok Voice Agent API を公開
xAI は会話型音声エージェント構築のための Grok Voice Agent API を公開した。音声入力受信 → 処理 → 音声出力までを一体で扱う API で、電話応答 / カスタマーサポート / 音声アシスタント等の用途を想定。OpenAI Realtime API・Cartesia・Vapi 等と直接競合するレイヤー。
ソース: xAI News
エージェント期 xAI 2026-04-10
Grok 4.1 Fast と Agent Tools API — 推論速度と汎用エージェント能力を強化
xAI は Grok 4.1 ベースの高速版 Grok 4.1 Fast を公開し、同時に Agent Tools API を公開した。Fast は推論速度を優先しつつ Grok 4.1 の主要能力を維持。Agent Tools API はWeb 検索・コードインタープリタ・ファイル読み書き等の標準ツールを一体で提供し、汎用エージェントを組み立てる際の摩擦を減らす設計。
ソース: xAI News
エージェント期 Meta AI / Meta 2026-04-08
Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル
Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。
ソース: Meta AI Blog
エージェント期 xAI 2026-04-07
Grok 4.1 — 推論・コード・エージェント能力を底上げした主力モデル
xAI は主力モデル Grok 4.1 を公開した。Grok 4 系列の機能改善版として、推論能力・コーディング・エージェント実行に渡って性能向上が見られる。Anthropic Claude Opus 4.7・OpenAI 系最新モデルと並ぶフロンティアモデルとして位置付けられ、Grok の主要 API・X 上のチャット体験で広く採用される。
ソース: xAI News
推論モデル期 Anthropic 2024-10-22
Anthropic が Claude 3.5 Sonnet にデスクトップ操作能力を付加した Computer Use をベータ公開。エージェントが画面を見てクリック・入力する世界の幕開け。
ソース: Claude (language model)