その他

記事 18 件

エージェント期 その他 2026-05-11

SOV/SOMだけでは足りない LLMO効果測定の最小実装と3つの新指標

LLMO 効果測定の最小実装 — SOV / SOM だけでは足りない 3 つの新指標

LLM 経由のサイト流入を最適化する LLMO(Large Language Model Optimization)の効果測定手法をまとめた記事。従来の SOV (Share of Voice) / SOM (Share of Mentions) だけでは LLMO 効果を捉えきれないと指摘し、①引用回数の質的評価、②引用範囲(文脈)、③ファクト解像度の 3 軸からなる新指標を提案。実装の最小コード例も含む実践的な記事。

ソース: Zenn (ai)

エージェント期 その他 2026-05-11

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

33 モデル横断調査 — フロンティア LLM のドメイン別メタ認知能力アトラス

33 種類のフロンティア LLM を対象に、ドメイン別のメタ認知能力(自分の知識・無知の自覚)を包括的に評価した大規模スタディ。モデルが『自分が間違える可能性を正しく見積もれるか』を計測し、ドメイン・スケール・推論モード別の傾向を提示する。ハルシネーション抑制やエージェント実行時の自己検証戦略を設計する基礎データとして有用。

ソース: arXiv cs.CL

推論モデル期 その他 2026-05-11

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立

推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。

ソース: arXiv cs.AI

エージェント期 その他 2026-05-11

Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion

Entropy-Gated Continuous Bitstream Diffusion — 自己回帰モデルとのギャップを縮める拡散モデル

言語モデリングにおける自己回帰モデルとのギャップを縮める Entropy-Gated Continuous Bitstream Diffusionという新アーキテクチャを提案。連続ビットストリーム空間で拡散プロセスを動かしつつ、エントロピーで生成タイミングをゲートする設計により、長らく自己回帰モデルが優勢だった言語生成領域で拡散モデルが競争力を取り戻す可能性を示す。

ソース: arXiv cs.CL

推論モデル期 その他 2026-05-11

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す

LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。

ソース: arXiv cs.AI

エージェント期 その他 2026-05-11

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM エージェントのメモリ機構サーベイ — ストレージから経験へ

LLM エージェントのメモリ機構の進化を体系的にサーベイした論文。単なる『ストレージ』としてのメモリから、行動履歴を抽象化して『経験 (experience)』として活用するメカニズムへの移行を整理。short-term / long-term / episodic / semantic 等の階層、retrieval 戦略、自己反省・要約による圧縮、外部 store との統合などを網羅。Anthropic / OpenAI / Google の各エージェント実装の理論的整理に有用。

ソース: arXiv cs.AI

推論モデル期 その他 2026-05-11

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

推論を増やすほどバイアスも増える — 推論モデルの長さ駆動型位置バイアス

推論モデル(reasoning models, e.g., o1 / Claude reasoning)における『長さ駆動型位置バイアス (length-driven position bias)』を発見した論文。推論ステップが長くなるほど、最初・最後の選択肢を選びやすくなる系統的バイアスが強まることを示す。『より考えさせれば良い答えが得られる』という素朴な期待への警鐘で、reasoning 系モデルの evaluation 設計に影響する重要な findings。

ソース: arXiv cs.AI

エージェント期 その他 2026-05-11

Securing Computer-Use Agents: A Unified Architecture-Lifecycle Framework for Deployment-Grounded Reliability

コンピュータ使用エージェントのセキュリティ — Architecture-Lifecycle 統合フレームワーク

コンピュータを操作するエージェント(computer-use agent)の信頼性向上を狙ったArchitecture-Lifecycle 統合フレームワーク。設計・運用・廃止までのライフサイクルを通して、権限管理・実行隔離・ログ・人間監督の各レイヤを統合的に扱う。Claude Computer Use・Anthropic Operator・OpenAI Operator の本番展開で問題になるセキュリティ設計に対する学術的フレームワーク提案。

ソース: arXiv cs.CL

エージェント期 その他 2026-05-11

AIエージェントが「Figma」でデザインを作成・編集可能に “意図しないUI生成”を防ぐ仕組みとは

Figma 上の AI エージェントがデザインを作成・編集可能に — 意図しない UI 生成を防ぐ仕組み

Figma が AI エージェント機能を導入し、デザインを作成・編集できるようにした。意図しない UI が生成されることを防ぐため、デザインシステム・コンポーネントライブラリの制約をエージェントに渡す仕組みを採用。デザインツールにエージェントを組み込む際の実装パターンとして参考になる。

ソース: ITmedia AI+

エージェント期 その他 2026-05-11

“ChatGPT以後”に公開のWebサイト、35%がAI生成に? 米スタンフォード大などが調査 広まる「不自然に明るい文章」

ChatGPT 以後に公開された Web サイトの 35% が AI 生成 — 米スタンフォード大調査

米スタンフォード大学らの調査で、ChatGPT 公開後にローンチされた Web サイトの約 35% に AI 生成テキストが含まれていることが明らかになった。『不自然に明るい』文章スタイル等から AI 生成を検出。AI 生成コンテンツが Web を急速に侵食している実態を示すデータで、今後の検索・SEO・コンテンツ評価の在り方に影響する。

ソース: ITmedia AI+

エージェント期 その他 2026-05-11

「まるで一反もめん」と話題の“人型重機” JRも活用する技術を市販ロボに 国産スタートアップ人機一体

国産スタートアップ『人機一体』、JR も使う人型重機を市販へ

日本のスタートアップ『人機一体』が、JR でも利用される産業用人型ロボット(人型重機)を市販化する。「一反もめんのようだ」と話題の独特な形状を持ち、人間の動きをトレースしてロボットを遠隔操作する半自律システム。AI 直結というよりはロボティクス + テレオペレーションだが、産業 AI 応用の周辺領域として注目される。

ソース: ITmedia AI+

エージェント期 その他 2026-05-11

TGR-DがAI-CAE技術を導入 RICOSとレーシングカー空力解析を検証

TGR-D、AI-CAE 技術を導入 — RICOS とレーシングカー空力解析を検証

Toyota GAZOO Racing-D (TGR-D) は AI ベースの CAE (Computer-Aided Engineering) 技術を導入し、RICOS との連携でレーシングカーの空力解析を高速化・高精度化する実証を進めている。従来の数値シミュレーションに ML を組み合わせることで反復計算サイクルを短縮し、車両セッティング決定の意思決定を加速する取り組み。

ソース: ITmedia AI+

エージェント期 その他 2026-05-10

AI生成の「ゴミ報告」が殺到、対応追い付かず疲弊……脆弱性発見の懸賞金制度に異変

AI 生成の『ゴミ報告』が殺到 — 脆弱性発見の懸賞金制度に異変

脆弱性発見 bug bounty 制度に AI 生成の低品質報告が殺到し、対応する側のセキュリティチームが疲弊している実態を伝える記事。LLM を使った自動報告生成が容易になった結果、実体のない『AI が作った』脆弱性レポートの数が爆発的に増え、運営側が真の脆弱性報告を選別するコストが急増。AI が引き起こしている人間労働への副作用の典型例。

ソース: ITmedia AI+

エージェント期 その他 2026-05-10

LLM に日本の法令・法規を正しく引かせるために、日本の法規 MCP ファミリーを作った話

日本の法令・法規 MCP サーバーファミリーを作って LLM に正しく引用させる

日本の法令・法規を LLM に正しく引用させるための MCP サーバーファミリーを開発した報告。e-Gov 法令検索 API を MCP として包んで、Claude や ChatGPT 等が正確な条文と最新の改正状況を引いて回答できるようにする。LLM の hallucination 抑制 + 日本のリーガルテックでの実用化に向けた一歩。

ソース: Zenn (llm)

エージェント期 その他 2026-05-10

書籍のOCRにLLMを組み合わせることで精度を上げるだけでなく文書構造や図も表現した記録

書籍 OCR に LLM を組み合わせ、精度向上 + 文書構造・図表現も保持

書籍の OCR に LLM を組み合わせることで、単なる文字認識精度を上げるだけでなく、文書構造(章・節・段落)や図表の構造も保持する処理パイプラインを構築した記録。OCR 結果を LLM で後処理することで誤読を修正しつつ、見出し階層・図キャプション・表構造を Markdown / JSON で表現できる。古書のデジタル化や RAG 用ソース整備に有用。

ソース: Zenn (llm)

エージェント期 その他 2026-05-10

「え、就職の面接官がAIだって?」 普及する“AI面接官”への困惑と改善要望【調査】

AI 面接官の普及と困惑 — 求職者への影響と改善要望

就職面接の場で AI 面接官(応募者の音声・動画・回答を AI が解析・評価する)が普及している実態と、求職者からの困惑・改善要望をまとめた調査記事。効率化のメリットはあるが、判定の透明性、感情の機微への対応、公平性への懸念が指摘されている。エンタープライズ AI の社会的影響を映す事例。

ソース: ITmedia AI+

エージェント期 その他 2026-05-08

Running Codex safely at OpenAI

How OpenAI runs Codex securely with sandboxing, approvals, network policies, and agent-native telemetry to support safe and compliant coding agent adoption.

ソース: OpenAI Blog

エージェント期 その他 2026-05-08

国立国会図書館、「AI動向」に関する調査資料を無料公開中

国立国会図書館、「AI 動向」に関する調査資料を無料公開

国立国会図書館が AI 動向に関する調査資料を無料で一般公開した。AI 技術の研究動向、社会的影響、政策動向、各国の規制等を体系的にまとめた資料で、AI に関する公的なナレッジソースとして有用。日本国内における AI に関する公共資料整備の事例として注目される。

ソース: ITmedia AI+