安全性・アラインメント研究・レッドチーミング・透明性

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 8 件

推論モデル期その他 2026-05-11

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Behavior Cue Reasoning — 監督可能な推論で安全性と効率を両立

推論を『観察可能 (monitorable)』にする手法 Behavior Cue Reasoning を提案。推論ステップに振る舞いの cue (兆候・動機) を添えることで、人間や検査システムが推論プロセスを監督しやすくなる。同時に、不要な冗長思考を抑えるため効率も向上。alignment / safety と推論効率を同時に改善する手法として実用性が高い findings。

ソース: arXiv cs.AI

推論モデル期その他 2026-05-11

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

推論を増やすほどバイアスも増える — 推論モデルの長さ駆動型位置バイアス

推論モデル（reasoning models, e.g., o1 / Claude reasoning）における『長さ駆動型位置バイアス (length-driven position bias)』を発見した論文。推論ステップが長くなるほど、最初・最後の選択肢を選びやすくなる系統的バイアスが強まることを示す。『より考えさせれば良い答えが得られる』という素朴な期待への警鐘で、reasoning 系モデルの evaluation 設計に影響する重要な findings。

ソース: arXiv cs.AI

エージェント期その他 2026-05-11

Securing Computer-Use Agents: A Unified Architecture-Lifecycle Framework for Deployment-Grounded Reliability

コンピュータ使用エージェントのセキュリティ — Architecture-Lifecycle 統合フレームワーク

コンピュータを操作するエージェント（computer-use agent）の信頼性向上を狙ったArchitecture-Lifecycle 統合フレームワーク。設計・運用・廃止までのライフサイクルを通して、権限管理・実行隔離・ログ・人間監督の各レイヤを統合的に扱う。Claude Computer Use・Anthropic Operator・OpenAI Operator の本番展開で問題になるセキュリティ設計に対する学術的フレームワーク提案。

ソース: arXiv cs.CL

エージェント期その他 2026-05-10

AI生成の「ゴミ報告」が殺到、対応追い付かず疲弊……脆弱性発見の懸賞金制度に異変

AI 生成の『ゴミ報告』が殺到 — 脆弱性発見の懸賞金制度に異変

脆弱性発見 bug bounty 制度に AI 生成の低品質報告が殺到し、対応する側のセキュリティチームが疲弊している実態を伝える記事。LLM を使った自動報告生成が容易になった結果、実体のない『AI が作った』脆弱性レポートの数が爆発的に増え、運営側が真の脆弱性報告を選別するコストが急増。AI が引き起こしている人間労働への副作用の典型例。

ソース: ITmedia AI+

エージェント期その他 2026-05-10

「え、就職の面接官がAIだって？」　普及する“AI面接官”への困惑と改善要望【調査】

AI 面接官の普及と困惑 — 求職者への影響と改善要望

就職面接の場で AI 面接官（応募者の音声・動画・回答を AI が解析・評価する）が普及している実態と、求職者からの困惑・改善要望をまとめた調査記事。効率化のメリットはあるが、判定の透明性、感情の機微への対応、公平性への懸念が指摘されている。エンタープライズ AI の社会的影響を映す事例。

ソース: ITmedia AI+

エージェント期 Anthropic 2026-05-01

Responsible Scaling Policy

Anthropic、Responsible Scaling Policy を更新

Anthropic は AI 安全性の中核フレームワークである Responsible Scaling Policy (RSP) を更新した。AI Safety Level (ASL) の閾値・要件・モニタリング指標を見直し、より能力が高いモデルに対する追加コミットメントを明文化した。サイバーセキュリティ・生物兵器関連リスク等の category-specific evaluation を強化し、フロンティアモデル開発における自主規制の透明化を進める。

ソース: Anthropic News

エージェント期 Anthropic 2026-04-24

Apr 24, 2026 Announcements An update on our election safeguards

Anthropic、選挙関連セーフガードの更新を公表

Anthropic は Claude の選挙関連セーフガードに関する最新状況を公表した。選挙関連の誤情報・偽動画・なりすまし生成への対策、公式情報源への誘導、政策中立性の保持などのガードレールを継続的に更新している。2026 年の各国選挙サイクルに合わせ、検出ルール・拒否ポリシー・外部ファクトチェック機関との連携を強化する内容。

ソース: Anthropic News

エージェント期 Meta AI / Meta 2026-04-08

FEATURED

Meta、Advanced AI Scaling Framework と Muse Spark 安全性レポートを公開

Meta は AI モデル能力の向上に合わせて安全策をスケールさせる枠組み「Advanced AI Scaling Framework」を公開し、同時に Muse Spark の Safety & Preparedness Report を提示した。従来の Frontier AI Framework を拡張する形で、能力評価・モニタリング・対策展開のサイクルを明文化し、より能力の高いモデルに対する追加要件を盛り込む。

ソース: Meta AI Blog