評価手法・指標設計・ベンチマーク結果（LMSys / SWE-bench / MMLU / ARC 等。性能向上の発表は capability-update を優先）

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 4 件

エージェント期その他 2026-05-11

SOV/SOMだけでは足りない LLMO効果測定の最小実装と3つの新指標

LLMO 効果測定の最小実装 — SOV / SOM だけでは足りない 3 つの新指標

LLM 経由のサイト流入を最適化する LLMO（Large Language Model Optimization）の効果測定手法をまとめた記事。従来の SOV (Share of Voice) / SOM (Share of Mentions) だけでは LLMO 効果を捉えきれないと指摘し、①引用回数の質的評価、②引用範囲（文脈）、③ファクト解像度の 3 軸からなる新指標を提案。実装の最小コード例も含む実践的な記事。

ソース: Zenn (ai)

エージェント期その他 2026-05-11

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

33 モデル横断調査 — フロンティア LLM のドメイン別メタ認知能力アトラス

33 種類のフロンティア LLM を対象に、ドメイン別のメタ認知能力（自分の知識・無知の自覚）を包括的に評価した大規模スタディ。モデルが『自分が間違える可能性を正しく見積もれるか』を計測し、ドメイン・スケール・推論モード別の傾向を提示する。ハルシネーション抑制やエージェント実行時の自己検証戦略を設計する基礎データとして有用。

ソース: arXiv cs.CL

推論モデル期その他 2026-05-11

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

LLM の推論トレースから探索木を抽出 — 計画が近視眼的であることを示す

LLM の chain-of-thought 推論トレースから内部の探索木 (search tree) を抽出する手法を提案し、それを用いて『LLM の計画は近視眼的 (myopic)』であることを実証した論文。短期報酬を最大化する手は得意でも、長期的に得な探索を選ぶことが少ない。reasoning モデル・agent の長期計画の限界を可視化する findings。

ソース: arXiv cs.AI

推論モデル期その他 2026-05-11

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

推論を増やすほどバイアスも増える — 推論モデルの長さ駆動型位置バイアス

推論モデル（reasoning models, e.g., o1 / Claude reasoning）における『長さ駆動型位置バイアス (length-driven position bias)』を発見した論文。推論ステップが長くなるほど、最初・最後の選択肢を選びやすくなる系統的バイアスが強まることを示す。『より考えさせれば良い答えが得られる』という素朴な期待への警鐘で、reasoning 系モデルの evaluation 設計に影響する重要な findings。

ソース: arXiv cs.AI