33 種類のフロンティア LLM を対象に、ドメイン別のメタ認知能力(自分の知識・無知の自覚)を包括的に評価した大規模スタディ。モデルが『自分が間違える可能性を正しく見積もれるか』を計測し、ドメイン・スケール・推論モード別の傾向を提示する。ハルシネーション抑制やエージェント実行時の自己検証戦略を設計する基礎データとして有用。

ポイント

  • 33 モデル横断のメタ認知能力アトラス
  • ドメイン・スケール・推論モード別の傾向を提示
  • ハルシネーション抑制・エージェント自己検証の基礎データ

ソース

arXiv cs.CL