インフラが結果に与える具体的な影響はどの程度ですか？

Terminal-Bench 2.0では、最良と最悪のリソース設定間の差は6パーセントポイント（p<0.01）です。SWE-benchでは効果が小さく——5倍のRAM変動で1.54パーセントポイントです。

最適なリソースレベルはどのくらいですか？

3倍のリソースヘッドルームが「スイートスポット」です——インフラエラー率を5.8%から2.1%に削減し（p<0.001）、結果の安定性を維持します。1つの値に厳密に固定するとノイズが増えすぎます。

著者たちがAIコミュニティに向けて出した結論は？

eval設定が文書化・整合されるまで、リーダーボード上3パーセントポイント未満の差は統計的に有意ではありません。eval設定は一等の実験変数でなければなりません。

Anthropic：インフラノイズがエージェントベンチマーク結果を最大6ポイント変動させる

Q: 最適なリソースレベルはどのくらいですか？

3倍のリソースヘッドルームが「スイートスポット」です——インフラエラー率を5.8%から2.1%に削減し（p<0.001）、結果の安定性を維持します。1つの値に厳密に固定するとノイズが増えすぎます。

Q: 著者たちがAIコミュニティに向けて出した結論は？

eval設定が文書化・整合されるまで、リーダーボード上3パーセントポイント未満の差は統計的に有意ではありません。eval設定は一等の実験変数でなければなりません。

Gian Segaもが率い、Nicholas Carlini、Jeremy Hadfield、Mike Merrill、Alex Shawが貢献したAnthropicの研究チームは、2026年4月17日に詳細な研究**「エージェントコーディング評価におけるインフラノイズの定量化」**を発表しました。結果はほぼすべてのAIベンチマークの解釈に影響を与える深刻な方法論的問題を明らかにしています。

主要な発見

インフラ設定——具体的には割り当てられたRAMの量とCPUヘッドルーム——がエージェントコーディングベンチマークの結果を6パーセントポイント変動させることができます。これは現在の主要なリーダーボードでトップモデル間にある差よりも大きいです。

研究者たちは直接的な主張を述べています：「Terminal-Bench 2.0での最もリソースが多い設定と最も少ない設定の差は6パーセントポイントでした（p<0.01）。」

テストされたベンチマーク

研究では2つの標準テストを使用しました：

Terminal-Bench 2.0 — 主要な焦点、ターミナル環境でのエージェントコーディング能力を測定
SWE-bench — 227タスクでのクロスバリデーション

結果は非対称です：Terminal-Bench 2.0は強い効果（6pp）を示しましたが、SWE-benchは感度が低い（5倍のRAM変動で1.54pp）です。これはタスクとツールの特定の構造がベンチマークの「ノイズの多さ」に影響することを示唆しています。

厳格な制限が問題を悪化させる

直感的には「全員に同じリソースを与えれば解決する」と思うかもしれません。しかしデータはその逆を示しています：

厳格な制限（全員に正確な固定値）：インフラエラー率 5.8%
上限なしリソース（無制限）：インフラエラー率 0.5%

つまり、厳格な均一性は実際にはノイズを増加させます。制限を超えたエッジケースのタスクが失敗するからです。

スイートスポット： 3倍のリソースヘッドルーム。この設計でインフラエラーが 2.1% に削減され（p<0.001）、同時に結果の一貫性が維持されます。考え方は各タスクに「フロア」（保証）と「シーリング」（終了閾値）を持たせることで、1つの固定値ではありません。

ノイズフロアとリーダーボードの解釈

著者らがモデル間の小さな差異についてコメントするAIコミュニティに向けた最も鋭いメッセージは：

「eval設定が文書化・整合されるまで、リーダーボード上3パーセントポイント未満の差は懐疑的に見るべきです。」

理由は統計的なものです：二項信頼区間はすでにインフラ効果とは独立して1〜2パーセントポイントをカバーしています。そこに6ppのインフラ交絡因子を加えると、最悪の場合の測定における自然な不確実性は約8ppになります。

5つの具体的な推奨事項

研究者たちは評価者向けの具体的なリストで締めくくっています：

タスクごとに保証された割り当てとハード終了閾値を指定する（1つの固定値ではなく）
フロアとシーリングスコアが統計的ノイズ内に収まるようにギャップを較正する
エンフォースメントの方法論を明示的に報告する
リソース仕様を一等の実験変数として文書化する
時間的ノイズを平均化するために複数日にわたって評価を実行する（APIレイテンシ、クラスター健全性の変動）

なぜこれが業界にとって重要か

著者らの核心的な結論：「リーダーボード上の2ポイントのリードは、本当の能力差を反映している場合もあれば、ある評価がより強力なハードウェアで実行されたこと、あるいは単に1日のうちより幸運な時間帯だったことを反映している場合もあります。」

AIコミュニティにとって、これは結果を発表する際に、より体系的なインフラ文書化の必要性を意味します。正確なRAM、CPU、APIヘッダー、時間ウィンドウの設定なしに発表されるベンチマーク——大多数がそうです——はモデル品質の名目上の差異を完全に埋め尽くすノイズを持っています。

Anthropicの研究はモデル間の差異が1パーセントポイントで測られ、マーケティングがその差異を革命的と呈する時代に登場しました。研究はそこにはるかに大きな注意が必要であることを示しています。