🟢 🤝 エージェント 公開日: · 3 分で読めます ·

arXiv:2605.18747:操作基盤としてのコード——AIエージェントの新しいパラダイム

arXiv:2605.18747 ↗

Editorial illustration: UIUCとNVIDIAの41人の研究者がコードはAIエージェント操作基盤であると主張

UIUCとNVIDIAから41人の研究者が、コードはLLMの単なる出力ではなくエージェントハーネス——推論、行動、検証を一つの枠組みに統合し、信頼性の高いAIシステムを構築するための操作基盤——であると主張しています。

🤖

この記事はAIにより一次情報源から生成されました。

UIUC、NVIDIA、および協力機関から41人の研究者チームが、AIシステムにおけるコードの役割を再概念化するレビューを発表しました:コードはLLMが生成するものだけではありません——コードはエージェントが思考し、行動し、自分の結論を検証するインフラストラクチャです。

エージェントハーネスとは何ですか?

LLMの古典的な使用では、モデルはクエリを受け取り、テキストを返します。エージェントハーネスのパラダイムでは、コードは相互に絡み合った3つの機能を担います。ハーネスインターフェイスとして、エージェントと環境の間のインターフェイスを定義します——どのアクションが利用可能か、状態をどのようにモデル化するか、エージェントがフィードバックシグナルをどのように受け取るかを明確にします。ハーネスメカニズムとして、再現・監査可能な実行可能なフレームワーク内での計画、メモリ管理、ツール使用を可能にします。マルチエージェント基盤として、共有コードが複数のエージェント間の調整の媒体になります——一方のエージェントが共有コードを共通の真実の言語として使用して、もう一方の結論を審査、テスト、反駁できます。

この3層アーキテクチャは、コードの実行エラーは失敗ではなくシグナルであることを意味します。サンドボックスからAssertionErrorまたはTypeErrorを受け取るLLMは、曖昧な主観的評価ではなく、推論の修正に使用できる確定的なフィードバックを得ます。

なぜこれがパラダイムシフトなのですか?

以前のフレームワークは「推論」(LLMがテキストで行うこと)と「行動」(エージェントが環境で行うこと)を分けていました。この論文はそれが偽の境界であると主張します——実行可能なコードは両方を統一します。エージェントが解空間を検索するPythonループを書くとき、同時に計画(コード構造)、行動(実行)、検証(assert文、テスト)を行っています。思考と検証の間に一時停止はありません。

研究者たちは、これが最もシンプルなコードアシスタントから具現化されたロボットまで当てはまることを強調します:すべてのドメインで、コードはエージェントの行動を再現可能で移転可能かつ監査可能にする共通分母です。コードは、3つの条件すべてを同時に満たす唯一の形式的基盤であると彼らは主張します。

まだ開かれた問題は何ですか?

著者たちは6つの重要な課題を特定しています。エージェントの評価は依然として推論プロセス自体の品質ではなく、タスクメトリクスに過度に依存しています。不完全なフィードバック条件での検証——サンドボックスがすべてのエッジケースをカバーできない場合——は未解決のままです。回帰の防止が特に強調されています:新しいスキルを学んだエージェントが古いスキルを劣化させないことをどのように確保するか?マルチエージェント環境では、共有コードを通じた一貫したグローバル状態の管理が根本的な同期の課題をもたらします。最後に、セキュリティクリティカルなアプリケーションでは、人間の監督をハーネス自体に組み込む必要があります——これは手続き的な問題ではなく、アーキテクチャ的な問題です。

この論文は、エージェントを構築する研究者とエンジニアに独自のフレームワークを提供します:「どのLLMを使用すべきか」と問うのではなく、「コードがモデルと現実世界の間の信頼できる媒体となるようにハーネスをどのように構造化するか」という問いがより適切です。

よくある質問

エージェントハーネスとは何ですか?なぜコードが理想的なのですか?
エージェントハーネスは、LLMに推論の構造、行動のためのツール、結果の検証メカニズムを提供する操作基盤です。コードは、形式的に精確で機械実行可能であり、状態、アクション、フィードバックを自然に記述するため理想的です。これはエージェントが推論と検証のループを閉じるために必要なすべてです。
実行可能なコードはLLMの推論をどのように改善しますか?
LLMが検証できない自由テキストを生成する代わりに、コードはモデルにステップの明示的な記録(計画)を強制し、サンドボックスでの実行(検証)を可能にし、正確性について確定的なシグナルを返します。実行エラーはシグナルです——失敗ではありません。これにより、推論が潜在空間から監査・修正可能な空間に移行します。
エージェントハーネスとしてのコードのパラダイムはどのドメインをカバーしていますか?
研究者はコードアシスタント、GUI/OS自動化、具現化エージェント(ロボット、シミュレーション)、科学的発見、パーソナライズされたシステム、DevOps、エンタープライズワークフローへの応用を分析しました。共通点は常に同じです——実行可能なコードがLLMと環境の間のインターフェイスです。