OpenAI와 Cloudflare: GPT-5.4 및 Codex가 엔터프라이즈용 신규 Agent Cloud 플랫폼 가동
Cloudflare가 OpenAI의 GPT-5.4 및 Codex 모델을 새로운 Agent Cloud 플랫폼에 통합하여, 엔터프라이즈 사용자가 속도와 보안에 중점을 둔 실제 비즈니스 작업용 AI 에이전트를 구축, 배포, 확장할 수 있게 되었습니다.
12 개 뉴스
Cloudflare가 OpenAI의 GPT-5.4 및 Codex 모델을 새로운 Agent Cloud 플랫폼에 통합하여, 엔터프라이즈 사용자가 속도와 보안에 중점을 둔 실제 비즈니스 작업용 AI 에이전트를 구축, 배포, 확장할 수 있게 되었습니다.
Allen Institute for AI가 지식 테스트에서의 AI 성과와 실제 과학적 발견 능력 사이의 극적인 격차를 드러내는 두 가지 벤치마크를 분석했습니다. 모델은 교과서 수준에서 80%에 도달하지만 복잡한 과학 과제에서는 20%로 떨어집니다.
새로운 벤치마크 HiL-Bench는 AI 에이전트가 자신의 한계를 인식하고 추측 대신 인간의 도움을 요청하는 능력을 측정합니다. 결과에 따르면 프론티어 모델조차 도움이 필요한 시점을 제대로 판단하지 못하지만, 목적에 맞는 트레이닝으로 이 능력을 개선할 수 있습니다.
새로운 벤치마크가 AI 에이전트의 판단력에서 보편적인 결함을 드러냈다 — 사양이 불완전할 때, 어떤 프론티어 모델도 전체 성능의 극히 일부밖에 달성하지 못한다. 연구자들은 이 능력이 강화학습으로 훈련 가능함을 보여주었다.
고객 서비스를 위한 새로운 벤치마크가 두 가지 현상을 밝혔다: 'Execution Gap'(모델이 의도를 정확히 분류하지만 올바른 조치를 실행하지 않음)과 'Empathy Resilience'(모델이 논리적 오류를 범하면서도 예의를 유지함).
GitHub은 4월 10일 Copilot CLI 도구에 대한 공식 튜토리얼을 발표했습니다. 이 가이드는 npm을 통한 설치, GitHub 계정을 사용한 인증, 클라우드 에이전트에게 작업을 위임하는 것을 포함한 실용적인 예를 다룹니다.
Anthropic은 AI 에이전트를 신뢰할 수 있는 방식으로 개발, 배포 및 사용하는 것이 무엇을 의미하는지 정의하는 포괄적인 정책 프레임워크 'Trustworthy agents in practice'를 발표했습니다. 이 문서는 에이전트를 구축하거나 사용하는 기업을 위한 지침으로 작동합니다.
새로운 논문 PASK는 의도 감지, 하이브리드 메모리, 자발적 행동을 결합한 능동적 AI 에이전트 프레임워크를 제시합니다. IntentFlow 모델은 잠재적 사용자 니즈 인식에서 선도적인 Gemini 3 Flash 모델 수준에 도달했습니다.
ACL 2026에 채택된 새로운 방법 SAVeR(Self-Audited Verified Reasoning)는 LLM 에이전트가 행동을 실행하기 전에 자체적으로 검토할 수 있게 합니다. 목표: 논리적 제약을 위반하는 일관된 추론이 잘못된 결정으로 이어지는 것을 방지합니다.
연구자들은 KnowU-Bench를 발표했습니다. 이는 장기간 사용을 통한 상호작용성, 능동성, 개인화에 초점을 맞춘 새로운 세대의 모바일 AI 에이전트를 평가하기 위한 포괄적인 벤치마크입니다.
Amazon이 엔터프라이즈 조직을 위한 AI 에이전트, 도구, 에이전트 스킬의 중앙 카탈로그인 AWS Agent Registry의 프리뷰를 공개했습니다. 이 시스템은 호스팅 위치(AWS, 타 클라우드, 온프레미스)와 무관하게 에이전트를 색인하며, 키워드와 시맨틱 검색 조합과 함께 IAM 기반 접근 제어를 사용합니다.
Amazon이 Bedrock AgentCore Runtime에 세 가지 새로운 MCP 기능을 추가했습니다 — elicitation(사용자로부터 구조화된 입력 요청), sampling(클라이언트로부터 LLM 완성 요청), 진행 알림입니다. 스테이트풀 세션은 이제 격리된 microvM에서 최대 8시간까지 지속될 수 있으며, 에이전트와 클라이언트 간 양방향 통신을 가능하게 합니다.