🤖 24 AI

🤝 에이전트

12 개 뉴스

🔴 🤝 에이전트 2026년 4월 14일 · 1 분 읽기

OpenAI와 Cloudflare: GPT-5.4 및 Codex가 엔터프라이즈용 신규 Agent Cloud 플랫폼 가동

Cloudflare가 OpenAI의 GPT-5.4 및 Codex 모델을 새로운 Agent Cloud 플랫폼에 통합하여, 엔터프라이즈 사용자가 속도와 보안에 중점을 둔 실제 비즈니스 작업용 AI 에이전트를 구축, 배포, 확장할 수 있게 되었습니다.

🟡 🤝 에이전트 2026년 4월 14일 · 2 분 읽기

AI2: AI 에이전트는 교과서 과학의 80%를 풀지만, 실제 과학 문제는 20%에 불과합니다

Allen Institute for AI가 지식 테스트에서의 AI 성과와 실제 과학적 발견 능력 사이의 극적인 격차를 드러내는 두 가지 벤치마크를 분석했습니다. 모델은 교과서 수준에서 80%에 도달하지만 복잡한 과학 과제에서는 20%로 떨어집니다.

🟡 🤝 에이전트 2026년 4월 14일 · 2 분 읽기

ArXiv HiL-Bench: AI 에이전트는 도움을 요청해야 할 때를 알고 있습니까?

새로운 벤치마크 HiL-Bench는 AI 에이전트가 자신의 한계를 인식하고 추측 대신 인간의 도움을 요청하는 능력을 측정합니다. 결과에 따르면 프론티어 모델조차 도움이 필요한 시점을 제대로 판단하지 못하지만, 목적에 맞는 트레이닝으로 이 능력을 개선할 수 있습니다.

🔴 🤝 에이전트 2026년 4월 13일 · 2 분 읽기

ArXiv HiL-Bench: 어떤 프론티어 모델도 언제 도움을 요청해야 하는지 모른다

새로운 벤치마크가 AI 에이전트의 판단력에서 보편적인 결함을 드러냈다 — 사양이 불완전할 때, 어떤 프론티어 모델도 전체 성능의 극히 일부밖에 달성하지 못한다. 연구자들은 이 능력이 강화학습으로 훈련 가능함을 보여주었다.

🟢 🤝 에이전트 2026년 4월 13일 · 1 분 읽기

ArXiv SAGE: 27개 LLM 테스트 — 모델은 의도를 이해하지만 올바르게 실행하지 못한다

고객 서비스를 위한 새로운 벤치마크가 두 가지 현상을 밝혔다: 'Execution Gap'(모델이 의도를 정확히 분류하지만 올바른 조치를 실행하지 않음)과 'Empathy Resilience'(모델이 논리적 오류를 범하면서도 예의를 유지함).

🟡 🤝 에이전트 2026년 4월 12일 · 2 분 읽기

GitHub Copilot CLI: 초보자를 위한 공식 가이드 — 터미널에서 클라우드 에이전트에 작업 위임

GitHub은 4월 10일 Copilot CLI 도구에 대한 공식 튜토리얼을 발표했습니다. 이 가이드는 npm을 통한 설치, GitHub 계정을 사용한 인증, 클라우드 에이전트에게 작업을 위임하는 것을 포함한 실용적인 예를 다룹니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

Anthropic, 정책 프레임워크 'Trustworthy agents in practice' 발표

Anthropic은 AI 에이전트를 신뢰할 수 있는 방식으로 개발, 배포 및 사용하는 것이 무엇을 의미하는지 정의하는 포괄적인 정책 프레임워크 'Trustworthy agents in practice'를 발표했습니다. 이 문서는 에이전트를 구축하거나 사용하는 기업을 위한 지침으로 작동합니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv PASK: 사용자 의도를 예측하는 장기 메모리를 갖춘 능동적 AI 에이전트

새로운 논문 PASK는 의도 감지, 하이브리드 메모리, 자발적 행동을 결합한 능동적 AI 에이전트 프레임워크를 제시합니다. IntentFlow 모델은 잠재적 사용자 니즈 인식에서 선도적인 Gemini 3 Flash 모델 수준에 도달했습니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv SAVeR: LLM 에이전트를 위한 자가 감사 — 실행 전 검증 (ACL 2026)

ACL 2026에 채택된 새로운 방법 SAVeR(Self-Audited Verified Reasoning)는 LLM 에이전트가 행동을 실행하기 전에 자체적으로 검토할 수 있게 합니다. 목표: 논리적 제약을 위반하는 일관된 추론이 잘못된 결정으로 이어지는 것을 방지합니다.

🟢 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv KnowU-Bench: 상호작용적이고 능동적인 모바일 AI 에이전트를 위한 새로운 벤치마크

연구자들은 KnowU-Bench를 발표했습니다. 이는 장기간 사용을 통한 상호작용성, 능동성, 개인화에 초점을 맞춘 새로운 세대의 모바일 AI 에이전트를 평가하기 위한 포괄적인 벤치마크입니다.

🟡 🤝 에이전트 2026년 4월 10일 · 2 분 읽기

AWS Agent Registry: 엔터프라이즈용 AI 에이전트 카탈로그 프리뷰 공개

Amazon이 엔터프라이즈 조직을 위한 AI 에이전트, 도구, 에이전트 스킬의 중앙 카탈로그인 AWS Agent Registry의 프리뷰를 공개했습니다. 이 시스템은 호스팅 위치(AWS, 타 클라우드, 온프레미스)와 무관하게 에이전트를 색인하며, 키워드와 시맨틱 검색 조합과 함께 IAM 기반 접근 제어를 사용합니다.

🟡 🤝 에이전트 2026년 4월 10일 · 2 분 읽기

AWS Bedrock AgentCore: 스테이트풀 MCP 클라이언트가 인터랙티브 AI 워크플로우를 가능하게 하다

Amazon이 Bedrock AgentCore Runtime에 세 가지 새로운 MCP 기능을 추가했습니다 — elicitation(사용자로부터 구조화된 입력 요청), sampling(클라이언트로부터 LLM 완성 요청), 진행 알림입니다. 스테이트풀 세션은 이제 격리된 microvM에서 최대 8시간까지 지속될 수 있으며, 에이전트와 클라이언트 간 양방향 통신을 가능하게 합니다.