🤝 에이전트

54 개 뉴스

🟡 🤝 에이전트 2026년 4월 27일 · 3 분 읽기

arXiv:2604.22748: 42명 저자의 서베이, AI 에이전트 세계 모델을 위한 '레벨×법칙' 분류 체계 제시 — 400편 이상 논문 종합

추상적인 나침반 깃털 펜이 에이전트 시스템의 물리·디지털·사회·과학 영역을 가로지르는 세계 모델의 계층을 추적하고 있다.

42명의 저자가 공동 집필한 'Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond' 서베이 논문은 이 분야를 2차원 분류 체계로 정리합니다. 세 가지 모델 능력 수준(예측기·시뮬레이터·진화기)과 네 가지 법칙 영역(물리·디지털·사회·과학)으로 구성되며, 400편 이상의 참고 문헌과 100개 이상의 대표 시스템을 망라합니다.

🟡 🤝 에이전트 2026년 4월 27일 · 3 분 읽기

arXiv:2604.22452: 슈퍼마인드 테스트가 밝힌다 — 200만 AI 에이전트 사회에서도 집단 지능은 자연 발생하지 않는다

추상적인 나침반 깃털 펜이 대규모 디지털 커뮤니티에서 수많은 AI 에이전트 간의 희박하고 얕은 연결을 추적하고 있다.

멜버른대학교와 메릴랜드대학교 연구진은 에이전트 사회의 집단 지능을 탐색하기 위한 계층적 프레임워크 '슈퍼마인드 테스트(Superminds Test)'를 제안했습니다. 200만 명 이상의 에이전트가 존재하는 MoltBook 플랫폼에서 진행된 연구 결과, 해당 사회는 개별 프론티어 모델을 뛰어넘지 못했으며 상호작용은 극도로 희박하고 얕은 수준에 머물렀습니다.

🟢 🤝 에이전트 2026년 4월 27일 · 2 분 읽기

arXiv:2604.21910: Agentic AI가 83% 정확도로 과학 워크플로를 자동화, 데이터 전송 92% 감소, 쿼리당 비용 $0.001

ArXiv 2604.21910: Agentic AI가 83% 정확도로 과학 워크플로를 자동화, 데이터 전송 92% 감소, 쿼리당 비용 $0.001

크라쿠프 AGH 대학교의 Bartosz Balis 연구팀은 2026년 4월 23일 자연어 연구 질의를 실행 가능한 과학 워크플로로 변환하는 논문을 발표했습니다. 3계층 아키텍처(의미론적 LLM 계층, 결정론적 생성기, 전문가 Skills)를 Kubernetes 상의 1000 Genomes 워크플로에서 테스트했으며, Skills를 통해 의도 정확도가 44%에서 83%로 향상되었고, 데이터 전송이 92% 감소했으며, 쿼리당 비용은 $0.001 미만입니다.

🟡 🤝 에이전트 2026년 4월 25일 · 3 분 읽기

arXiv:2604.21816: 「Tool Attention Is All You Need」가 MCP Tax 제거 — 에이전트 워크플로우 턴당 토큰 소비 95% 감소

편집 일러스트: Tool Attention MCP Tax — 에이전트 워크플로우 최적화

연구자 Anuj Sadani와 Deepak Kumar가 2026년 4월 23일 ArXiv에 논문을 발표하여 이른바 MCP Tax 문제——턴당 1만~6만 토큰을 소비하는 eager schema injection——를 해결했습니다. 그들의 Tool Attention 접근법은 토큰 소비를 95% 감소시키고 컨텍스트 활용률을 24%에서 91%로 향상시킵니다.

🟢 🤝 에이전트 2026년 4월 25일 · 2 분 읽기

AWS와 Visier, Amazon Q와 MCP 통합을 통해 엔터프라이즈 인력 AI 에이전트 시연

편집 일러스트: AWS Visier Amazon Q — 인력 HR AI 에이전트

AWS와 Visier가 Amazon Q와 Model Context Protocol을 통한 인력 AI 에이전트 통합을 시연했습니다. Visier는 HR 분석을 MCP 서버로 공개하고, Amazon Q 에이전트는 헤드카운트 예산 수립, 재직 기간 추적, 임계값 알림에 이 도구들을 활용합니다——모두 하나의 대화형 인터페이스에서 이루어집니다.

🟡 🤝 에이전트 2026년 4월 24일 · 3 분 읽기

Anthropic:Managed Agents 메모리 기능 공개 베타 출시——AI 에이전트가 세션 간 컨텍스트를 기억

편집 일러스트:AI 에이전트 — agenti

Anthropic이 Claude Managed Agents의 메모리 기능을 공개 베타로 출시했습니다. 에이전트는 이제 세션 간에 사용자 기본 설정, 프로젝트 규약, 컨텍스트를 유지할 수 있습니다. 베타 버전 제한은 조직당 최대 1,000개의 스토어, 스토어당 최대 100 MB입니다.

🟢 🤝 에이전트 2026년 4월 24일 · 2 분 읽기

GitHub:클라우드 에이전트 세션을 issues와 프로젝트 뷰에서 직접 관리할 수 있게 됨

편집 일러스트:AI 에이전트 — agenti

GitHub이 issues와 프로젝트 뷰에서 클라우드 에이전트 세션을 직접 추적하고 관리하는 기능을 도입했습니다. 세션 필, 진행 로그가 있는 사이드 패널, 프로젝트 뷰에서 자동 활성화되는 세션은 자율 AI 에이전트와 개발 워크플로의 더 깊은 통합을 나타냅니다.

🔴 🤝 에이전트 2026년 4월 23일 · 2 분 읽기

Google DeepMind, 엔터프라이즈 AI를 위해 5대 컨설팅 기업과 동맹 체결

에디토리얼 일러스트: AI 에이전트——agenti

Google DeepMind는 현재 조직의 25%만이 AI를 프로덕션에 구현하는 데 성공하는 상황을 타개하기 위해 세계 5대 컨설팅 기업——액센추어, 베인, BCG, 딜로이트, 맥킨지——과 파트너십을 체결하여 엔터프라이즈 AI 전환을 가속화합니다.

🔴 🤝 에이전트 2026년 4월 23일 · 3 분 읽기

OpenAI, ChatGPT에 Workspace Agents 출시: 기업 팀을 위한 Codex 구동 에이전트

에디토리얼 일러스트: AI 에이전트 — agenti

OpenAI가 Workspace Agents를 발표했습니다. ChatGPT 인터페이스에 직접 통합된 Codex 구동 AI 에이전트입니다. 에이전트는 클라우드에서 실행되며, 복잡한 워크플로우를 자동화하고 크로스 앱 보안을 강조하는 연결된 도구를 통해 기업 팀의 작업 확장을 지원합니다.

🟡 🤝 에이전트 2026년 4월 23일 · 2 분 읽기

AWS, Bedrock·Neptune·Mem0를 통한 기업 전체 AI 에이전트 메모리 아키텍처 공개

에디토리얼 일러스트: AI 에이전트——agenti

AWS는 Amazon Bedrock, Neptune 그래프 DB, Mem0 프레임워크를 결합하여 기업 전체 AI 에이전트에 영속적인 메모리를 제공하는 아키텍처를 공개했습니다. 이는 세션 간 및 사용자 간 컨텍스트 손실 문제를 해결합니다.

🟡 🤝 에이전트 2026년 4월 23일 · 2 분 읽기

Amazon Bedrock AgentCore, 관리형 하네스 도입: 단 3번의 API 호출로 작동하는 에이전트 배포

에디토리얼 일러스트: AI 에이전트 — agenti

Amazon은 Bedrock AgentCore를 위한 관리형 에이전트 하네스를 발표했습니다. 이를 통해 오케스트레이션 인프라를 직접 작성하지 않고도 단 3번의 API 호출만으로 완전히 작동하는 에이전트를 배포할 수 있습니다. 하네스와 함께 전체 개발 사이클을 위한 AgentCore CLI와 코딩 어시스턴트용 사전 구축된 기술이 제공되며, 4개의 AWS 리전에서 미리보기 단계로 이용할 수 있습니다.

🟢 🤝 에이전트 2026년 4월 23일 · 3 분 읽기

ArXiv SWE-chat——프로덕션 환경에서 AI 코딩 에이전트와의 실제 상호작용 데이터셋

에디토리얼 일러스트: AI 에이전트——agenti

ArXiv에 SWE-chat이 공개되었습니다. 이는 프로덕션 환경에서 사용자와 AI 코딩 에이전트 간의 실제 이른바 '야생' 상호작용 데이터셋입니다. GitHub Issue 기반의 합성 벤치마크가 아닌, 이 데이터셋은 개발자가 일상 업무에서 자율 시스템을 실제로 어떻게 사용하는지——무엇을 요청하고, 에이전트의 제안에 어떻게 반응하며, 에이전트가 어디서 실패하는지——를 기록하여 더 정밀한 평가와 에이전트 설계의 목표 지향적 개선의 길을 열어줍니다.

🟢 🤝 에이전트 2026년 4월 23일 · 2 분 읽기

OSWorld 연구: AI 컴퓨터 조작 에이전트, 반복 작업에서 자주 실패

에디토리얼 일러스트: AI 에이전트 — agenti

새로운 연구에 따르면 한 번 성공적으로 작업을 수행한 AI 컴퓨터 조작 에이전트가 동일한 작업을 반복할 때 실패할 수 있으며, 세 가지 주요 원인은 실행의 확률적 성질, 작업 명세의 모호성, 에이전트 자체 행동의 가변성입니다.

🔴 🤝 에이전트 2026년 4월 22일 · 3 분 읽기

Google ReasoningBank: 재훈련 없이 경험에서 배우는 에이전트, WebArena 성공률 +8.3%

편집 일러스트: 미로 속의 로봇, 빛나는 노드가 학습된 경험을 나타냄

Google이 ReasoningBank를 발표했습니다. 언어 모델 재훈련 없이 AI 에이전트가 자신의 성공과 실패에서 학습할 수 있는 메모리 프레임워크입니다. WebArena 벤치마크에서 성공률 8.3% 향상, SWE-Bench-Verified에서 4.6% 향상, 작업당 약 3단계 감소를 달성했습니다.

🔴 🤝 에이전트 2026년 4월 22일 · 3 분 읽기

OpenAI, Codex를 엔터프라이즈로 확장: Codex Labs 프로그램과 주간 활성 사용자 400만 명

편집 일러스트: AI 엔티티와 기업 고층빌딩, 코드 화면이 펼쳐진 미래 도시 풍경

OpenAI가 Codex Labs 프로그램을 출시하고 Accenture, Deloitte, KPMG와 전략적 파트너십을 맺어 Codex 에이전트를 전 세계 대기업에 도입합니다. 이 도구는 주간 활성 사용자 400만 명을 달성했으며, 컨설턴트 인증 및 소비 기반 과금 엔터프라이즈 패키지를 제공합니다.

🟡 🤝 에이전트 2026년 4월 22일 · 2 분 읽기

Agent-World: 중국 런민대학교 발표, AI 에이전트 진화를 위한 확장 가능한 환경 합성 프레임워크

에디토리얼 일러스트: AI 에이전트 학습을 위해 풍경과 도시를 포함한 동적 환경이 자동으로 생성된다

Agent-World는 중국 런민대학교가 개발한 새로운 연구 프레임워크로, AI 에이전트 훈련을 위해 수천 가지 다양한 환경을 자동으로 생성합니다. 수작업으로 만든 벤치마크를 동적 시나리오로 대체하고 에이전트와 환경의 공진화를 통한 진화적 학습을 가능하게 합니다.

🟡 🤝 에이전트 2026년 4월 22일 · 3 분 읽기

Gemini Deep Research, MCP 통합·협업 계획·두 개의 새 버전 획득

편집 일러스트: Deep Research 에이전트를 위한 모듈식 서버와 데이터 흐름을 가진 로봇 실루엣

Google이 Gemini API에 두 가지 새로운 Deep Research 에이전트 버전——deep-research-preview-04-2026과 deep-research-max-preview-04-2026——을 출시했습니다. MCP 서버 통합, 협업 계획, 시각화, 스트리밍 응답을 갖추고 있습니다. 이 행보는 Gemini를 ChatGPT Deep Research와 Perplexity Deep Research의 진지한 경쟁자로 자리매김합니다.

🟡 🤝 에이전트 2026년 4월 22일 · 3 분 읽기

다중 에이전트 시스템 서베이: 고전적 패러다임부터 대형 기반 모델이 열어가는 미래까지

에디토리얼 일러스트: 통신 중인 상호 연결된 AI 에이전트들이 고전적 패러다임과 현대 LLM 시대를 연결하는 다리 역할을 한다

새로운 arXiv 서베이 논문이 고전적인 다중 에이전트 시스템 문헌과 현대 LLM 에이전트 스택을 포괄적으로 연결합니다. 이 논문은 조율 메커니즘, 통신 프로토콜, 창발적 행동에서의 패러다임 전환을 규명합니다. 저수준 상태 교환에서 의미론적 추론으로의 전환입니다.

🟡 🤝 에이전트 2026년 4월 21일 · 3 분 읽기

AWS, Bedrock AgentCore·MCP·Nova 2 Sonic을 결합한 옴니채널 주문 시스템 구축——첫 엔터프라이즈 에이전트 실전 시연

일러스트: AWS, Bedrock AgentCore·MCP·Nova 2 Sonic을 결합한 옴니채널 주문 시스템 구축——첫 엔터프라이즈 에이전트 실전 시연

AWS가 Bedrock AgentCore Runtime, MCP 프로토콜, 음성 모델 Nova 2 Sonic을 결합한 옴니채널 주문 시스템의 아키텍처 예시를 공개했습니다. 이는 AWS의 새로운 에이전트 서비스의 첫 번째 공개 통합 사례이자 프로덕션 에이전트를 위한 microVM 격리 방식의 데모입니다.

🟡 🤝 에이전트 2026년 4월 21일 · 3 분 읽기

새로운 연구, LLM 에이전트가 프롬프트 최적화를 통해 안정적인 가격 카르텔을 형성할 수 있다고 경고

일러스트: 새로운 연구, LLM 에이전트가 프롬프트 최적화를 통해 안정적인 가격 카르텔을 형성할 수 있다고 경고

새로운 ArXiv 논문은 여러 LLM 에이전트가 프롬프트 메타 최적화를 통해 명시적인 합의 없이 초경쟁적 가격을 달성하는 안정적인 알고리즘 담합을 자발적으로 형성할 수 있음을 보여줍니다. 이 발견은 독점금지법과 다중 에이전트 시스템 규제에 심각한 문제를 제기합니다.

🟡 🤝 에이전트 2026년 4월 21일 · 4 분 읽기

NVIDIA OpenShell, Adobe 에이전트, WPP: 자율 AI 에이전트가 수분 만에 마케팅 콘텐츠 생성

Editorialna ilustracija: NVIDIA OpenShell, Adobe Agenti i WPP: autonomni AI agenti kreiraju marketing sadržaj u minutama

NVIDIA는 Adobe 및 글로벌 최대 마케팅 에이전시 WPP와의 전략적 파트너십을 확장하여 엔터프라이즈 마케팅에 자율 AI 에이전트를 출시했습니다. 핵심은 새로운 NVIDIA OpenShell——정책 기반 격리를 갖춘 안전한 런타임 환경——과 Nemotron 모델 및 Adobe Firefly Foundry 시각 콘텐츠 생성기의 조합입니다.

🟢 🤝 에이전트 2026년 4월 21일 · 3 분 읽기

AWS ToolSimulator: 라이브 API 호출 없는 LLM 기반 AI 에이전트 테스트——멀티턴 대화를 통한 공유 상태 유지

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

AWS는 Strands Evals 플랫폼 내에서 라이브 API 호출 없이 AI 에이전트를 안전하게 테스트하기 위한 LLM 기반 프레임워크인 ToolSimulator를 발표했습니다. 시뮬레이터는 멀티턴 대화 전반에 걸쳐 일관된 공유 상태를 유지하고 맥락에 적합한 응답을 생성하여, 실제 결과 없이 이메일 발송이나 데이터베이스 수정 에이전트를 테스트할 수 있습니다.

🟢 🤝 에이전트 2026년 4월 21일 · 2 분 읽기

NVIDIA, 한국 AI 에이전트를 위한 700만 개의 합성 페르소나 데이터셋 Nemotron-Personas-Korea 발표

일러스트: NVIDIA, 한국 AI 에이전트를 위한 700만 개의 합성 페르소나 데이터셋 Nemotron-Personas-Korea 발표

NVIDIA가 파트너들과 함께 한국 공식 인구통계 데이터에 기반한 700만 개의 합성 페르소나를 포함한 오픈 소스 데이터셋 Nemotron-Personas-Korea를 출시했습니다. 목적은 프라이버시 위험 없이 문화적으로 인식된 AI 에이전트 개발을 가능하게 하는 것입니다.

🟡 🤝 에이전트 2026년 4월 20일 · 3 분 읽기

Experience Compression Spectrum:LLM 에이전트의 기억, 기술, 규칙을 통합하는 아키텍처 프레임워크

편집 일러스트: LLM 에이전트에서 원시 에피소드부터 압축된 규칙까지 이어지는 경험 압축 수준의 연속체

Experience Compression Spectrum은 LLM 에이전트의 기억, 기술, 규칙을 압축률이 증가하는 단일 축에 배치하는 새로운 아키텍처 프레임워크입니다. 에피소드 기억(5-20×)부터 절차적 기술(50-500×), 선언적 규칙(1000×+)까지 이어집니다. 분석 결과 기존 시스템은 고정된 압축 수준에서 작동하며 기억과 기술이 서로 소통하지 않는다는 점이 밝혀졌습니다.

🟡 🤝 에이전트 2026년 4월 20일 · 3 분 읽기

WORC:멀티에이전트 시스템에서 가장 약한 에이전트 강화로 추론 벤치마크 82.2% 정확도 달성

편집 일러스트: AI 에이전트 체인에서 가장 약한 고리가 추가 계산 리소스로 강화되는 모습

WORC(Weak-Link Optimization for Reasoning and Collaboration)는 강한 에이전트를 최적화하는 대신 멀티에이전트 LLM 시스템의 약한 고리를 식별하고 강화하는 새로운 프레임워크입니다. 메타 학습과 군집 지능으로 성능 부진 에이전트를 찾아 추가 추론 리소스를 할당합니다. 결과: 추론 벤치마크 평균 정확도 82.2%와 향상된 크로스 아키텍처 안정성을 달성합니다.

🟡 🤝 에이전트 2026년 4월 19일 · 2 분 읽기

Autogenesis:버전 관리 리소스와 롤백 메커니즘을 갖춘 AI 에이전트 자기 진화 새 프로토콜

편집 일러스트: 피드백 루프와 버전 관리된 흐름을 가진 모듈식 컴포넌트 시스템

Autogenesis(AGP)는 AI 에이전트, 프롬프트, 도구 및 메모리를 명시적 상태와 버전 관리 인터페이스를 가진 등록 리소스로 모델링하는 프로토콜입니다. Self Evolution Protocol Layer(SEPL)은 감사 추적과 롤백이 있는 개선사항 제안, 평가, 커밋을 위한 폐쇄 루프 운영자 인터페이스를 제공하며, 자체 구성 요소를 반복적으로 변경하는 에이전트의 불안정성 문제를 해결합니다.

🟡 🤝 에이전트 2026년 4월 19일 · 2 분 읽기

RadAgent:흉부 CT를 단계별로 해석하는 AI 도구, 매크로 F1 점수 상대적 36% 향상

편집 일러스트: AI 에이전트가 흉부 CT 영상을 분석하는 의료 장면, 얼굴 없음

RadAgent는 흉부 CT 영상 해석을 위한 AI 에이전트로, 투명한 단계별 프로세스를 통해 기준 CT-Chat 모델을 매크로 F1에서 상대적 36.4%, 마이크로 F1에서 19.6%, 적대적 견고성에서 41.9% 앞섭니다. 의사결정 검사 추적이 포함된 방사선 보고서를 생성하며 Faithfulness 점수 37%를 달성합니다(기준선 0%).

🟢 🤝 에이전트 2026년 4월 19일 · 2 분 읽기

CoopEval: 더 강력한 추론 모델이 사회적 딜레마에서 체계적으로 덜 협력적——멀티 에이전트 AI에 대한 반직관적 발견

편집 일러스트: 사회적 딜레마에 있는 두 추상적 에이전트, 게임 이론 요소

CoopEval은 죄수의 딜레마 및 공공재 게임과 같은 고전적 사회적 딜레마에서 대규모 언어 모델 (LLM) 에이전트를 테스트하는 새로운 벤치마크입니다. 반직관적 발견: 더 강력한 추론 모델이 약한 모델보다 더 자주 배신하며, 단발 혼합 동기 상황에서 체계적으로 협력을 저해합니다. 자신의 이익과 집단의 이익 사이에서 균형을 잡아야 하는 멀티 에이전트 AI 배포에 중요한 시사점을 줍니다.

🟢 🤝 에이전트 2026년 4월 19일 · 3 분 읽기

Mind DeepResearch: 3 에이전트 프레임워크가 30B 모델로 딥 리서치 작업에서 최고 결과 달성

편집 일러스트: 연구 과정에서 협력하는 세 추상적 에이전트, 네트워크 구조

Mind DeepResearch(MindDR)는 GPT-4나 Claude Opus 규모가 아닌, 약 300억 매개변수 모델(Qwen2.5 또는 DeepSeek 클래스)로 경쟁력 있는 결과를 달성하는 새로운 멀티 에이전트 딥 리서치 프레임워크입니다. 아키텍처: 계획 에이전트 + 딥서치 에이전트 + 보고서 에이전트, 데이터 합성을 포함한 4단계 훈련 파이프라인. 2026년 4월 17일 발표된 기술 보고서에 따릅니다.

🟡 🤝 에이전트 2026년 4월 18일 · 3 분 읽기

LangChain과 Cisco, Agentic Engineering 실증:버그 발견 시간 93% 단축, 개발 속도 65% 향상

에디토리얼 일러스트레이션:소프트웨어 개발에서 협력하는 AI 에이전트 군집, 네트워크 추상화 시각화

Agentic Engineering은 AI 에이전트 군집이 단순히 코드를 작성하는 것을 넘어 소프트웨어 전체 생명주기를 담당하는 접근 방식입니다. LangChain과 Cisco의 엔지니어인 Renuka Kumar와 Prashanth Ramagopal은 2026년 4월 17일 Leader 에이전트와 Worker 에이전트로 구성된 참조 아키텍처를 공개했습니다. 70명의 사용자와 512개의 세션을 대상으로 한 Cisco의 파일럿에서 버그 근본 원인 발견 시간이 93% 단축되었고 개발 워크플로 실행 시간이 65% 감소했습니다.

🟢 🤝 에이전트 2026년 4월 18일 · 2 분 읽기

HuggingFace, Ecom-RLVE-Gym 공개:강화학습으로 이커머스 에이전트를 훈련하는 8개 환경·12축 커리큘럼

에디토리얼 일러스트레이션:상품 네트워크와 학습 경로를 가진 이커머스 훈련의 추상적인 환경

Owlgebra AI 팀은 2026년 4월 16일 HuggingFace 블로그에서 Ecom-RLVE-Gym 프로젝트를 공개했습니다. 이는 이커머스 대화형 에이전트를 위한 8개의 검증 가능한 환경을 갖춘 오픈 프레임워크로, LLM 심사관 대신 알고리즘적 보상을 사용합니다. 200만 개의 상품 카탈로그, Qwen 3 8B 모델, 12축 적응형 커리큘럼을 활용하여 에이전트에게 단계적으로 난이도를 높이며 훈련시키고, 복잡한 다단계 플로우에서의 지도 파인튜닝의 한계에 대응합니다.

🔴 🤝 에이전트 2026년 4월 17일 · 2 분 읽기

OpenAI: Codex, (거의) 모든 것이 가능 — 컴퓨터 사용·브라우징·플러그인 통합 데스크톱 앱

OpenAI Codex는 macOS와 Windows용 업데이트된 데스크톱 앱으로, 컴퓨터 사용·앱 내 브라우징·이미지 생성·영구 메모리·플러그인 시스템을 통합합니다. Anthropic의 Opus 4.7과 같은 날 출시된 Codex는 완전한 에이전트 능력을 갖춘 올인원 AI 코딩 어시스턴트를 만들기 위한 가장 야심 찬 시도입니다.

🟡 🤝 에이전트 2026년 4월 17일 · 2 분 읽기

GitHub CLI: 새 명령어 gh skill로 모든 플랫폼에서 AI 에이전트 기술 관리

GitHub CLI 버전 2.90.0은 GitHub Copilot·Claude Code·Cursor·Codex·Gemini CLI·Antigravity의 AI 에이전트 기술 발견·설치·관리·게시를 가능하게 하는 gh skill 명령어를 도입합니다. 불변 릴리스·SHA 콘텐츠 검증·버전 고정을 통해 공급망 보안을 보장합니다.

🟢 🤝 에이전트 2026년 4월 17일 · 2 분 읽기

ArXiv OpenMobile: 궤적 합성과 정책 전환을 갖춘 오픈소스 모바일 에이전트

OpenMobile은 비전-언어 모델에 기반한 모바일 에이전트 개발을 위한 새로운 오픈소스 프레임워크입니다. Qwen2.5-VL의 파인튜닝 후 AndroidWorld 벤치마크에서 51.7%의 성공률을, Qwen3-VL은 64.7%를 달성했습니다 — 이는 기존 오픈 데이터 접근 방식을 크게 상회하며 약 70%를 달성하는 클로즈드 시스템에 근접합니다. 저자들은 모든 데이터와 코드를 공개했습니다.

🟢 🤝 에이전트 2026년 4월 17일 · 1 분 읽기

LangChain: 비동기 서브에이전트가 수백 개의 병렬 AI 에이전트를 위한 fire-and-steer 패러다임 도입

LangChain은 수퍼바이저 에이전트가 차단 없이 수백 개의 병렬 서브에이전트 인스턴스를 시작할 수 있는 새로운 비동기 서브에이전트 모델을 발표했습니다. fire-and-steer 패러다임은 start_async_task·check_async_task·update_async_task 도구를 통해 실행 중에 서브에이전트의 지시를 변경할 수 있으며, LangSmith 플랫폼 또는 자체 호스팅 인프라에서 작동합니다.

🟡 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

OpenAI: 새로운 세대 Agents SDK가 네이티브 샌드박스 실행을 도입해 신뢰할 수 있는 에이전트 구현

OpenAI가 Agents SDK의 대폭적인 업그레이드를 발표했습니다. 더 신뢰할 수 있는 장기 실행 AI 에이전트 구축을 위한 네이티브 샌드박스 실행과 모델 네이티브 하니스를 도입합니다. 새 릴리스는 코드 실행 보안과 에이전트 자율성에 중점을 두며, 개발팀이 신뢰성을 유지하면서 인간의 감독 없이 수 시간 동안 작동할 수 있는 에이전트를 구축할 수 있게 합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

ArXiv: TREX — 두 개의 AI 에이전트가 언어 모델 파인튜닝 전체 프로세스를 자동화

TREX는 요건 분석과 문헌 검색에서 데이터 준비와 결과 평가까지, 대형 언어 모델 파인튜닝의 완전한 파이프라인을 자동화하는 새로운 멀티 에이전트 시스템입니다. 이 시스템은 실험 프로세스를 탐색 트리로 모델링하며, 10개의 실제 작업을 포함한 FT-Bench 벤치마크에서 모델 성능을 지속적으로 최적화합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

IBM Research: VAKRA 벤치마크, AI 에이전트가 복잡한 추론에서 실패함을 밝혀

IBM Research가 VAKRA를 발표했습니다——8,000개 이상의 로컬 API, 62개 도메인, 4,187개의 테스트 인스턴스를 포함하는 엔터프라이즈 환경에서 AI 에이전트를 평가하는 새로운 벤치마크입니다. 핵심 발견은 모델이 간단한 작업에서 표면적 능력을 보이지만 조합적 추론에서 실패하며, 다중 홉 추론이 깊이에 따라 저하되고, 외부 제약 준수가 성능의 상당한 저하를 야기한다는 것입니다.

🔴 🤝 에이전트 2026년 4월 15일 · 2 분 읽기

ArXiv: 금지 규칙은 효과적이고 지시는 오히려 해롭다 — AI 코딩 에이전트 규칙에 대한 실증 연구

GitHub의 규칙 파일 679개와 규칙 25,532개를 분석한 결과, 금지 규칙은 AI 코딩 에이전트를 개선하지만 긍정적 지시는 오히려 성능을 저하시키는 것으로 나타났습니다. 무작위로 생성된 규칙이 전문가가 작성한 규칙과 동일한 효과를 보였습니다.

🟡 🤝 에이전트 2026년 4월 15일 · 1 분 읽기

ArXiv: HORIZON -- AI 에이전트가 장기 작업에서 실패하는 위치와 이유

새로운 벤치마크 HORIZON이 LLM 에이전트가 장기 작업에서 실패하는 방식을 체계적으로 분석했습니다. 연구에 따르면 오류는 여러 단계에 걸쳐 누적되며, 최고 성능의 모델도 20회 이상의 행동 후 초점을 잃는 것으로 나타났습니다.

🟡 🤝 에이전트 2026년 4월 15일 · 2 분 읽기

ArXiv: PAC-BENCH — AI 에이전트가 비밀을 지키며 협력해야 할 때 무슨 일이 벌어지는가?

프라이버시 제약 하에서 다수 AI 에이전트의 협력을 평가하는 최초의 벤치마크입니다. 결과에 따르면 프라이버시가 협력 품질을 크게 저하시키며, 프라이버시로 인한 할루시네이션을 포함한 세 가지 유형의 오류를 유발합니다.

🟢 🤝 에이전트 2026년 4월 15일 · 1 분 읽기

ArXiv: SWE-AGILE — 소형 모델이 코딩 에이전트의 컨텍스트 폭발 문제를 해결하는 방법

SWE-AGILE은 AI 코딩 에이전트를 위한 슬라이딩 윈도우와 압축 요약을 결합한 동적 컨텍스트 전략을 도입했습니다. 7~8B 파라미터 모델로 2,200개의 훈련 예제만 사용하여 SWE-Bench-Verified에서 새로운 최고 성능을 달성했습니다.

🔴 🤝 에이전트 2026년 4월 14일 · 1 분 읽기

OpenAI와 Cloudflare: GPT-5.4 및 Codex가 엔터프라이즈용 신규 Agent Cloud 플랫폼 가동

Cloudflare가 OpenAI의 GPT-5.4 및 Codex 모델을 새로운 Agent Cloud 플랫폼에 통합하여, 엔터프라이즈 사용자가 속도와 보안에 중점을 둔 실제 비즈니스 작업용 AI 에이전트를 구축, 배포, 확장할 수 있게 되었습니다.

🟡 🤝 에이전트 2026년 4월 14일 · 2 분 읽기

AI2: AI 에이전트는 교과서 과학의 80%를 풀지만, 실제 과학 문제는 20%에 불과합니다

Allen Institute for AI가 지식 테스트에서의 AI 성과와 실제 과학적 발견 능력 사이의 극적인 격차를 드러내는 두 가지 벤치마크를 분석했습니다. 모델은 교과서 수준에서 80%에 도달하지만 복잡한 과학 과제에서는 20%로 떨어집니다.

🟡 🤝 에이전트 2026년 4월 14일 · 2 분 읽기

ArXiv HiL-Bench: AI 에이전트는 도움을 요청해야 할 때를 알고 있습니까?

새로운 벤치마크 HiL-Bench는 AI 에이전트가 자신의 한계를 인식하고 추측 대신 인간의 도움을 요청하는 능력을 측정합니다. 결과에 따르면 프론티어 모델조차 도움이 필요한 시점을 제대로 판단하지 못하지만, 목적에 맞는 트레이닝으로 이 능력을 개선할 수 있습니다.

🔴 🤝 에이전트 2026년 4월 13일 · 2 분 읽기

ArXiv HiL-Bench: 어떤 프론티어 모델도 언제 도움을 요청해야 하는지 모른다

새로운 벤치마크가 AI 에이전트의 판단력에서 보편적인 결함을 드러냈다 — 사양이 불완전할 때, 어떤 프론티어 모델도 전체 성능의 극히 일부밖에 달성하지 못한다. 연구자들은 이 능력이 강화학습으로 훈련 가능함을 보여주었다.

🟢 🤝 에이전트 2026년 4월 13일 · 1 분 읽기

ArXiv SAGE: 27개 LLM 테스트 — 모델은 의도를 이해하지만 올바르게 실행하지 못한다

고객 서비스를 위한 새로운 벤치마크가 두 가지 현상을 밝혔다: 'Execution Gap'(모델이 의도를 정확히 분류하지만 올바른 조치를 실행하지 않음)과 'Empathy Resilience'(모델이 논리적 오류를 범하면서도 예의를 유지함).

🟡 🤝 에이전트 2026년 4월 12일 · 2 분 읽기

GitHub Copilot CLI: 초보자를 위한 공식 가이드 — 터미널에서 클라우드 에이전트에 작업 위임

GitHub은 4월 10일 Copilot CLI 도구에 대한 공식 튜토리얼을 발표했습니다. 이 가이드는 npm을 통한 설치, GitHub 계정을 사용한 인증, 클라우드 에이전트에게 작업을 위임하는 것을 포함한 실용적인 예를 다룹니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

Anthropic, 정책 프레임워크 'Trustworthy agents in practice' 발표

Anthropic은 AI 에이전트를 신뢰할 수 있는 방식으로 개발, 배포 및 사용하는 것이 무엇을 의미하는지 정의하는 포괄적인 정책 프레임워크 'Trustworthy agents in practice'를 발표했습니다. 이 문서는 에이전트를 구축하거나 사용하는 기업을 위한 지침으로 작동합니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv PASK: 사용자 의도를 예측하는 장기 메모리를 갖춘 능동적 AI 에이전트

새로운 논문 PASK는 의도 감지, 하이브리드 메모리, 자발적 행동을 결합한 능동적 AI 에이전트 프레임워크를 제시합니다. IntentFlow 모델은 잠재적 사용자 니즈 인식에서 선도적인 Gemini 3 Flash 모델 수준에 도달했습니다.

🟡 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv SAVeR: LLM 에이전트를 위한 자가 감사 — 실행 전 검증 (ACL 2026)

ACL 2026에 채택된 새로운 방법 SAVeR(Self-Audited Verified Reasoning)는 LLM 에이전트가 행동을 실행하기 전에 자체적으로 검토할 수 있게 합니다. 목표: 논리적 제약을 위반하는 일관된 추론이 잘못된 결정으로 이어지는 것을 방지합니다.

🟢 🤝 에이전트 2026년 4월 11일 · 2 분 읽기

ArXiv KnowU-Bench: 상호작용적이고 능동적인 모바일 AI 에이전트를 위한 새로운 벤치마크

연구자들은 KnowU-Bench를 발표했습니다. 이는 장기간 사용을 통한 상호작용성, 능동성, 개인화에 초점을 맞춘 새로운 세대의 모바일 AI 에이전트를 평가하기 위한 포괄적인 벤치마크입니다.

🟡 🤝 에이전트 2026년 4월 10일 · 2 분 읽기

AWS Agent Registry: 엔터프라이즈용 AI 에이전트 카탈로그 프리뷰 공개

Amazon이 엔터프라이즈 조직을 위한 AI 에이전트, 도구, 에이전트 스킬의 중앙 카탈로그인 AWS Agent Registry의 프리뷰를 공개했습니다. 이 시스템은 호스팅 위치(AWS, 타 클라우드, 온프레미스)와 무관하게 에이전트를 색인하며, 키워드와 시맨틱 검색 조합과 함께 IAM 기반 접근 제어를 사용합니다.

🟡 🤝 에이전트 2026년 4월 10일 · 2 분 읽기

AWS Bedrock AgentCore: 스테이트풀 MCP 클라이언트가 인터랙티브 AI 워크플로우를 가능하게 하다

Amazon이 Bedrock AgentCore Runtime에 세 가지 새로운 MCP 기능을 추가했습니다 — elicitation(사용자로부터 구조화된 입력 요청), sampling(클라이언트로부터 LLM 완성 요청), 진행 알림입니다. 스테이트풀 세션은 이제 격리된 microvM에서 최대 8시간까지 지속될 수 있으며, 에이전트와 클라이언트 간 양방향 통신을 가능하게 합니다.