2026년 5월 12일 화요일

14 개 뉴스 — 🟡 11 주목 , 🟢 3 흥미

← 전날 다음 날 →

🤖 모델 (2)

🤝 에이전트 (4)

🟡 🤝 에이전트 2026년 5월 12일 · 3 분 읽기

arXiv:2605.10344: TMAS——멀티 에이전트 테스트 타임 스케일링이 추론 벤치마크에서 새 기록 달성

편집용 일러스트: 계층적 메모리 뱅크가 있는 협업 네트워크로 연결된 여러 AI 에이전트 노드, 빛나는 추론 경로.

TMAS(테스트 타임 멀티 에이전트 스케일링)는 LLM 추론을 계층적 메모리 뱅크를 가진 전문화된 에이전트 간의 협업으로 구성하는 새로운 테스트 타임 컴퓨트 스케일링 접근 방식입니다. 저자(UC 버클리+DeepMind)는 동일한 컴퓨트 예산에서 MATH-500, AIME 2024, HumanEval, GPQA Diamond에서 모든 기존 기준 방법(Best-of-N, MCTS, AutoTTS)을 능가함을 보여줍니다. 단일 파이프라인에서 추론+검색+검증을 결합합니다.

🟡 🤝 에이전트 2026년 5월 12일 · 3 분 읽기

AWS: Strands Agents SDK와 Exa 통합으로 에이전트가 커스텀 크롤러 없이 자율적인 웹 검색 가능

편집용 일러스트: AI 네이티브 검색 엔진에 연결하는 오픈소스 SDK 에이전트, 자율적인 웹 쿼리를 나타내는 추상적인 데이터 흐름.

AWS Strands Agents SDK는 자율형 AI 에이전트 구축을 위한 오픈소스 프레임워크로, 시맨틱 수준에서 웹을 인덱싱하는 AI 네이티브 검색 엔진 Exa와 깊은 통합을 이루었습니다. 에이전트는 이제 언제 웹을 검색할지 자율적으로 결정하고, 여러 소스에서 보고서를 합성하며, 데이터를 인용할 수 있습니다——커스텀 크롤러나 스크레이퍼 인프라 없이도 가능합니다. 이 통합으로 웹 검색 지원 에이전트 개발이 수십 줄의 코드로 간소화됩니다.

🟡 🤝 에이전트 2026년 5월 12일 · 2 분 읽기

Microsoft Research: SocialReasoning-Bench가 밝히다 'AI 에이전트는 작업을 완료하지만 사용자 이익은 지키지 않는다'

Editorial illustration: SocialReasoning-Bench가 밝히다 'AI 에이전트는 작업을 완료하지만 사용자 이익은 지키지 않는다'

SocialReasoning-Bench는 Microsoft Research의 새로운 벤치마크로, AI 에이전트가 다른 당사자와의 협상에서 사용자의 실제 이익을 대변하는지를 측정합니다——단순히 작업을 완료하는지 여부가 아닌. 결과는 모델이 거래를 거의 완벽하게 성사시키지만 마켓플레이스 시나리오에서 일관적으로 가치를 상대방에게 양보하며, 90% 이상의 결과가 비효율적이거나 부주의한 것으로 분류되었음을 보여줍니다.

🟢 🤝 에이전트 2026년 5월 12일 · 2 분 읽기

arXiv:2605.07313: 에이전트 메모리는 확장되지 않는다——HippoRAG가 무관한 세션 증가로 16-20 퍼센트포인트 신뢰성 손실

Editorial illustration: 2605.07313: 에이전트 메모리는 확장되지 않는다——HippoRAG가 무관한 세션 증가로 16-20 퍼센트포인트 신뢰성 손실

arXiv:2605.07313 논문은 무관한 데이터가 축적될 때 에이전트 메모리 시스템이 계속 기능하는지를 테스트하는 규모 조건부 평가 프로토콜입니다. HippoRAG는 16-20 퍼센트포인트의 예산 준수 신뢰성을 잃으며, LiCoMemory는 모델 크기에 따라 변동합니다. 저자들(Shao, Lu, Zhang, Luo)은 신뢰성 손실이 고립된 현상이 아니라고 결론짓습니다.

🔧 하드웨어 (2)

🏥 실무 (3)

🟡 🏥 실무 2026년 5월 12일 · 2 분 읽기

Anthropic: Claude Code v2.1.139 — Agent View로 모든 세션 통합 표시 + /goal 명령으로 자율 작업 완료

Editorial illustration: Claude Code v2.1.139 — Agent View로 모든 세션 통합 표시 + /goal 명령으로 자율 작업 완료

Claude Code v2.1.139은 Anthropic CLI 에이전트의 새 버전으로, 리서치 프리뷰 단계에서 Agent View(활성, 차단, 완료된 모든 세션의 통합 목록)를 도입하고, Claude가 지정된 조건을 만족할 때까지 여러 단계에 걸쳐 자율적으로 작업하는 /goal 명령과 경과 시간, 단계 수, 토큰 소비량을 표시하는 패널을 추가했습니다.

🟡 🏥 실무 2026년 5월 12일 · 3 분 읽기

IBM: Red Hat AI Inference와 OpenShift Virtualization Service가 IBM Cloud에서 관리형 제품으로 출시

편집용 일러스트: 빨간색과 파란색 빛이 나는 엔터프라이즈 클라우드 인프라, 추론 워크로드를 실행하는 추상적인 서버, 하이브리드 VM 및 컨테이너 오케스트레이션.

IBM은 오늘 Red Hat AI Inference Service와 Red Hat OpenShift Virtualization Service를 IBM Cloud의 관리형 엔터프라이즈 제품으로 발표했습니다. 전자는 오픈소스 LLM(Granite, Llama, Mistral)을 위한 최적화된 서빙 환경을 자동 스케일링 및 SLA 보장과 함께 제공하며, 후자는 동일한 OpenShift 컨트롤 플레인 내에서 VM과 컨테이너를 함께 실행할 수 있게 합니다. 목표: 자체 Kubernetes 인프라 없이 오픈소스 AI를 사용하려는 기업 팀의 운영 부담을 줄이는 것입니다.

🟡 🏥 실무 2026년 5월 12일 · 3 분 읽기

OpenAI: DeployCo——2026년 1분기 실적 발표와 함께 공개된 새로운 독립 엔터프라이즈 AI 배포 조직

편집용 일러스트: 추상적인 AI 인프라 파이프라인과의 엔터프라이즈 컨설팅 악수, 배포 라이프사이클 시각화.

OpenAI는 화요일에 DeployCo(The Deployment Company)를 시작했습니다. 이는 기업들이 프로덕션에서 AI 애플리케이션을 구축하고 확장하는 것을 돕는 독립 조직입니다. 목표: 기반 모델 R&D와 지금까지 같은 OpenAI 팀에 있었던 엔터프라이즈 배포 컨설팅을 분리하여 운영 긴장을 해소하는 것입니다. DeployCo는 관리형 배포, 커스텀 평가, 출시 후 모니터링, 산업별 파인튜닝을 제공합니다.

💬 커뮤니티 (2)

🛡️ 보안 (1)

← 전날 다음 날 →