2026년 4월 18일 토요일

13 개 뉴스 — 🔴 2 중요 , 🟡 7 주목 , 🟢 4 흥미

🤖 모델 (4)

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

AWS Nova 증류를 활용한 비디오 시맨틱 검색：95% 비용 절감, 추론 속도 2배 향상

AWS는 모델 증류가 대형 Nova Premier 모델의 지능을 비디오 검색 라우팅을 위한 소형 Nova Micro로 전달하는 방법을 시연했습니다. 결과는 추론 비용 95% 절감, 레이턴시 50% 감소(1741ms 대신 833ms), LLM-as-judge 평가에서 품질 유지(5점 만점에 4점)입니다. 전체 훈련에는 Nova Premier에서 생성된 10,000개의 합성 샘플이 사용되었습니다.

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

AWS Nova 멀티모달 임베딩을 활용한 비디오 검색：하이브리드 접근법으로 리콜 51%에서 90%로

AWS Nova 멀티모달 임베딩은 텍스트로 변환하지 않고 비디오의 시각, 오디오, 텍스트 콘텐츠를 통합된 1024차원 벡터 공간에서 동시에 처리하는 새로운 아키텍처입니다. 시맨틱 임베딩과 BM25 어휘 검색의 결합은 Recall@5 90%를 달성했으며, 기준선 결합 모드 임베딩의 51%와 비교해——모든 지표에서 30~40퍼센트 포인트 향상되었습니다.

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

NVIDIA Nemotron OCR v2：초당 34.7페이지, 단일 모델로 5개 언어, PaddleOCR보다 28배 빠름

NVIDIA가 HuggingFace에 Nemotron OCR v2를 공개했습니다. 이는 단일 A100 GPU에서 초당 34.7페이지를 처리하는 다국어 OCR 모델입니다. PaddleOCR v5보다 28배 빠릅니다. 모델은 단일 아키텍처에서 영어, 중국어, 일본어, 한국어, 러시아어를 지원하며 언어 감지가 필요하지 않습니다. 1,220만 개의 합성 이미지로 훈련되었으며, 모델과 데이터셋은 NVIDIA Open Model 라이선스와 CC-BY-4.0으로 제공됩니다.

🟢 🤖 모델 2026년 4월 18일 · 3 분 읽기

ArXiv AC/DC：모델과 태스크 공진화를 통한 전문화 LLM 자동 발견

AC/DC는 ICLR 2026에서 발표된 새로운 프레임워크로 모델 병합을 통해 LLM 모델을, 합성 데이터를 통해 태스크를 동시에 진화시킵니다. 발견된 모델 집단은 벤치마크를 명시적으로 최적화하지 않고도 수동으로 선별된 모델보다 광범위한 전문 지식 커버리지를 보여줍니다. 모델은 더 적은 GPU 메모리로 더 큰 동류 모델을 능가하며 LLM 지속 개발의 새로운 패러다임을 대표합니다.

📦 오픈소스 (1)

🔴 📦 오픈소스 2026년 4월 18일 · 2 분 읽기

Google Gemma 4：오픈 모델 4종, 31B dense 아레나 3위, Apache 2.0 라이선스

Gemma 4는 Google의 새 세대 오픈 모델로 네 가지 변형으로 제공됩니다: 모바일용 E2B, 엣지 디바이스용 E4B, 38억 활성 파라미터를 가진 26B MoE, 그리고 31B dense. 31B는 오픈 모델 아레나 순위에서 3위를 차지했으며 자신보다 20배 큰 모델을 능가한다고 알려져 있고, 26B MoE는 6위입니다. 모든 모델은 멀티모달(텍스트, 이미지, 비디오, 오디오)이며 140개 언어를 지원하고 최대 256K 토큰의 컨텍스트를 가지며 Apache 2.0 라이선스로 출시됩니다.

🤝 에이전트 (2)

🟡 🤝 에이전트 2026년 4월 18일 · 3 분 읽기

LangChain과 Cisco, Agentic Engineering 실증：버그 발견 시간 93% 단축, 개발 속도 65% 향상

에디토리얼 일러스트레이션：소프트웨어 개발에서 협력하는 AI 에이전트 군집, 네트워크 추상화 시각화

Agentic Engineering은 AI 에이전트 군집이 단순히 코드를 작성하는 것을 넘어 소프트웨어 전체 생명주기를 담당하는 접근 방식입니다. LangChain과 Cisco의 엔지니어인 Renuka Kumar와 Prashanth Ramagopal은 2026년 4월 17일 Leader 에이전트와 Worker 에이전트로 구성된 참조 아키텍처를 공개했습니다. 70명의 사용자와 512개의 세션을 대상으로 한 Cisco의 파일럿에서 버그 근본 원인 발견 시간이 93% 단축되었고 개발 워크플로 실행 시간이 65% 감소했습니다.

🟢 🤝 에이전트 2026년 4월 18일 · 2 분 읽기

HuggingFace, Ecom-RLVE-Gym 공개：강화학습으로 이커머스 에이전트를 훈련하는 8개 환경·12축 커리큘럼

에디토리얼 일러스트레이션：상품 네트워크와 학습 경로를 가진 이커머스 훈련의 추상적인 환경

Owlgebra AI 팀은 2026년 4월 16일 HuggingFace 블로그에서 Ecom-RLVE-Gym 프로젝트를 공개했습니다. 이는 이커머스 대화형 에이전트를 위한 8개의 검증 가능한 환경을 갖춘 오픈 프레임워크로, LLM 심사관 대신 알고리즘적 보상을 사용합니다. 200만 개의 상품 카탈로그, Qwen 3 8B 모델, 12축 적응형 커리큘럼을 활용하여 에이전트에게 단계적으로 난이도를 높이며 훈련시키고, 복잡한 다단계 플로우에서의 지도 파인튜닝의 한계에 대응합니다.

🏥 실무 (5)

🔴 🏥 실무 2026년 4월 18일 · 3 분 읽기

Anthropic Claude Design：Claude Opus 4.7 기반의 디자인·프레젠테이션·프로토타입을 위한 시각적 협업 도구

Claude Design은 Anthropic Labs의 새로운 제품으로, Claude Opus 4.7을 디자인·프로토타입·프레젠테이션·원페이저 제작을 위한 협업 시각 창작 도구로 전환합니다. 시스템은 코드베이스와 디자인 파일에서 디자인 시스템을 자동으로 읽어오며, 인라인 댓글과 슬라이더 조정을 지원하고, 구현을 위해 Claude Code로 직접 핸드오프할 수 있습니다. 2026년 4월 17일부터 Pro, Max, Team, Enterprise 구독자를 대상으로 리서치 프리뷰로 제공됩니다.

🟡 🏥 실무 2026년 4월 18일 · 3 분 읽기

Anthropic：인프라 노이즈가 에이전트 벤치마크 결과를 최대 6퍼센트 포인트 변동시킴

Anthropic 연구자들은 RAM 설정과 CPU 헤드룸이 에이전트 코딩 벤치마크 결과를 6퍼센트 포인트만큼 변동시킬 수 있음을 입증했습니다——이는 리더보드 상위 모델 간의 차이보다 큽니다. Terminal-Bench 2.0과 SWE-bench를 테스트했습니다. 권장 사항: eval 설정이 문서화되고 정렬될 때까지 3퍼센트 포인트 미만의 우위는 의심해 볼 필요가 있습니다.

🟡 🏥 실무 2026년 4월 18일 · 2 분 읽기

GitHub Copilot CLI, 자동 모델 선택 기능 출시：유료 사용자 멀티플라이어 10% 할인 적용

에디토리얼 일러스트레이션：터미널에서 화살표가 분기되어 자동 라우팅의 서로 다른 AI 모델로 향하는 모습

GitHub은 2026년 4월 17일 Copilot CLI 도구의 AI 자동 모델 선택 기능이 모든 Copilot 플랜에서 일반 제공(GA)이 되었다고 발표했습니다. 시스템은 관리자 정책에 따라 GPT-5.4, GPT-5.3-Codex, Sonnet 4.6, Haiku 4.5 등의 모델로 요청을 동적으로 라우팅합니다. 유료 사용자는 Auto 모드 사용 시 모델 멀티플라이어에서 10% 할인을 받습니다——1x 멀티플라이어 모델은 1 프리미엄 요청 대신 0.9로 계산됩니다.

🟡 🏥 실무 2026년 4월 18일 · 3 분 읽기

PyTorch와 Meta：40개 이상의 최적화로 유효 훈련 시간 90% 초과 달성, MegaCache가 PT2 컴파일 40% 단축

Meta는 2025년 말까지 추천 모델의 오프라인 훈련에 대해 유효 훈련 시간(ETT) 90% 초과를 달성한 방법을 발표했습니다. 방법에는 PyTorch 에코시스템의 40개 이상의 새 최적화, PT2 컴파일 시간을 40% 단축하는 MegaCache, 작업당 30분을 절약하는 독립형 모델 발행, 비동기 체크포인트가 포함됩니다. 개선 사항은 PyTorch와 TorchRec을 통해 오픈소스화되었습니다.

🟢 🏥 실무 2026년 4월 18일 · 3 분 읽기

AWS, Amazon Bedrock에 IAM 주체별 세분화된 비용 귀속 도입

Amazon Bedrock은 이제 API를 호출하는 특정 사용자, 역할 또는 연합 ID인 IAM 주체별로 추론 비용을 추적합니다. 이 기능은 추가 비용 없이 AWS Cost and Usage Reports(CUR 2.0) 및 Cost Explorer와 통합됩니다. 직접 IAM 사용자, 애플리케이션 역할, 연합 인증 및 LLM 게이트웨이 프록시 패턴의 네 가지 접근 시나리오를 지원합니다. 모든 상용 AWS 리전에서 사용 가능합니다.

💬 커뮤니티 (1)

🟢 💬 커뮤니티 2026년 4월 18일 · 2 분 읽기

리우 ICLR 2026의 Apple：40개 이상의 포스터, iPad Pro의 MLX 데모, SHARP 3D 생성 및 MANZANO 통합 모델

Apple ML은 2026년 4월 23일부터 27일까지 리우데자네이루에서 열리는 ICLR 2026 컨퍼런스에서 발표하는 연구 개요를 공개했습니다. 회사는 컨퍼런스를 스폰서하며 부스 204에서 MLX 프레임워크를 통한 Apple Silicon에서의 로컬 LLM 추론과 iPad Pro에서의 SHARP 3D 모델을 시연합니다. 40개 이상의 포스터와 구두 발표 'To Infinity and Beyond——Tool-Use Unlocks Length Generalization'이 예정되어 있습니다.

← 전날 다음 날 →