2026년 4월 16일 목요일

17 개 뉴스 — 🔴 2 중요 , 🟡 10 주목 , 🟢 5 흥미

🤖 모델 (2)

🟡 🤖 모델 2026년 4월 16일 · 2 분 읽기

Google: Gemini 3.1 Flash TTS, 70개 이상의 언어에 표현력 있는 AI 음성 제공

Google이 Gemini 3.1 Flash TTS를 출시했습니다. 70개 이상의 언어를 지원하며 Artificial Analysis 순위에서 1,211의 Elo 점수를 달성한 새로운 텍스트 음성 변환 모델입니다. 핵심 혁신은 오디오 태그——음성, 억양, 감정을 정밀하게 제어하기 위해 텍스트에 자연어 명령을 직접 내장하는 기능입니다. 모델은 Google AI Studio, Vertex AI, Google Vids에서 이용 가능하며, AI 생성 음성 감지를 위한 SynthID 워터마킹을 지원합니다.

🟢 🤖 모델 2026년 4월 16일 · 2 분 읽기

ArXiv: LLM의 수치 불안정성 — 부동소수점 오류가 트랜스포머에 혼돈을 만드는 방법

새로운 연구가 부동소수점 연산의 반올림 오류가 트랜스포머 아키텍처의 레이어를 통해 혼돈을 어떻게 전파시키는지 엄격하게 분석합니다. 이 연구는 안정, 혼돈, 신호 지배의 세 가지 동작 모드를 확인하고, 수치 불안정성이 버그가 아니라 프로덕션 시스템에서 재현성을 위협하는 LLM의 근본적인 특성임을 증명합니다.

📦 오픈소스 (1)

🟢 📦 오픈소스 2026년 4월 16일 · 2 분 읽기

LangChain: Deep Agent를 활용해 문서가 스스로 테스트하게 만든 방법

LangChain이 문서의 오래된 코드 예제를 방지하기 위해 Deep Agent를 사용하는 자동화된 문서 테스트 시스템을 구축했습니다. 이 시스템은 다양한 스킬(skills)을 활용하여 인라인 코드 스니펫을 독립형 테스트 파일로 마이그레이션하고, GitHub Actions를 통해 실행하며, 검증된 스니펫을 재생성하여 문서가 항상 API의 실제 상태를 반영하도록 합니다.

⚖️ 규제 (1)

🟡 ⚖️ 규제 2026년 4월 16일 · 2 분 읽기

ArXiv: 195개 AI 안전 벤치마크 카탈로그, 단편화와 약한 측정 기준 드러내

AISafetyBenchExplorer는 2018년부터 2026년까지 발표된 195개의 AI 안전 벤치마크를 문서화한 구조화된 카탈로그입니다. 연구는 이 분야의 우려스러운 단편화를 드러냅니다——'accuracy'와 'safety score' 같은 용어들이 완전히 다른 방법론을 숨기고 있습니다. 195개의 벤치마크 중 165개는 영어만 평가하며, 137개의 GitHub 저장소가 비활성화 상태로, 발표 이후 유지보수 부족을 보여줍니다.

🤝 에이전트 (3)

🟡 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

OpenAI: 새로운 세대 Agents SDK가 네이티브 샌드박스 실행을 도입해 신뢰할 수 있는 에이전트 구현

OpenAI가 Agents SDK의 대폭적인 업그레이드를 발표했습니다. 더 신뢰할 수 있는 장기 실행 AI 에이전트 구축을 위한 네이티브 샌드박스 실행과 모델 네이티브 하니스를 도입합니다. 새 릴리스는 코드 실행 보안과 에이전트 자율성에 중점을 두며, 개발팀이 신뢰성을 유지하면서 인간의 감독 없이 수 시간 동안 작동할 수 있는 에이전트를 구축할 수 있게 합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

ArXiv: TREX — 두 개의 AI 에이전트가 언어 모델 파인튜닝 전체 프로세스를 자동화

TREX는 요건 분석과 문헌 검색에서 데이터 준비와 결과 평가까지, 대형 언어 모델 파인튜닝의 완전한 파이프라인을 자동화하는 새로운 멀티 에이전트 시스템입니다. 이 시스템은 실험 프로세스를 탐색 트리로 모델링하며, 10개의 실제 작업을 포함한 FT-Bench 벤치마크에서 모델 성능을 지속적으로 최적화합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

IBM Research: VAKRA 벤치마크, AI 에이전트가 복잡한 추론에서 실패함을 밝혀

IBM Research가 VAKRA를 발표했습니다——8,000개 이상의 로컬 API, 62개 도메인, 4,187개의 테스트 인스턴스를 포함하는 엔터프라이즈 환경에서 AI 에이전트를 평가하는 새로운 벤치마크입니다. 핵심 발견은 모델이 간단한 작업에서 표면적 능력을 보이지만 조합적 추론에서 실패하며, 다중 홉 추론이 깊이에 따라 저하되고, 외부 제약 준수가 성능의 상당한 저하를 야기한다는 것입니다.

🔧 하드웨어 (2)

🟡 🔧 하드웨어 2026년 4월 16일 · 2 분 읽기

AWS: Trainium 칩에서의 Speculative Decoding이 LLM 추론을 최대 3배 가속

Amazon Web Services가 AWS Trainium 칩과 vLLM 프레임워크를 결합한 Speculative Decoding의 상세한 구현을 발표하며, 디코드 집약적 워크로드에서 토큰 생성 속도를 최대 3배 향상시켰습니다. 이 기술은 소규모 초안 모델이 다음 N개의 토큰을 예측하고 대규모 목표 모델이 단일 패스에서 한꺼번에 검증하여 순차적 생성의 병목을 제거합니다.

🟢 🔧 하드웨어 2026년 4월 16일 · 2 분 읽기

NVIDIA: Blackwell이 Hopper보다 35배 저렴하게 토큰 생성——토큰당 비용만이 유일한 지표

NVIDIA가 토큰당 비용이 AI 인프라에서 유일하게 관련된 지표임을 주장하는 분석을 발표했습니다. Blackwell과 Hopper 세대 비교에서 Blackwell은 GPU 시간당 비용이 2배 높지만 초당 65배 더 많은 토큰을 생성하여, 백만 토큰당 비용이 35배 낮아집니다——Hopper의 4.20달러 대비 0.12달러.

🏥 실무 (2)

🟡 🏥 실무 2026년 4월 16일 · 2 분 읽기

GitHub: Copilot Cloud Agent, 이제 조직별로 선택적 활성화 가능

GitHub이 기존의 전체 또는 없음 방식 대신 커스텀 속성을 통해 엔터프라이즈 관리자가 Copilot 클라우드 에이전트 접근을 선택적으로 활성화할 수 있도록 했습니다. 새로운 기능은 개별 조직 수준에서 AI 에이전트 기능에 대한 더 세밀한 제어를 제공하며, 새로운 API 엔드포인트와 GitHub Enterprise 설정 내 AI Controls 인터페이스를 통한 관리가 가능합니다.

🟡 🏥 실무 2026년 4월 16일 · 2 분 읽기

마이크로소프트: 프론티어 트랜스포메이션 — UBS, BMW, 의료 업계가 AI 실험에서 비즈니스 핵심으로 전환하는 방법

마이크로소프트가 산업들이 AI 실험에서 핵심 비즈니스 운영에 통합하는 단계로 전환하는 과정을 설명하는 '프론티어 트랜스포메이션' 개념을 발표했습니다. 사례 연구에는 법률 연구를 위한 UBS, 멀티 에이전트 차량 분석을 위한 BMW, 임상의 번아웃 감소를 위한 Cooper Health Care, 소매 개인화를 위한 Venchi가 포함됩니다.

💬 커뮤니티 (1)

🟡 💬 커뮤니티 2026년 4월 16일 · 2 분 읽기

ArXiv: AAAI-26, 22,977편 논문에 AI 리뷰 실시 — 심사위원들이 인간보다 높게 평가

AAAI-26은 학회 규모 최초의 AI 보조 리뷰 실험을 진행했습니다. 22,977편의 투고 논문 모두 인간 심사와 함께 명확하게 표시된 AI 생성 리뷰를 받았습니다. 프로그램 위원회 위원들은 기술적 정확성과 연구 제안 측면에서 AI 리뷰를 인간 리뷰보다 높게 평가했습니다.

🛡️ 보안 (5)

🔴 🛡️ 보안 2026년 4월 16일 · 3 분 읽기

ArXiv: MemJack — 다중 에이전트 공격이 최대 90% 성공률로 비전-언어 모델 보호를 무력화

MemJack는 기존의 픽셀 섭동 방식 대신 다수 에이전트의 협조적 협력을 활용하는 비전-언어 모델(VLM) 대상 새로운 탈옥 공격 프레임워크입니다. 수정되지 않은 COCO 이미지로 테스트한 결과 Qwen3-VL-Plus에 대해 71.48%의 공격 성공률을 달성하였으며, 계산 예산을 확대하면 90%까지 향상됩니다. 연구자들은 방어 연구를 위해 113,000개 이상의 대화형 궤적을 공개할 예정입니다.

🔴 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

OpenAI: Trusted Access for Cyber 프로그램, 글로벌 사이버 방어에 1천만 달러 투입

OpenAI가 주요 보안 조직과 기업 사용자를 전용 모델 GPT-5.4-Cyber 중심으로 결집하는 'Trusted Access for Cyber' 이니셔티브를 시작했습니다. 이 프로그램에는 글로벌 사이버 방어 강화를 위한 1천만 달러의 API 보조금이 포함되어 있으며, OpenAI는 AI를 보안 생태계의 적극적인 참여자로 자리매김하고 있습니다.

🟡 🛡️ 보안 2026년 4월 16일 · 3 분 읽기

EleutherAI: 보상 해킹이 가시화되기 전에 탐지하는 새로운 방법

EleutherAI가 강화 학습 시스템에서 보상 해킹의 초기 징후를 탐지하는 '추론 보간' 방법에 관한 연구를 발표했습니다. 이 기술은 중요도 샘플링과 파인튜닝된 도너 모델을 사용하여 미래의 익스플로잇 패턴을 예측하며, AUC 1.00을 달성하는 반면 표준 방법은 익스플로잇 비율을 2~5 자릿수 과소평가합니다.

🟡 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

ArXiv: MCPThreatHive — MCP 생태계 보안을 위한 최초의 자동화 플랫폼

MCPThreatHive는 Model Context Protocol 생태계의 위협 인텔리전스 전체 라이프사이클을 자동화하는 새로운 오픈소스 플랫폼입니다. 38가지 특정 위협 패턴을 가진 MCP-38 분류 체계를 실용화하고, 이를 STRIDE 및 OWASP 프레임워크에 매핑하며, 정량적 위험 점수 시스템을 포함합니다. DEFCON SG 2026에서 발표되었습니다.

🟡 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

ArXiv: RePAIR, LLM이 재훈련 없이 목표 정보를 '잊을' 수 있게 지원

RePAIR는 사용자가 자연어 프롬프트를 통해 실시간으로 대규모 언어 모델에게 특정 정보를 잊도록 지시할 수 있는 새로운 인터랙티브 기계적 망각(machine unlearning) 프레임워크입니다. 핵심 혁신인 STAMP 방법은 모델 재훈련 없이 닫힌 형식으로 MLP 활성화를 거부 부분 공간으로 리디렉션하여, 모델의 유용성을 유지하면서 거의 0에 가까운 망각 점수를 달성합니다.

← 전날 다음 날 →