2026년 4월 30일 목요일

15 개 뉴스 — 🔴 2 중요 , 🟡 12 주목 , 🟢 1 흥미

🤖 모델 (4)

🔴 🤖 모델 2026년 4월 30일 · 2 분 읽기

BioMysteryBench：Mythos Preview, 전문가도 풀지 못한 생물정보학 문제 해결, Opus 4.6은 인간 해결 과제에서 77.4% 달성

편집 일러스트: 과학 장비와 함께 RNA-seq 데이터를 분석하는 AI 에이전트

Anthropic은 2026년 4월 29일 BioMysteryBench를 공개했습니다. 이는 실험 데이터의 객관적인 정답을 활용한 99개의 전문 생물정보학 과제로 구성된 평가 프레임워크입니다. Claude Opus 4.6은 인간이 풀 수 있는 76개 문제에서 약 77.4%, 23개의 초인간적 과제에서 23.5%를 달성했으며, Mythos Preview는 인간 전문가 패널이 풀지 못한 문제들을 해결했습니다. 연구자들은 이를 AI가 생명과학 분야에서 이룬 분수령적 순간으로 묘사하고 있습니다.

🔴 🤖 모델 2026년 4월 30일 · 2 분 읽기

NVIDIA Nemotron 3 Nano Omni：AI 에이전트용 30B-A3B MoE 멀티모달 모델, 처리량 9배 향상

편집 일러스트: 통합 아키텍처에서 비전·오디오·텍스트를 처리하는 멀티모달 AI 모델

NVIDIA는 2026년 4월 28일 Nemotron 3 Nano Omni를 선보였습니다. 이는 256K 컨텍스트의 단일 아키텍처에 비전, 오디오, 언어, 비디오, 문서, GUI 스크린샷 처리를 통합한 오픈소스 30B-A3B 하이브리드 Mixture-of-Experts 모델입니다. 동등한 인터랙티비티를 유지하면서 다른 오픈 옴니 모델 대비 처리량이 9배 높으며, 문서·비디오·오디오 이해 6개 리더보드에서 선두를 차지합니다. Hugging Face, OpenRouter, build.nvidia.com 및 25개 이상의 파트너 플랫폼에서 이용 가능하며, 초기 도입자에는 Palantir, Foxconn, Eka Care가 포함됩니다.

🟡 🤖 모델 2026년 4월 30일 · 2 분 읽기

ArXiv：사고의 연쇄를 갖춘 표준 트랜스포머는 TC^0 복잡도를 벗어난 추론 불가 — 신호등 토큰이 길이 일반화 가능한 튜링 시뮬레이션 실현

편집 일러스트：사고의 연쇄 단절과 신호등 심볼이 있는 트랜스포머 아키텍처

Kraus, Sarrof, Yao, Koller, Hahn의 새로운 ArXiv 프리프린트는 길이 일반화 학습의 더 엄격한 요건 하에서 사고의 연쇄（CoT） 추론을 갖춘 표준 트랜스포머가 TC^0 복잡도를 넘어서는 문제를 해결할 수 없음을 보여줍니다. CoT의 실증적 성공은 실제로는 이론적 튜링 완전성을 의미하지 않습니다. 제안된 해결책 — 동적 어휘 확장과 신호등 토큰 — 은 선형 CoT 오버헤드로 길이 일반화 가능한 튜링 기계 시뮬레이션을 가능하게 합니다.

🟡 🤖 모델 2026년 4월 30일 · 2 분 읽기

PyTorch AutoSP：컴파일러 기반 도구가 학습 코드를 자동으로 시퀀스 병렬화하여 100k+ 토큰 컨텍스트 지원

PyTorch는 2026년 4월 29일 AutoSP를 발표했습니다. 이는 DeepSpeed/DeepCompile 내의 컴파일러 기반 도구로, 표준 단일 GPU 트랜스포머 학습 코드를 시퀀스 병렬 형식으로 자동 변환합니다. 100k+ 토큰 컨텍스트로 LLM을 학습할 때 필요한 토큰 파티셔닝과 통신 집합 연산의 수동 구현을 제거합니다. UIUC SSAIL Lab, Anyscale, Snowflake가 공동 개발했습니다.

📦 오픈소스 (1)

🟢 📦 오픈소스 2026년 4월 30일 · 2 분 읽기

IBM Granite 4.1：15T 토큰으로 학습된 오픈 소스 3B/8B/30B Apache 2.0 모델 패밀리, 밀집 8B 모델이 32B MoE에 필적

IBM은 2026년 4월 29일 HuggingFace 블로그에 Granite 4.1 모델 패밀리 구축 세부 사항을 공개했습니다. Apache 2.0 라이선스의 3B, 8B, 30B 밀집 변형이 제공됩니다. 약 15T 토큰으로 5단계 파이프라인 전략을 통해 학습했으며, GRPO+DAPO 손실을 사용한 4단계 RL을 채택했습니다. Granite 4.1-8B Instruct는 대부분의 벤치마크에서 이전 세대 Granite 4.0-H-Small（32B-A9B MoE）에 필적하거나 이를 능가하며, 밀집 모델이 동일한 활성화 예산으로 MoE 품질에 도달할 수 있음을 보여줍니다.

🤝 에이전트 (5)

🟡 🤝 에이전트 2026년 4월 30일 · 2 분 읽기

ArXiv Odysseys：CMU의 현실적인 웹 에이전트 벤치마크가 최고 프런티어 모델이 장기 작업에서 44.5% 성공률과 1.15% 궤적 효율만 달성함을 밝혀

CMU 연구원 Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov는 2026년 4월 27일 ArXiv 프리프린트 Odysseys를 발표했습니다. 이는 라이브 인터넷의 실제 브라우징 세션에서 나온 200개의 장기 웹 작업 벤치마크입니다. 루브릭 기반 평가（작업당 평균 6.1개의 루브릭）는 가장 강력한 프런티어 모델이 44.5% 성공률과 1.15% 궤적 효율만 달성함을 보여주며, 현재 웹 에이전트의 거대한 결함을 드러냅니다.

🟡 🤝 에이전트 2026년 4월 30일 · 2 분 읽기

AWS Bedrock AgentCore：엔터프라이즈 거버넌스를 위한 IAM, OAuth 2.0 JWT, CloudWatch 관찰 가능성을 갖춘 서버리스 MCP 프록시

편집 일러스트: 에이전트와 도구 사이에 프록시 계층이 있는 서버리스 아키텍처

AWS는 2026년 4월 29일 Amazon Bedrock AgentCore Runtime에서 커스텀 MCP 프록시를 서버리스 워크로드로 배포하기 위한 참조 아키텍처를 공개했습니다. 프록시는 AI 에이전트와 업스트림 MCP 서버 사이에 배치되어 기존 시스템을 수정하지 않고도 거버넌스 제어——입력 검증, PII 삭제, 감사 로깅, 속도 제한——를 주입할 수 있습니다. 아키텍처는 동적 도구 탐색을 위해 FastMCP 프레임워크를 사용하고, IAM/SigV4 및 OAuth 2.0 JWT 인증을 지원하며, CloudWatch 및 OpenTelemetry와 통합됩니다.

🟡 🤝 에이전트 2026년 4월 30일 · 2 분 읽기

AWS Bedrock AgentCore Memory：IAM 액세스 제어를 갖춘 네임스페이스 수준 에이전트 장기 메모리 세 가지 아키텍처 패턴

편집 일러스트：네임스페이스 구획과 액세스 키를 갖춘 계층적 에이전트 메모리

AWS는 2026년 4월 29일 Bedrock AgentCore Memory 서비스 내 에이전트 장기 메모리 조직화를 위한 참조 아키텍처 패턴을 공개했습니다. 세 가지 주요 네임스페이스 패턴이 각기 다른 사용 사례를 커버합니다：기호와 사실을 위한 Actor-Scoped, 대화 요약을 위한 Session-Scoped, 세션 간 경험 일반화를 위한 Episodic with Reflection Hierarchy. IAM 조건 키는 네임스페이스 수준의 엄격한 액세스 제어를 가능하게 합니다.

🟡 🤝 에이전트 2026년 4월 30일 · 2 분 읽기

LangChain Deep Agents 하네스 프로파일：GPT-5.3 Codex, tau2 벤치마크에서 33%에서 53%로, Opus 4.7은 43%에서 53%로 도약

편집 일러스트: 다양한 언어 모델을 위한 교체 가능한 프로파일을 갖춘 에이전트 프레임워크

LangChain은 2026년 4월 29일 Deep Agents를 위한 하네스 프로파일 시스템을 선보였습니다. 이를 통해 동일한 코드가 수정 없이 Anthropic, OpenAI, Google 모델과 함께 작동할 수 있습니다. 프로파일은 모델별 시스템 프롬프트, 도구, 미들웨어를 자동으로 적용합니다. tau2 벤치마크에서 GPT-5.3 Codex는 33%에서 53%로, Claude Opus 4.7은 43%에서 53%로 정확도가 향상되었으며, 연구자들은 단일 하네스가 모든 모델에 최적일 수 없다고 결론 내렸습니다.

🟡 🤝 에이전트 2026년 4월 30일 · 2 분 읽기

Mistral Medium 3.5 + Vibe：128B 밀집 오픈 가중치 모델과 비동기 클라우드 코딩 에이전트, 백만 토큰당 $1.5/$7.5

편집 일러스트：병렬로 작동하는 코딩 에이전트와 비동기 샌드박스 컨테이너가 있는 클라우드 플랫폼

Mistral AI는 256k 컨텍스트 창을 갖추고 SWE-Bench Verified에서 77.6%를 달성한 1,280억 파라미터 밀집 모델 Mistral Medium 3.5를 출시했습니다. 수정된 MIT 라이선스로 가중치를 공개합니다. CLI 또는 Le Chat에서 시작할 수 있는 비동기 클라우드 코딩 에이전트 플랫폼 Vibe와 엔터프라이즈 워크플로우용 Le Chat Work mode 프리뷰도 함께 제공됩니다. 가격은 입력 $1.5/백만 토큰, 출력 $7.5/백만 토큰입니다.

🏥 실무 (3)

🟡 🏥 실무 2026년 4월 30일 · 2 분 읽기

Anthropic Claude for Creative Work：Blender, Adobe Creative Cloud 50개 이상 도구, Autodesk Fusion, Ableton, SketchUp, Splice 연동

편집 일러스트: 3D 모델링, 오디오 프로덕션, 그래픽 디자인을 연결하는 AI 어시스턴트

Anthropic은 2026년 4월 28일 Blender, Autodesk Fusion, Adobe(50개 이상의 Creative Cloud 도구), Ableton, Splice, Affinity와 Canva, Resolume Arena, SketchUp과의 협업을 통한 전문 크리에이티브 소프트웨어용 Claude 커넥터를 발표했습니다. Claude는 Blender용 Python 스크립트 작성, VJ를 위한 Resolume 실시간 제어, Affinity에서 에셋 배치 처리 자동화, Splice 샘플 카탈로그 검색이 가능합니다. Anthropic은 Blender Development Fund에 패트론으로 참여했으며, RISD, Ringling College, Goldsmiths의 세 학술 기관이 학생들이 Claude와 협업하는 방법을 배우는 수업을 시작합니다.

🟡 🏥 실무 2026년 4월 30일 · 2 분 읽기

Google ERA：과학 연구용 AI 시스템이 입원 예측에서 CDC 최고 순위 달성, 미해결 우주론 문제 해결, 10분마다 CO2 관측

편집 일러스트：과학 도구와 AI 네트워크가 별자리 형태의 다분야 연결로 이어진 모습

Google Research는 2026년 4월 29일 ERA（경험적 연구 지원 시스템）를 발표했습니다. 이는 LLM을 계산 도구와 결합하여 과학 연구를 가속화하는 내부 AI 시스템입니다. 서로 다른 분야에 걸친 네 가지 구체적인 성과：COVID/독감/RSV 입원 예측 CDC 순위 1위, 우주 줄 중력 복사에 대한 여섯 개의 새로운 해, 10분마다 대기 CO2를 관측하는 신경망, 제브라피시의 해석 가능한 신경 회로.

🟡 🏥 실무 2026년 4월 30일 · 2 분 읽기

EvalEval Coalition：AI 평가가 새로운 컴퓨팅 병목 현상으로 — GAIA 단일 실행 $2,829, HAL 리더보드 $40,000, 학술 감사인들은 기술적 장벽 전에 예산 장벽에 직면

EvalEval Coalition（Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen）은 2026년 4월 29일 HuggingFace 블로그에 AI 모델 평가 비용이 폭발적으로 증가했음을 보여주는 분석을 게재했습니다. 단일 GAIA 실행 $2,829, HAL 리더보드 $40,000（k=8 신뢰도 $320,000）, PaperBench는 에이전트당 약 $9,500. 정적 벤치마크는 100-200배 압축 가능하지만 에이전트 벤치마크는 2-3.5배에 불과합니다 — 독립 감사인에 대한 책임 장벽이 됩니다.

💬 커뮤니티 (1)

🟡 💬 커뮤니티 2026년 4월 30일 · 2 분 읽기

CNCF 프로젝트 AI 현황：Claude Code와 GitHub Copilot이 지배, 프로젝트의 3분의 2가 공식 AI 정책 없어

편집 일러스트: 클라우드 네이티브 프로젝트 기여자의 AI 도구 사용 설문 시각화

CNCF TAG Developer Experience는 2026년 4월 29일 거의 100개의 클라우드 네이티브 오픈소스 프로젝트에서 참여한 133명의 기여자를 대상으로 한 설문의 예비 결과를 발표했습니다. Claude Code와 GitHub Copilot이 시장 리더로 부상했으며, 기여자의 약 50%가 IDE 또는 CLI에 통합된 AI를 사용하고, 수동 복사-붙여넣기가 필요한 기본 챗봇에만 의존하는 비율은 10%에 불과합니다. 주요 발견: 67%의 프로젝트가 공식 AI 정책이 없고, 4% 미만이 AI를 금지하며, 50% 이상이 AI 기여의 필수 공개를 지지합니다.

🛡️ 보안 (1)

🟡 🛡️ 보안 2026년 4월 30일 · 2 분 읽기

ArXiv：교차 언어 탈옥 공격에 대한 훈련 없는 가드레일이 정제된 벤치마크에서 AUC 0.99 달성, 분포 이동 시 0.60-0.70으로 하락

편집 일러스트：프롬프트가 언어 간에 번역되고 시맨틱 감지 그리드를 통과하는 모습

Alanova, Minko, Sadiekh, Kokuykin 팀은 2026년 4월 28일 시맨틱 코드북을 통한 교차 언어 탈옥 공격에 대한 훈련 없는 방어를 제시하는 ArXiv 프리프린트를 발표했습니다. 이 접근법은 요청의 다국어 임베딩을 알려진 영어 탈옥 프롬프트의 고정 기반과 비교합니다. 정제된 벤치마크에서 AUC가 0.99에 달하지만, 분포 이동된 이종 공격에서는 AUC 0.60-0.70으로 하락하여 접근법의 한계를 보여줍니다.

← 전날 다음 날 →