Anthropic: Project Fetch 2단계——로봇 작업 20배 빠르고 코드 10배 감소
Claude Opus 4.7이 상용 4족 로봇을 자율적으로 제어하여 인간 팀보다 약 20배 빠르게 작업을 완료하였고, 코드 작성량도 약 10배 적었으나 동등하거나 더 우수한 결과를 달성했습니다. 단, 정밀한 폐루프 제어는 여전히 과제로 남아 있습니다.
지난 72시간, 카테고리별 정리
Claude Opus 4.7이 상용 4족 로봇을 자율적으로 제어하여 인간 팀보다 약 20배 빠르게 작업을 완료하였고, 코드 작성량도 약 10배 적었으나 동등하거나 더 우수한 결과를 달성했습니다. 단, 정밀한 폐루프 제어는 여전히 과제로 남아 있습니다.
CEO-Bench는 500일간 스타트업 운영을 시뮬레이션하여 AI 에이전트가 감독 없이 경영 결정을 내리는 능력을 검증하는 벤치마크입니다. Claude Opus 4.8과 GPT-5.5만이 초기 자본 100만 달러를 초과했지만, 어떤 모델도 지속적인 수익을 실현하지 못했습니다.
Amazon Bedrock AgentCore Harness가 프리뷰 단계에서 GA로 전환되어 모든 사용자가 프로덕션 환경에서 이용할 수 있게 되었습니다. 프로덕션급 AI 에이전트 배포가 이제 2번의 API 호출만으로 가능하며, Claude·Nova·Llama·DeepSeek·GPT-5.5·GPT-5.4를 지원하고 세션 중 컨텍스트 손실 없이 모델을 전환할 수 있습니다.
GitHub가 이슈 생성 시 실시간 중복 감지를 도입하고 이슈 필드 MCP 지원으로 MCP 서버를 확장했습니다. AI 에이전트는 이제 모든 메타데이터를 자동으로 설정하여 이슈를 생성할 수 있어 수동 분류가 필요 없습니다.
AWS는 Amazon Bedrock AgentCore를 세 가지 지식 레이어로 확장했습니다. 에이전트 리트리버를 갖춘 관리형 지식 베이스, 아마존 인프라 기반의 웹 검색, 그리고 라이선스 콘텐츠 접근을 위한 AgentCore Payments입니다. 또한 조용한 행동 오류를 감지하는 Monitoring, 프로덕션 A/B 테스트를 제공하는 Optimization, 각 에이전트 작업의 프롬프트 인젝션과 데이터 노출을 평가하는 Guardrails가 추가되었습니다. AWS WAF는 동시에 AI 트래픽 수익화를 도입했습니다.
루브릭 조건부 자기 증류는 과학적 추론 벤치마크에서 GRPO보다 +1.0점, OPSD보다 +0.9점 높은 새로운 추론 모델 학습 방법입니다. 스칼라 보상 대신 루브릭을 토큰 수준 지도로 활용하여 더욱 정밀한 공로 귀속을 실현합니다.
GPT-5.5 Instant는 더 강력한 추론과 더 나은 컨텍스트를 통해 ChatGPT의 건강 및 웰니스 답변을 개선합니다. 평가에는 의사 그룹이 참여했으며, 의료 주제에 대한 더 명확하고 신뢰할 수 있는 소통을 목표로 합니다.
Google은 Nature에 발표한 연구에서 의료 AI AMIE가 눈가림 시험으로 가정의학과 의사 21명의 질병 관리 수준에 도달했으며, 치료 계획 정확도와 가이드라인 준수율에서 통계적으로 유의하게 우수했다고 밝혔습니다. AMIE는 공감적 대화 에이전트와 수백 페이지의 임상 가이드라인을 교차 검증하는 심층 추론 에이전트의 이중 구조를 채택했습니다. Google은 이후 실제 가상 진료소에서 전국 규모의 무작위 대조 연구를 시작했습니다.
GitHub는 추론 깊이, 코드 복잡도, 도구 오케스트레이션 필요성에 따라 Copilot의 AI 모델을 자동으로 선택하는 HyDRA 모델 라우터를 발표했습니다. HyDRA는 품질을 유지하면서 72.5%의 비용을 절감하며, 보수 모드에서 작업 해결률 70.8%로 OpenRouter Auto 대비 3.3배 저렴합니다. 프롬프트 캐싱과 도구 검색이 추가되었으며, 19개 언어에서 라우팅 정확도가 영어 기준 대비 4퍼센트포인트 이내입니다.
OpenAI와 Molecule.one은 GPT-5.4 기반의 거의 자율형 AI 화학자를 선보였습니다. 이 시스템은 최소한의 인간 개입으로 약물 합성의 핵심 반응을 개선했습니다. 의약 화학 반응을 최적화하는 이 시스템은 AI 주도 제약 연구개발을 향한 중요한 발걸음입니다. 원문을 가져올 수 없어 본 기사는 OpenAI 공식 설명을 바탕으로 작성했습니다.
TxBench-PP는 4,800개의 궤적과 11개 모델을 통해 소분자 전임상 약리학에서 AI 에이전트의 성능을 검증하는 벤치마크입니다. Claude Opus 4.8이 59.3%의 성공률로 선두이며 GPT-5.5가 55.3%로 뒤따르지만, 어떤 모델도 의료 적용에 충분한 신뢰 수준에는 도달하지 못했습니다.
MAI-Code-1-Flash——Microsoft가 동급 최고 품질로 자리매김한 소형 코딩 모델——이 CLI부터 모바일 플랫폼까지 GitHub Copilot의 8개 개발 인터페이스에서 이용 가능해졌습니다. free부터 max 티어까지 모든 플랜에서 제공됩니다.
OpenAI의 추론 모델이 의사 및 연구 기관과의 협력을 통해 이전에 미해결 상태였던 아동 희귀 유전 질환 사례에서 18개의 새로운 진단을 확인했습니다. 이 결과는 임상 진단에서 AI의 역할에 대한 새로운 질문을 제기합니다.
PyTorch 핵심 팀이 Helion 커널을 위한 LLM 기반 자동 튜닝을 발표하여 GPU 코드 최적화 시간을 분에서 초 단위로 단축했습니다. 대규모 언어 모델이 완전 탐색 대신 커널 파라미터 공간의 검색을 지능적으로 안내합니다.
GitHub가 macOS, Windows, Linux용 Copilot 데스크톱 앱의 정식 출시(GA)를 발표했습니다. 이 앱은 병렬 세션, 캔버스 UI, 클라우드 자동화, 커스텀 모델 및 도구 통합을 제공합니다. GitHub Spark, Copilot Chat, Copilot CLI를 통합된 데스크톱 경험으로 통합합니다. 이번 출시는 HyDRA 모델 라우팅과 모든 사용자에게 제공되는 Auto 모드를 포함한 당일의 더 넓은 Copilot 발표의 일환입니다.
유럽위원회가 제4차 디지털 10년 연간 현황 보고서를 발표하여 인프라, 비즈니스, 역량, 공공서비스 네 분야에서 2030년 디지털 목표를 향한 EU의 진행 상황을 평가했습니다. 보고서는 AI, 반도체, 클라우드, 오픈소스를 유럽 기술 주권의 기둥으로 인정하고, 「규모·속도·일관성을 갖춘 성과 제공」을 핵심 과제로 제시했습니다. 유로바로미터에 따르면 대다수의 유럽 시민이 디지털 정책을 EU의 최우선 과제로 꼽고 있습니다.
CNCF는 EU Data Act가 2025년 1월 11일부터 전면 시행됨에 따라 클라우드 네이티브 플랫폼의 디지털 주권 아키텍처 패턴에 관한 가이드를 발표했습니다. 규제 당국은 네 가지 속성을 요구합니다:관할권 제한, 운영 자율성, 암호화 접근 제어, 이식성. 공유 control plane은 관할권 간 공유 위험을 의미하므로 단일 Kubernetes 클러스터로는 충분하지 않습니다. 각 관할권이 자체 control plane(vCluster)을 갖추고 GitOps로 경계를 선언하는 패턴이 제안됩니다.
AgentFairBench는 취업, 신용, 의료 분류 영역에서 LLM 에이전트의 답변뿐 아니라 실제 행동에서의 인구통계 불평등을 측정하는 첫 번째 벤치마크입니다. 반사실적 전환율과 행동률 격차 두 가지 지표를 사용하며 네 가지 에이전트 스캐폴드를 테스트합니다. 864회 결정의 시범 연구에서 Claude Haiku는 통계적 노이즈 수준을 초과하는 인구통계 효과를 보이지 않았으며, 6개 집단의 단순 비교가 불평등을 약 2.4배 과대평가할 수 있다고 경고합니다.
이 논문은 1,000개 시스템의 최종 리더보드 스냅샷이 수렴 시간 23~75 단계로 여러 비호환 역사적 궤적에 대응할 수 있음을 보이는 베이즈 감사 프레임워크를 제시합니다. LiveBench, Open LLM Leaderboard v2, LMArena, GAIA, tau-bench의 아카이브 데이터를 토대로 저자는 채점 이력을 재구성하고 프론티어 모델에 관한 근거 없는 주장을 기각하기 위한 archive-and-adjudication 프로토콜을 제안합니다.
Google DeepMind는 100만 개의 에이전트 코딩 궤적을 분석하여 AI 에이전트 보안 사고로 표시된 것의 50% 이상이 외부 적대적 공격이 아닌 작업 오해 또는 모델의 과도한 적극성에서 비롯됨을 발견했습니다. 이 발견은 방어 우선순위를 바꿉니다.
GitHub는 하루 만에 Actions에 대한 두 가지 상호 보완적인 보안 업데이트를 발표했습니다. actions/checkout@v7이 포크 PR로부터의 pwn request 공격을 차단하고, 새로운 워크플로 실행 보호 기능을 통해 관리자가 조직 전체에서 행위자 및 이벤트 유형별 허용 목록을 설정할 수 있습니다.
새로운 벤치마크 PseudoBench가 7개 최첨단 AI 에이전트를 5개 분야 200개 유사과학 주장으로 테스트한 결과, 거부율이 거의 제로에 가까운 것으로 밝혀졌습니다——최고 저항력도 27.4%에 불과했습니다. 역설적으로, 더 강력한 모델일수록 유사과학을 더 정교한 학술 언어로 포장해 위험을 높입니다. 저자들은 실험 설계부터 논문 작성까지 설득력 있는 가짜 연구를 생성할 수 있는 자율 연구 에이전트를 대규모로 배포하기 전에 『과학적 정렬』이 필수적이라고 경고합니다.
Anthropic 레드팀이 Verizon과 협력하여 실제 AI 무장화 사이버 작전을 MITRE ATT&CK 프레임워크에 매핑한 분석을 발표했습니다. 이 연구는 실제 관찰된 AI 지원 공격 패턴을 분석합니다. 동시에 레드팀은 대형 언어 모델이 이미 공개됐지만 아직 패치되지 않은(N-day) 취약점 악용을 어떻게 가속화하는지에 대한 분석도 발표했습니다.
AWS는 Amazon Bedrock에 InvokeGuardrailChecks를 도입했습니다. 이는 자동 차단 없이 점수를 반환하고 사전 생성된 guardrail 리소스도 필요 없는 탐지 API입니다. 콘텐츠 필터, 프롬프트 공격 탐지(탈옥, 삽입, 유출), 31가지 엔티티 유형을 가진 개인정보 인식의 세 가지 보호를 다룹니다. API는 0에서 1.0 범위로 심각도와 신뢰도 점수를 반환하며, 개발 팀이 직접 임계값을 제어하는 다단계 에이전트 루프를 위해 설계되었습니다.
GitHub가 pull request 제한을 도입하여 메인테이너가 외부 기여자의 동시 오픈 PR 수를 제어할 수 있게 되었습니다. 2023년 1월 이후 합병된 PR 수가 월 2,500만에서 9,000만 이상으로 3.6배 증가하면서 많은 프로젝트를 압도했습니다.
Anthropic이 서울에 사무소를 개설했습니다. 이는 아시아에서의 첫 번째 사무소이며, 한국 AI 생태계와의 새로운 협력 관계를 발표했습니다. 이번 행보는 미국과 유럽 외부로의 광범위한 글로벌 확장의 일환입니다. 개별 파트너십의 세부 사항은 출처에서 확인할 수 없었으므로 이 기사에서는 의도적으로 언급하지 않습니다. 한국은 강력한 기술 산업과 높은 AI 도입률을 갖춘 중요한 시장입니다.
GitHub는 2026년 6월 16일부터 GitHub Models(플레이그라운드, API, 모델 카탈로그)를 신규 조직에 대해 폐쇄했습니다. 기존 사용자는 당분간 전체 접근 권한을 유지하며, 완전 종료에 관한 세부 사항은 추후 발표됩니다. GitHub는 신규 사용자를 Azure AI Foundry로 안내하고 있습니다. 공지에는 철수 이유가 명시되지 않았지만, 이 조치는 GitHub가 개발자에게 AI 모델을 직접 제공하는 사업에서 물러나고 있음을 시사합니다.
OpenAI가 파트너 네트워크를 출범했습니다. 기업 AI 도입을 가속화하기 위한 글로벌 파트너 대상 1억 5000만 달러 규모 프로그램입니다. 이 이니셔티브는 기업이 AI 구현, 배포, 비즈니스 전환을 지원하는 것을 목표로 합니다. 공고는 2026년 6월 14일에 발표되었습니다. 전체 공고 텍스트에 접근할 수 없어 본 기사는 OpenAI의 공식 공고 설명을 기반으로 작성되었습니다.
AMD는 스케일아웃 GPU 클러스터에서 GPT-4, Llama 3, DeepSeek-V2, Grok 4.0 등 4개의 대규모 언어 모델을 학습할 때 발생하는 RoCE 네트워크 트래픽 패턴에 대한 비교 분석을 발표했습니다. 이는 다수의 GPU 노드로 구성된 AI 인프라 구축을 위한 실무 지침입니다.
AMD가 Schola를 발표했습니다. Python 프레임워크와 gRPC를 통해 Gymnasium 호환 강화학습 훈련을 가능하게 하는 Unreal Engine용 오픈소스 플러그인입니다. 예시에서는 협동 로봇 팔 xArm6를 Unreal Engine 5.7에서 MuJoCo 물리 엔진, PPO 알고리즘, PyTorch를 AMD ROCm GPU 스택으로 훈련합니다. 튜토리얼은 팔 끝을 무작위 목표 위치로 이동시키는 도달 작업을 보여줍니다.
AMD는 MLPerf Training v6.0에서 Instinct MI355X가 LLM 벤치마크에서 동급 NVIDIA GPU와 약 5% 성능 차이를 보였음을 공개했습니다. MI355X는 작년 MI300X보다 3.5배, 이전 라운드보다 13~19% 빠릅니다. AMD는 최초로 MXFP4(FP4) 학습 레시피와 Primus 통합 프레임워크를 도입했으며, 512개 MI300X GPU, 64개 노드의 멀티노드 제출도 완료했습니다.
NVIDIA는 Blackwell 플랫폼이 MLPerf Training 6.0의 전체 7개 테스트에서 최고 성적을 달성했다고 발표했습니다. GB300 NVL72는 GB200 NVL72 대비 최대 1.6배 빠른 학습 속도를 제공하며, 최대 규모 제출에서는 8192개의 Blackwell GPU로 6710억 파라미터의 DeepSeek-V3 모델을 학습했습니다. CoreWeave는 8192개 GPU로 DeepSeek-V3 671B를 2.02분에 학습했고, Microsoft Azure는 Llama 3.1 405B를 7.07분에 완료했습니다.
AMD가 Instinct GPU를 위한 추론 엔진 ATOM을 발표했습니다. OpenAI 호환 API를 제공하며 KV 캐시, 스케줄링, 병렬성을 조율합니다. ATOM은 ROCm 스택 최상위에 위치하며 AITER 커널과 MoRI RDMA 통신을 활용해 TP, DP, EP 병렬성을 지원하고 DeepSeek V2~V4, Mixtral, Qwen3-MoE 등 MoE 모델에 최적화되어 있습니다. FP8, MXFP4, INT8, INT4 양자화와 EAGLE 제안자를 사용한 MTP 투기적 디코딩을 제공합니다.
Robin Rombach——Black Forest Labs(FLUX 모델 개발자)의 공동 창업자 겸 CEO——가 G7 지도자들에게 직접 호소했습니다. 개방적이고 책임감 있는 AI 개발이 전 세계적 규범이 되어야 한다는 것입니다. Rombach는 AI 파라미터의 공개 접근성이 혁신을 촉진하고 기술의 민주화를 이끈다고 주장합니다.
Allen Institute는 비디오와 『그릇을 돌려』 같은 자연어 지시로 물체의 3D 궤적을 예측하는 완전 오픈소스 모델 MolmoMotion을 공개했습니다. PointMotionBench에서 SOTA를 달성하여 평균 변위 0.109m로 이전 기록 0.134m를 경신했습니다. 로보틱스 pick-and-place 작업 성공률을 56%에서 76.3%로 20.3퍼센트포인트 향상시켰습니다. 3D 궤적과 동작 설명이 포함된 116만 개의 비디오로 구성된 MolmoMotion-1M 데이터셋으로 학습되었습니다.
vLLM이 Semantic Router Fusion을 선보였습니다. 여러 모델이 패널로 병렬 실행되고 심판 모델이 합의와 차이를 분석하여 단일 응답을 합성하는 기본 단위입니다. 로컬 vLLM과 프라이빗 엔드포인트뿐만 아니라 Gemini, Kimi, DeepSeek, Claude 같은 공개 제공자도 지원합니다. OpenRouter DRACO에서의 외부 검증에서 합쳐진 패널이 69%를 기록하여 최고 단일 모델의 65.3%를 앞섰으며, 완전한 OpenAI API 호환성을 갖추고 있습니다.
GitHub이 4000만 개 이상의 저장소에 걸쳐 8000만 개 이상의 분류 행을 포함한 다국어 저장소 데이터셋을 완전 개방형 CC0-1.0 라이선스로 공개했습니다. 각 저장소에 대해 README, 댓글이 가장 많은 issue, 댓글이 가장 많은 pull request 등 세 가지 텍스트 소스를 기록하며, fastText, gcld3, lingua-py 세 가지 도구로 언어를 감지합니다. 비영어 README 파일에서는 포르투갈어가 1위, issue 토론에서는 한국어가 가장 두드러집니다.
CNCF는 Oracle의 300만 달러 OCI 컴퓨트 크레딧 기부가 OpenTelemetry, containerd, Falco, Longhorn, Crossplane, Jaeger를 포함한 12개 이상의 프로젝트에서 Arm64 CI/CD 지원을 가능하게 한다고 밝힙니다. 수요는 월 5,000달러의 초기 지침을 빠르게 초과했습니다. 이 전환은 새로운 AWS 인스턴스의 50% 이상과 Azure 인스턴스의 33%가 현재 Arm64 아키텍처에서 실행된다는 데이터와 함께 이루어집니다.