Google, Gemini Embedding 2 정식 출시: 5가지 모달리티를 단일 임베딩 공간에 통합한 첫 멀티모달 임베딩 모델
Google은 텍스트, 이미지, 동영상, 오디오, PDF를 단일 임베딩 벡터 공간에 매핑하는 gemini-embedding-2 모델의 정식 출시(GA)를 발표했습니다. 이 모델은 2026년 3월 10일부터 미리보기로 제공되었으며, 이제 Gemini API를 통해 모든 사용자에게 제공됩니다.
20 개 뉴스 — 🔴 2 중요 , 🟡 12 주목 , 🟢 6 흥미
Google은 텍스트, 이미지, 동영상, 오디오, PDF를 단일 임베딩 벡터 공간에 매핑하는 gemini-embedding-2 모델의 정식 출시(GA)를 발표했습니다. 이 모델은 2026년 3월 10일부터 미리보기로 제공되었으며, 이제 Gemini API를 통해 모든 사용자에게 제공됩니다.
Microsoft Research가 의료, 법률, 인시던트 대응 등 전문 도메인에 범용 언어 모델을 자동으로 적응시키는 AutoAdapt 프레임워크를 발표했습니다. 시스템은 RAG와 파인튜닝 사이에서 자율적으로 선택하고 하이퍼파라미터를 최적화하며 약 30분에 약 4달러의 추가 비용으로 작업을 완료합니다.
애플의 연구 그룹은 ICLR 2026 컨퍼런스에서 이미지 이해 능력과 이미지 생성 품질 사이의 오랜 트레이드오프를 해결하는 통합 멀티모달 프레임워크 MANZANO를 발표했습니다. 이 모델은 이해를 위한 연속 임베딩과 생성을 위한 이산 토큰을 생성하는 하이브리드 비전 토크나이저를 사용하며, 공유 인코더와 두 개의 특화 어댑터를 결합해 단일 모델이 두 작업을 동시에 수행할 때 발생하는 성능 손실을 줄입니다.
Apple은 이번 주 리우데자네이루에서 열리는 ICLR 2026 학회에서 5편의 머신러닝 연구 논문을 발표했으며, 그 중 가장 주목받는 것은 ParaRNN입니다. ParaRNN은 비선형 순환 신경망의 병렬 학습을 가능하게 하는 방법으로, 순차적 방식 대비 665배 빠른 속도를 달성하여 RNN을 수십억 파라미터 규모로 확장해 트랜스포머와 경쟁력을 갖추게 합니다.
Linux Foundation AI & Data는 9가지 책임 AI 차원을 통해 RGAF(책임 있는 생성형 AI 프레임워크)를 구현하는 방법을 보여주는 실용 가이드를 발표했습니다. 35개의 구체적인 오픈소스 도구 카탈로그와 NIST AI RMF, EU AI법, ISO/IEC 42001, OECD 원칙과의 일치가 포함되어 있습니다.
Google DeepMind는 현재 조직의 25%만이 AI를 프로덕션에 구현하는 데 성공하는 상황을 타개하기 위해 세계 5대 컨설팅 기업——액센추어, 베인, BCG, 딜로이트, 맥킨지——과 파트너십을 체결하여 엔터프라이즈 AI 전환을 가속화합니다.
OpenAI가 Workspace Agents를 발표했습니다. ChatGPT 인터페이스에 직접 통합된 Codex 구동 AI 에이전트입니다. 에이전트는 클라우드에서 실행되며, 복잡한 워크플로우를 자동화하고 크로스 앱 보안을 강조하는 연결된 도구를 통해 기업 팀의 작업 확장을 지원합니다.
AWS는 Amazon Bedrock, Neptune 그래프 DB, Mem0 프레임워크를 결합하여 기업 전체 AI 에이전트에 영속적인 메모리를 제공하는 아키텍처를 공개했습니다. 이는 세션 간 및 사용자 간 컨텍스트 손실 문제를 해결합니다.
Amazon은 Bedrock AgentCore를 위한 관리형 에이전트 하네스를 발표했습니다. 이를 통해 오케스트레이션 인프라를 직접 작성하지 않고도 단 3번의 API 호출만으로 완전히 작동하는 에이전트를 배포할 수 있습니다. 하네스와 함께 전체 개발 사이클을 위한 AgentCore CLI와 코딩 어시스턴트용 사전 구축된 기술이 제공되며, 4개의 AWS 리전에서 미리보기 단계로 이용할 수 있습니다.
ArXiv에 SWE-chat이 공개되었습니다. 이는 프로덕션 환경에서 사용자와 AI 코딩 에이전트 간의 실제 이른바 '야생' 상호작용 데이터셋입니다. GitHub Issue 기반의 합성 벤치마크가 아닌, 이 데이터셋은 개발자가 일상 업무에서 자율 시스템을 실제로 어떻게 사용하는지——무엇을 요청하고, 에이전트의 제안에 어떻게 반응하며, 에이전트가 어디서 실패하는지——를 기록하여 더 정밀한 평가와 에이전트 설계의 목표 지향적 개선의 길을 열어줍니다.
새로운 연구에 따르면 한 번 성공적으로 작업을 수행한 AI 컴퓨터 조작 에이전트가 동일한 작업을 반복할 때 실패할 수 있으며, 세 가지 주요 원인은 실행의 확률적 성질, 작업 명세의 모호성, 에이전트 자체 행동의 가변성입니다.
NVIDIA와 Google Cloud는 NVIDIA GPU 인프라와 Google Cloud 플랫폼을 결합하여 로보틱스, 자율 시스템, 에이전트 분야의 에이전트 AI 및 피지컬 AI 워크로드를 가속화하는 공동 협력을 발표했습니다.
NVIDIA와 HuggingFace는 Gemma 4가 8GB 메모리를 갖춘 NVIDIA Jetson Orin Nano Super에서 비전 언어 에이전트(VLA)로서 카메라 사용을 자율적으로 결정하고 음성 인식과 TTS를 포함한 전체 파이프라인 처리를 클라우드 의존 없이 로컬에서 수행하는 것을 시연했습니다.
AWS 머신러닝 블로그에서 NVIDIA의 오픈소스 모델 Parakeet-TDT-0.6B-v3를 클라우드에서 저비용 다국어 오디오 전사에 활용하는 방법을 설명했습니다. 이 모델은 자동 감지 기능과 함께 25개 유럽 언어를 지원하며, AWS Batch와 결합하면 Spot 인스턴스에서 오디오 1분 처리 비용이 단 0.00005달러, 온디맨드 g6.xlarge GPU에서는 0.00011달러입니다. 스케일 투 제로 정책과 버퍼링된 스트리밍을 통해 10시간 이상의 오디오 녹음도 처리할 수 있습니다.
Amazon SageMaker AI가 이제 NVIDIA AIPerf 도구를 사용하여 다양한 GPU 구성에서 생성형 AI 모델을 자동으로 벤치마크하여 수 주간의 수동 테스트를 없애고 비용, 지연 시간, 처리량 기준으로 순위가 매겨진 권장 구성을 제공합니다.
GitHub는 Copilot Business 및 Enterprise 사용자가 VS Code에서 Anthropic, Google, OpenAI, OpenRouter, Azure 등 주요 제공업체의 자체 API 키를 가져올 수 있게 했습니다. BYOK 모델은 Copilot Chat과 사용자 지정 에이전트에서 작동하며, 요금은 선택한 제공업체에 직접 청구되고 Copilot 할당량은 소비되지 않습니다.
GitHub은 Atlassian의 Jira용 Copilot 클라우드 에이전트 최신 업그레이드에서 AI와 프로젝트 관리의 통합을 크게 심화하는 기능을 발표했습니다. Jira를 작업 추적 시스템으로 사용하는 팀은 이제 커스텀 에이전트를 정의하고, 규칙에서 Atlassian 커스텀 필드를 사용하며, 스페이스별 맞춤형 브랜치 규칙을 설정하고, 코드 리뷰 요청 알림을 Jira 내에서 직접 받을 수 있어 GitHub과 프로젝트 관리 도구 간의 개발 흐름이 연결됩니다.
OpenAI는 미국의 인증된 의사, 간호사, 약사에게 무료 ChatGPT 접근을 제공하는 프로그램을 시작했습니다. 이 프로그램은 임상 문서 작성, 환자 케어 워크플로우, 의학 연구에 중점을 두며 미국 의료 기관과의 제휴를 통한 인증이 이루어집니다.