MANZANO가 통합하는 것은 무엇입니까?

MANZANO는 전통적으로 분리되어 있던 두 가지 능력을 하나의 모델로 통합합니다. 시각적 콘텐츠를 설명하고 분석하는 이미지 이해와, 텍스트 또는 다른 모달리티에서 이미지를 생성하는 기능입니다.

하이브리드 토크나이저가 왜 중요합니까?

이해와 생성에는 서로 다른 표현이 필요합니다——연속 임베딩은 이해를 위한 풍부한 의미론적 신호를 제공하고, 이산 토큰은 안정적인 자기 회귀 생성을 가능하게 합니다. 하이브리드 토크나이저는 동일한 인코더에서 두 가지를 모두 제공합니다.

실제 멀티모달 애플리케이션에 얼마나 중요합니까?

결과가 더 넓은 실무에서 검증된다면, 개발자는 두 개의 별도 모델 대신 하나를 사용할 수 있게 되어 서빙 비용이 줄고 파이프라인이 단순화되며 대화를 통한 이미지 편집 등 새로운 인터랙티브 시나리오가 가능해집니다.

애플 MANZANO: ICLR 2026의 통합 멀티모달 모델

멀티모달 모델의 트레이드오프 문제

이미지를 동시에 이해하고 생성하는 멀티모달 모델은 수년 동안 근본적인 트레이드오프로 어려움을 겪어왔습니다. 이미지 이해에 최적화된 시스템은 일반적으로 연속 임베딩에 의존하여 콘텐츠를 잘 설명하지만 새로운 이미지를 생성하는 데 어려움을 겪습니다. 반대로, 이미지 생성에 뛰어난 모델은 보통 이산 토큰과 자기 회귀 아키텍처를 사용하는데, 상세한 설명에는 취약합니다. 두 가지를 하나의 모델로 결합하면 적어도 한쪽의 품질을 희생해야 했습니다.

애플 머신러닝 리서치가 프로그램을 공개한 ICLR 2026 컨퍼런스에서, 애플 팀은 이 격차를 해소하려는 프레임워크인 MANZANO를 발표했습니다. 발표에 따르면 MANZANO는 단일 모델 내에서 이미지 이해와 생성을 동시에 균형 있게 처리하는 통합 아키텍처를 제공하며, 각 작업에 별도 시스템이 필요하지 않습니다.

하이브리드 비전 토크나이저와 듀얼 어댑터

MANZANO의 핵심 기술 혁신은 하이브리드 비전 토크나이저입니다. 이해 모델이 선호하는 연속 임베딩만 제공하거나, 생성 모델이 선호하는 이산 토큰만 제공하는 대신, 토크나이저는 동일한 입력 신호에서 두 가지 표현을 모두 생성합니다. 연속 임베딩은 이미지 이해를 위한 풍부한 의미론적 입력으로 사용되고, 이산 토큰은 생성 중 자기 회귀 디코딩에 사용됩니다.

이 공유 인코더 위에 MANZANO는 작업 유형별로 하나씩 총 두 개의 특화 어댑터를 사용합니다. 애플이 발표에서 “공유 인코더, 듀얼 어댑터”라고 설명하는 이 접근 방식은 모델이 대부분의 파라미터와 표현을 공유하되, 상단에는 서로 다른 목표를 위해 훈련된 특화 헤드를 갖추는 것을 의미합니다. 저자들의 주장에 따르면, 기존의 통합 접근 방식과 비교해 두 작업 간의 트레이드오프가 줄어들었습니다.

왜 중요한가

결과가 더 넓은 실무와 독립적인 벤치마크에서 검증된다면, MANZANO는 멀티모달 애플리케이션이 구축되는 방식을 변화시킬 잠재력이 있습니다. 개발자들은 오늘날 이해를 위한 Claude나 GPT-4V, 생성을 위한 Stable Diffusion이나 Flux 등 두 개의 별도 모델을 조합하는 경우가 많은데, 이는 서빙 비용 두 배, 복잡한 파이프라인, 어려운 유지보수를 의미합니다. MANZANO 같은 통합 모델은 동일한 시스템이 대화를 추적하고, 첨부된 이미지를 이해하고, 모델 간 컨텍스트 전환 없이 새로운 이미지를 생성할 수 있게 합니다.

이 아키텍처는 특히 사용자가 자연어로 원하는 수정 사항을 설명하면 모델이 이미지와 지시를 모두 이해하고 새로운 버전을 생성하는 대화형 이미지 편집 같은 인터랙티브 시나리오의 문을 엽니다. 애플은 MANZANO의 가중치를 공개하지 않았으며 이 기능이 제품에 언제 등장할지도 발표하지 않았지만, ICLR에서의 발표는 애플의 연구 방향과 미래 버전의 Siri, Final Cut Pro 또는 iOS 생성 도구에의 통합 가능성을 시사합니다.

애플, ICLR 2026에서 MANZANO 발표——이미지 이해와 생성의 트레이드오프를 해소하는 통합 멀티모달 모델

멀티모달 모델의 트레이드오프 문제

하이브리드 비전 토크나이저와 듀얼 어댑터

왜 중요한가

출처

관련 뉴스