🤖 24 AI
🔴 🔧 하드웨어 2026년 4월 22일 수요일 · 3 분 읽기

구글, 8세대 TPU 칩 공개: 에이전트형 AI 시대를 위한 두 가지 특화 변형

에디토리얼 일러스트: 에이전트형 AI 워크로드의 학습과 추론을 위한 8세대 두 가지 특화 TPU 칩

왜 중요한가

구글은 Cloud Next '26 컨퍼런스에서 8세대 TPU 칩을 두 가지 특화 변형으로 공개했습니다. 모델 학습용 TPU 8t와 에이전트형 추론용 TPU 8i입니다. 자율형 AI 에이전트와 다단계 추론을 주요 사용 사례로 설계된 최초의 세대입니다.

구글, 8세대 TPU 칩 공개: 에이전트형 AI 시대를 위한 두 가지 변형

구글은 2026년 4월 22일 Cloud Next ‘26 컨퍼런스에서 8세대 TPU(텐서 처리 장치) 칩을 발표했습니다. 이 제품 라인 역사상 최초로, 구글은 학습용과 자율형 AI 에이전트 추론용 두 가지 특화 변형을 제공합니다.

구글이 제공하는 두 가지 TPU 변형은 무엇입니까?

구글은 새 칩을 TPU 8tTPU 8i로 명명했으며, 영문 접미사는 각각의 주요 워크로드를 나타냅니다. TPU 8t(학습)는 복잡한 모델 학습에 특화되어 있으며 대용량 통합 메모리 풀을 갖추고 있어 여러 노드로 분할하지 않고도 대형 모델을 수용할 수 있습니다.

TPU 8i(추론)는 구글이 「에이전트 시대」라고 부르는 것을 위해 설계되었습니다. 자율형 AI 에이전트가 실시간으로 다단계 추론, 계획, 작업 실행을 수행해야 하는 세계입니다. 이러한 특화는 추론 워크로드가 더 이상 학습용으로 최적화된 칩에서 실행될 필요가 없음을 의미하며, AI 에이전트 제품의 지연 시간 감소와 경제성 향상이 기대됩니다.

구글은 이것이 에이전트형 AI를 학습 하드웨어의 부산물이 아닌 주요 사용 사례로 설계한 최초의 TPU 세대라고 강조합니다.

에이전트형 AI에 다른 하드웨어가 필요한 이유는 무엇입니까?

기존 챗봇이나 생성형 AI 모델은 신경망의 단일 순전파로 응답을 생성합니다. 그러나 에이전트형 시스템은 완전히 다르게 작동합니다. 에이전트는 작업을 계획하고, 도구를 호출하며, 결과를 처리하고, 다시 추론하는 과정을 반복하며, 하나의 사용자 요청에서 수십 번에 달할 수도 있습니다.

이러한 작업 패턴은 개별 추론 호출의 지연 시간이 매우 중요하다는 것을 의미합니다. 에이전트의 각 단계가 2초 걸린다면 10단계는 20초의 대기 시간을 의미하는데, 이는 대화형 애플리케이션에서는 허용할 수 없습니다. 구글은 TPU 8i가 바로 이러한 패턴에 최적화되어 있다고 주장합니다. 다단계 워크플로를 위한 빠르고 반응성 좋은 추론입니다.

또 다른 차이점은 경제성에 있습니다. 에이전트 사용 시 추론 호출 횟수는 기존 생성형 사용보다 10-50배 많을 수 있어 토큰당 비용이 훨씬 중요해집니다. 전용 추론 칩은 이론상 학습용으로 설계된 칩보다 추론 호출당 에너지 소비가 적습니다.

구글 클라우드와 경쟁 구도에 어떤 의미가 있습니까?

이번 발표는 엔비디아가 Blackwell 및 차세대 제품으로 AI 하드웨어 시장을 지배하고 AMD가 MI 시리즈를 적극 추진하는 시점에 이루어졌습니다. 구글이 두 가지 특화 변형을 채택한 접근 방식은 단순한 원시 성능이 아닌 사용 사례 최적화로 차별화를 시도하는 것입니다.

구글은 「풀스택 전용 인프라」를 강조합니다. 칩, 네트워킹, 데이터 센터, 에너지 효율성의 조합으로 「대규모의 반응성 좋은 에이전트형 AI를 제공」하는 것을 목표로 합니다. TPU 8t와 8i는 구글 클라우드를 통해서만 제공되므로, Anthropic(Claude 모델에 TPU 사용)과 구글 자체 Gemini 모델 같은 클라이언트가 직접적인 혜택을 받게 됩니다.

구글이 구체적인 벤치마크 수치와 추론 호출당 가격을 발표할지는 아직 미정입니다. 현재로서는 이번 발표가 더 전략적인 신호로 자리매김합니다. 에이전트형 AI가 기존 칩 위의 새로운 소프트웨어 레이어가 아닌 자체 하드웨어 세대를 정당화할 만큼 성숙했다는 선언입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.