[I/O 2024] 구글 클라우드 TPU 6세대, 트릴리움(Trillium) 을 소개합니다
이 블로그는 구글 클라우드 블로그(영문)에서도 확인하실 수 있습니다.
생성형 AI는 기술과 상호 작용하는 방식을 변화시키는 동시에 비즈니스에 실질적인 영향을 주는 엄청난 효율성 기회를 열어주고 있습니다. 그러나 이러한 발전으로 가장 뛰어난 모델로 학습하고, 미세 조정하며, 더 나아가 전 세계 이용자와 상호 작용하는 형태의 서비스를 제공하기 위해서는 더욱 강력한 컴퓨팅, 메모리 및 통신 능력이 필요합니다. 구글은 10년 넘게 확장성과 효율성의 한계를 뛰어넘는 맞춤형 AI 전용 하드웨어인 TPU(Tensor Processing Units)를 개발해 왔습니다.
이러한 하드웨어는 오늘 Google I/O에서 발표한 여러 혁신을 비롯해 제미나이 1.5 플래시(Gemini 1.5 Flash), 이마젠 3(Imagen 3), 젬마 2.0(Gemma 2.0) 과 같은 새로운 모델을 지원했습니다. 이 모든 모델들은 TPU에서 학습 및 서비스되고 있습니다. 차세대 모델을 제공하고 이용자분들도 동일한 작업을 수행할 수 있도록, 오늘 구글은 기쁜 마음으로 6세대 TPU인 트릴리움(Trillium, 이하 ‘트릴리움’)을 발표합니다. 트릴리움은 지금까지 공개된 TPU중 가장 강력하고 에너지 효율적입니다.
트릴리움 TPU는 TPU v5e 대비 칩당 최대 컴퓨팅 성능이 4.7배 향상되었습니다. TPU v5e에 비해 HBM(High Bandwidth Memory) 용량과 대역폭을 두 배로 늘렸고, ICI(Interchip Interconnect) 대역폭도 두 배로 늘렸습니다. 또한, Trillium에는 고급 순위 지정 및 추천 워크로드에서 일반적으로 사용되는 초대형 임베딩 처리를 위한 특수 가속기인 3세대 SparseCore가 탑재되어 있습니다. 트릴리움 TPU를 사용하면 차세대 파운데이션 모델들을 더 빠르게 학습시킬 수 있고 그 모델들을 짧은 레이턴시와 저비용으로 제공할 수 있습니다. 뿐만 아니라 6세대 TPU는 가장 지속 가능한 TPU라는 점 역시 중요한 요소입니다. 트릴리움 TPU는 TPU v5e보다 에너지 효율성이 67% 이상 높습니다.
트릴리움은 단일 고대역폭(high-bandwidth), 저지연 포드(low-latency pod)에서 최대 256개의 TPU로 확장할 수 있습니다. 이러한 포드 수준 확장성 외에도 멀티 슬라이스 기술과 Titanium IPU(Intelligence Processing Units)를 통해 Trillium TPU는 수백 개의 포드로 확장하여 페타비트/초 데이터 센터 네트워크로 연결된 건물 규모 슈퍼컴퓨터에서 수만 개의 칩을 연결할 수 있습니다.
트릴리움을 통한 AI 혁신의 다음 단계
10여 년 전, 구글은 머신 러닝을 위한 최초의 칩이 필요하다는 것을 인지했습니다. 2013년, 구글은 세계 최초의 AI 전용 가속기인 TPU v1 개발을 시작했고, 2017년에는 최초의 클라우드 TPU를 선보였습니다. TPU가 없었다면 실시간 음성 검색, 사진 속 사물 인식, 대화형 언어 번역 등 구글의 가장 인기 있는 서비스는 물론 제미나이(Gemini), 이마젠(Imagen), 젬마(Gemma)와 같은 최첨단 파운데이션 모델도 구현이 불가능했을 것입니다. 실제로 TPU의 규모와 효율성은 구글 리서치(Google Research)팀의 트랜스포머(Transformer)에 대한 기초 연구를 가능하게 했으며, 이는 현대 생성형 AI의 알고리즘적 토대가 되었습니다.
트릴리움 칩당 4.7배 향상된 컴퓨팅 성능
TPU는 처음부터 신경망을 위해 설계되었으며, 구글은 AI 워크로드의 학습 및 처리 시간을 개선하기 위해 끊임없이 노력하고 있습니다. 트릴리움은 TPU v5e에 비해 칩당 최대 컴퓨팅 성능이 4.7배 향상되었습니다. 이러한 성능 수준을 달성하기 위해 행렬 곱셈 장치(MXUs; Matrix Multiply Units)의 크기를 확장하고 클럭 속도를 높였습니다. 또한, SparseCore는 텐서코어(TensorCore)에서 무작위 및 세분화된 액세스를 전략적으로 오프로드하여 임베딩 집약적인 워크로드를 가속화합니다.
2배 증가된 ICI 및 HBM(High Bandwidth Memory) 용량 및 대역폭
HBM 용량과 대역폭을 두 배로 늘림으로써 트릴리움은 더 많은 가중치와 더 큰 키-밸류 캐시(key-value cashes)를 가진 더 큰 모델을 처리할 수 있습니다. 차세대 HBM은 더 높은 메모리 대역폭, 향상된 전력 효율성 및 유연한 채널 아키텍처를 통해 메모리 처리량을 늘려 대규모 모델의 학습 시간 및 레이턴시(latency, 제공 지연 시간) 성능을 개선시킵니다. 즉, 모델 가중치 및 키-밸류 캐시(key-value caches)를 두 배로 늘리고, 더 빠르게 액세스하며, 더 많은 컴퓨팅 용량으로 머신 러닝 워크로드를 가속화할 수 있습니다. ICI 대역폭을 두 배로 늘리면 맞춤형 광 ICI 상호 연결, 포드당 256개 칩의 전략적 조합과 클러스터의 수백 개 포드로 확장하는 구글 주피터 네트워킹을 통해 학습 및 추론 작업을 수만 개의 칩으로 확장할 수 있습니다.
차세대 AI 모델을 지원하는 트릴리움
트릴리움 TPU는 차세대 AI 모델 및 에이전트를 지원할 것이며, 고객에게 이러한 고급 기능을 제공해 고객의 디지털 혁신 가속화에 도움을 드릴 수 있기를 기대합니다. 자율 주행 자동차 회사인 Nuro는 클라우드 TPU를 사용하여 모델을 학습시킴으로써 로봇 공학을 통해 더 나은 일상생활을 만드는 데 전념하고 있습니다. AI를 통해 신약 개발의 미래를 열어가고 있는 Deep Genomics는 트릴리움으로 구동되는 차세대 기반 모델이 환자의 삶을 어떻게 변화시킬지 기대하고 있습니다. 또한, 구글 클라우드의 AI 분야 올해의 파트너인 Deloitte는 트릴리움을 통해 생성형 AI로 비즈니스를 혁신할 것입니다. 트릴리움 TPU에서 긴 맥락의 멀티모달 모델 학습 및 제공을 지원함으로써 구글 딥마인드는 이전보다 더 빠르고 효율적이며 짧은 지연 시간으로 미래 세대 제미나이 모델을 학습하고 제공할 수 있게 되었습니다.
"제미나이 1.5 프로는 구글의 가장 크고 강력한 AI 모델이며, 수만 개의 TPU 가속기를 사용하여 학습되었습니다. 저희 팀은 6세대 TPU 발표에 대해 매우 기쁘게 생각하며, 제미나이 모델들의 대규모 학습 및 추론 성능과 효율성 향상을 기대하고 있습니다." - 제프 딘(Jeff Dean), 구글 딥마인드 및 구글 리서치 최고 과학자(Chief Scientist)
"구글 클라우드 TPU 가속기는 Nuro에게 혁신적인 변화를 가져다주었습니다! 클라우드 TPU v5e를 활용함으로써 저희는 트레이닝 워크로드의 비용 효율성을 180% 향상시킬 수 있었습니다. TPU의 강력한 성능을 통해 행동 및 인식 모델을 심화, 발전시켜 AI-first 자율주행에 접목, 더 안전한 거리를 만들었으며, 차세대 트릴리움 TPU를 활용하여 성공을 이어갈 수 있기를 기대합니다. 구글 클라우드는 AI 인프라 기술의 선두주자이며 차세대 AI 모델 개발을 위해 구글 클라우드와 협력하게 되어 자랑스럽습니다." - 앤드류 클래어(Andrew Clare), Nuro CTO
"Deep Genomics는 AI 및 생물학 과학자들로 구성된 다학제 팀으로, 유전체 연구 및 개발 분야에서 새로운 길을 개척하고 있습니다. 우리의 사명은 RNA 치료 분야에서 가능성의 한계를 뛰어넘는 고급 AI 모델을 만들고 적용하는 것입니다. 6세대 트릴리움 TPU 발표에 대해 기쁘게 생각하며, 구글 클라우드와 협력하여 AI 기반 모델의 학습 및 추론 성능을 100배 이상 향상시킬 수 있는 기회에 영감을 받았습니다. 이를 통해 환자의 삶을 변화시킬 수 있는 능력을 고취할 것입니다." - 브렌단 프레이(Brendan Frey), Deep Genomics 설립자 겸 CIO
"Deloitte는 고객이 기술의 힘을 활용할 수 있도록 돕는 것을 핵심 사명으로 삼고 있으며, 구글 클라우드의 차세대 TPU인 트릴리움의 출시는 진정한 비즈니스 가치를 제공하기 위해 성능과 비용을 최적화하는 데 도움이 될 수 있는 중요한 발전이라고 생각합니다. 구글과 함께 다양한 산업군의 고객과 지속적으로 협력하여 생성형 AI를 활용하고 그 가능성을 열어갈 것입니다." - 매트 레이시(Matt Lacey), Deloitte 영국 Alphabet Google 제휴 최고 상업 책임자
트릴리움과 AI 하이퍼컴퓨터
트릴리움 TPU는 최첨단 AI 워크로드를 위해 특별히 설계된 획기적인 슈퍼컴퓨팅 아키텍처인 구글 클라우드 AI 하이퍼컴퓨터의 일부입니다. AI 하이퍼컴퓨터는 성능에 최적화된 인프라(트릴리움 TPU 포함), 오픈 소스 소프트웨어 프레임워크 및 FCM(Flexible Consumption Model)을 원활하게 통합합니다. 또한 JAX, PyTorch/XLA, Keras 3과 같은 오픈 소스 라이브러리를 지원함으로서 개발자에게도 힘을 실어줍니다. JAX 및 XLA 지원은 이전 세대 TPU용으로 작성된 선언형 모델 설명(declarative model description)이 트릴리움 TPU의 새로운 하드웨어 및 네트워크 기능에 매끄럽게 매핑됨을 의미합니다. 또한 구글은 Hugging Face와 Optimum-TPU 분야에서 협업해 모델 트레이닝 및 서비스를 체계화했습니다.
"구글 클라우드와의 파트너십을 통해 Hugging Face 이용자는 TPU를 포함한 구글 클라우드 AI 인프라상에서 더 쉽게 오픈 모델을 미세 조정하고 실행할 수 있게 되었습니다. 구글이 6세대 트릴리움 TPU를 통해 오픈 소스 AI를 더욱 가속화하게 되어 기쁘며, 이전 세대에 비해 칩당 성능이 4.7배 향상된 점을 바탕으로 오픈 모델들이 계속해서 최적의 성능을 제공하는 것에 도움을 줄 것으로 기대합니다. 새로운 Optimum-TPU 라이브러리를 통해 모든 AI 개발자가 트릴리움의 성능을 더 쉽게 이용할 수 있도록 하겠습니다!" - 제프 부디에(Jeff Boudier), Hugging Face 제품 책임자
SADA는 2017년부터 매년 ‘올해의 파트너'로 선정되었으며, 구글 클라우드 서비스를 제공하며 최대의 효과를 이끌어냅니다.
"구글 클라우드 프리미어 파트너인 SADA는 세계적인 AI 선두 주자인 구글과 20년 이상 협력해 왔습니다. SADA는 수천 명의 다양한 고객을 위해 AI를 빠르게 통합하고 있습니다. SADA의 깊이 있는 경험과 AI 하이퍼컴퓨터 아키텍처가 만나, 더 많은 고객이 트릴리움과 함께 차세대 생성형 AI 모델들의 가치를 더 잘 활용할 수 있도록 지원할 수 있기를 기대합니다." - 마일스 와드(Miles Ward), SADA CTO
AI/ML 워크로드는 각 유스 케이스에 맞는 유연한 사용 모델(consumption model)이 필요합니다. 동적 워크로드 스케줄러(Dynamic Workload Scheduler; DWS)는 AI/ML 리소스에 대한 액세스를 처리하고 고객이 비용 지출을 최적화할 수 있도록 지원합니다. Flex 시작 모드는 버텍스 AI(Vertex AI) 트레이닝, 구글 쿠버네티스 엔진(Google Kubernetes Engine; GKE) 또는 구글 클라우드 엔진 등 진입점에 관계없이 필요한 모든 가속기를 동시에 예약하여 학습, 미세 조정 또는 일괄 처리 작업 등 버스트 워크로드 환경을 개선할 수 있습니다.
Lightricks는 AI 하이퍼컴퓨터의 효율성 향상과 성능 향상을 통해 가치를 되찾을 수 있게 되어 기쁘다고 전했습니다.
"Lightricks는 클라우드 TPU v4 이후 텍스트-이미지 및 텍스트-비디오 모델에 TPU를 사용해 왔습니다. TPU v5p 및 AI 하이퍼컴퓨터의 효율성을 통해 학습 속도를 2.5배나 높였습니다! 6세대 트릴리움 TPU는 이전 세대에 비해 칩당 컴퓨팅 성능이 4.7배 향상되고 HBM 용량 및 대역폭이 2배 향상되었습니다. 저희가 텍스트-비디오 모델을 확장하는 시점에 트릴리움 TPU가 출시된다고 하니 더욱 기쁩니다. 또한 동적 워크로드 스케줄러의 flex 시작 모드를 사용하여 일괄 추론 작업과 향후 TPU 예약을 관리할 수 있기를 기대합니다." - 요아브 하코헨 박사(Yoav HaCohen, PhD) Lightricks 핵심 생성형 AI 연구팀 리더
구글 클라우드의 트릴리움 TPU 자세히 알아보기
구글 클라우드 TPU는 맞춤형으로 설계되고 대규모 인공 지능 모델을 지원할 수 있도록 최적화된 최첨단 AI 가속기입니다. 구글 클라우드만이 제공할 수 있는 TPU는 AI 솔루션을 트레이닝하고 구동하기 위한 탁월한 성능을 비용 효율적으로 제공합니다. 대규모 언어 모델의 복잡한 특징이든 이미지 생성의 창의적인 잠재력이든, TPU를 통해 개발자와 연구자는 인공 지능 세계에서 가능한 것들의 한계를 뛰어넘을 수 있습니다.
6세대 트릴리움 TPU는 10년 이상의 연구 개발의 결실이며 올해 말에 출시될 예정입니다. 트릴리움 TPU 및 AI 하이퍼컴퓨터에 대해 자세히 알아보려면 이 양식을 작성해 제출해 주세요.