Google Cloud 宣布推出 Ironwood TPU 以及全新虛擬機器 Axion,為 AI 推論時代注入動能
現今的先進模型,包括 Google 的 Gemini、Veo、Imagen,以及 Anthropic 的 Claude,都在 Tensor Processing Unit(TPU)上進行訓練和提供服務。對許多企業而言,其重心正從訓練模型,轉移到如何促成與模型之間有著實用且靈敏的互動。模型架構的不斷演進、代理式工作流程 (agentic workflows) 的興起,加上對運算需求近乎指數型的增長,共同定義了這個全新的 AI 推論時代(age of inference)。特別是那些需要通用運算 (general-purpose compute) 和機器學習加速 (ML acceleration) 之間高度協作與調度的代理式工作流程,正為客製化晶片和垂直協同最佳化(vertically co-optimized)的系統架構創造新的機會。
我們為此轉變已做足準備,現在,我們宣布推出三款基於客製化晶片打造的新產品,為推論和代理式工作負載提供卓越的效能、更低的成本並實現嶄新功能:
- Ironwood:我們的第七代 TPU,將在未來幾週內正式推出。Ironwood 專為最嚴苛的工作負載而打造:從大規模模型訓練、複雜的增強學習(RL),到高容量、低延遲的 AI 推論和模型服務。與 TPU v5p 相比,它的峰值效能提升了 10 倍;與 TPU v6e(Trillium)相比,每顆晶片在訓練與推論工作負載上的效能提升超過 4 倍,使 Ironwood 成為我們迄今最強大、最節能的客製化晶片。
- 全新 ARM® 架構 Axion 執行個體:N4A,我們迄今最具成本效益的 N 系列虛擬機器,現已推出預覽版。相較於當前同等級的 x86 虛擬機器,N4A 提供了高達 2 倍的性價比。
- 我們也很高興地宣布 C4A metal,我們首款 ARM® 架構裸機執行個體(bare-meta instance),即將推出預覽版。
Ironwood 和這些全新的 Axion 執行個體,是 Google 長期耕耘客製化晶片創新的最新篇章,其他還包括 TPU、YouTube 的影片編碼單元(Video Coding Units, VCU),以及適用於行動裝置的 Tensor G5 自研晶片。在每個案例中,我們打造這些處理器的目的都是為了實現效能突破,而這一切唯有透過深度的系統級協同設計,將模型研究、軟體和硬體開發整合在一起才可能達成。十年前我們就是這樣打造出第一代 TPU,而 TPU 進而在八年前造就了驅動當今絕大多數 AI 的核心架構──Transformer 的誕生。這也影響了我們近期的發展,例如 Titanium,以及我們自 2020 年以來已在十億瓦(GW)的規模上部署,並達到 99.999% 機群運作時間(fleet-wide uptime)的先進液冷解決方案。
圖一:Ironwood 電路板搭載三組連接到液冷系統的 Ironwood TPUs
圖二:第三代冷卻分配裝置(Cooling Distribution Units),為 Ironwood superpod 提供液冷
Ironwood:從模型訓練到全球規模推論的最快路徑
Ironwood 在初期就獲得非常熱烈的迴響,像是 Anthropic 即深受 Ironwood 卓越的性價比所吸引,這項優勢加速了他們將龐大的 Claude 模型從訓練推向服務數百萬用戶的進程。實際上,Anthropic 計畫使用多達 100 萬個 TPU:
Anthropic 運算主管 James Bradbury:「我們的客戶,從《財星》(Fortune)世界五百強企業到新創公司,都仰賴 Claude 來處理他們最重要的工作。隨著需求持續指數型成長,我們在推動 AI 研究和產品開發的邊界擴展時,也在增加我們的運算資源。Ironwood 在推論效能和訓練可擴展性上的提升,將幫助我們高效擴展,同時滿足客戶期望的速度和可靠性。」
不論企業規模大小,Ironwood 正在各產業中被廣泛使用:
Lightricks 研究團隊總監 Yoav HaCohen:「Lightricks 的使命是定義開放式創意的尖端,而這需要能在大規模上消除摩擦與成本的 AI 基礎架構。我們利用 Google Cloud 的 TPU 及其龐大的晶片間互連網路(Interchip Interconnect, ICI),為我們領先的開源多模態生成模型 LTX-2 實現了突破性的訓練效率。現在,隨著進入推論時代,這個早期測試讓我們對 Ironwood 充滿期待。我們相信 Ironwood 將使我們能夠為全球數百萬客戶創造更細膩、更精確、更高擬真度的圖像和影片生成。」
Essential AI 基礎架構負責人 Philip Monk:「在 Essential AI,我們的使命是打造強大且開放的頂尖模型。我們需要大規模且高效的擴展能力,而 Google Cloud 的 Ironwood TPU 正好滿足了這一需求。這個平台極易上手,讓我們的工程師能立即發揮其強大能力,並專注於加速 AI 的突破。」
系統級設計最大化推論效能、可靠性與成本效益
TPU 是 AI Hypercomputer 的關鍵組件,AI Hypercomputer 是我們的整合式超級運算系統,它匯集了運算、網路、儲存和軟體,以提高系統級的效能和效率。根據 IDC 最近的一份報告,導入 AI Hypercomputer 的客戶平均達成了 353% 的三年投資報酬率、降低 28% 的 IT 成本,並使 IT 團隊效率提升 55%。
Ironwood TPU 將幫助客戶進一步突破規模和效率的極限。部署 TPU 時,系統會將每個獨立的晶片相互連結,形成一個 Pod,使這些互連的 TPU 能作為單一運作的運算單元。透過 Ironwood,我們可以在單一個 superpod 中擴展至 9,216 個晶片,並透過突破性的 ICI 網路達到 9.6 TB/s 的傳輸速度。這種大規模的連接性使數千個晶片能夠快速相互通訊,並存取高達 1.77 PB 的共享高頻寬記憶體(HBM),即便是對性能要求最高的模型資料瓶頸也能克服。
圖三:Ironwood superpod 在單一網域中直接連接 9,216 個 Ironwood TPU。
在如此大規模下,服務需要持續穩定的可用性。這就是為什麼我們的光學電路交換(Optical Circuit Switching, OCS)技術能作為一個動態、可重組的結構,能夠即時繞過中斷,恢復工作負載,同時讓服務保持運行。當需要更多效能時,Ironwood 可以在 Pod 間擴展,形成數十萬個 TPU 的叢集。
圖四:Jupiter 資料中心網路技術能將多個 Ironwood superpods 串連成數十萬個 TPU 的叢集。
AI Hypercomputer 的優勢:軟硬體協同設計,實現更快、更高效的成果
在這套硬體之上,是一個協同設計的軟體層架構,我們的目標是最大化 Ironwood 強大的運算處理能力和記憶體效能,並使其在整個 AI 生命週期中都能夠易於使用。
- 為了提高系統效率和營運能力,我們很高興地宣布,TPU 客戶現在可以受益於 Google Kubernetes Engine(GKE)中的 Cluster Director 功能。這包括進階維運(advanced maintenance)、拓撲感知(topology awareness),可用於實現智慧調度和高彈性叢集。
- 在模型預前訓練和後續訓練方面,我們也分享了高效能、開源的 LLM 框架 MaxText 新的強化功能,使其更容易實作最新的訓練和強化學習優化技術,例如監督式微調(Supervised Fine-Tuning, SFT)功能和生成式增強策略優化(Generative Reinforcement Policy Optimization, GRPO)。
- 在推論方面,我們最近宣布了 vLLM 中對 TPU 的強化支援,允許開發者僅需進行少量配置更改,即可在 GPU 和 TPU 之間靈活切換、或同時運行兩者。GKE Inference Gateway 則能在 TPU 伺服器之間進行智慧負載平衡,將生成首個詞元的時間(time-to-first-token, TTFT)降低高達 96%,並降低高達 30% 的服務成本。
我們的軟體層使 AI Hypercomputer 能夠在訓練、微調和大規模提供 AI 工作負載服務時,同步展現高效能和高可靠性。歸功於整個技術堆疊的深度整合──從資料中心範圍的硬體優化到開放軟體和託管服務──Ironwood TPU 是我們迄今最強大、最節能的 TPU。深入了解我們的軟硬體協同設計方法,請參閱此處。
Axion:重新定義通用運算
在建構和提供現代化應用程式的過程中,既需要高度專業化的加速器,也需要強大且高效的通用運算能力。這正是我們打造 Axion 的願景──目標透過我們客製化、基於 Arm Neoverse® 的 CPU,為日常工作負載提供卓越的效能、成本效益和能源效率。
今天,我們擴展了 Axion 產品組合,推出:
隨著今天的發布,Axion 產品組合現已包含三種強大的選項:N4A、C4A 和 C4A metal。C 系列和 N 系列的搭配組合,將讓你無需在效能或特定工作負載需求上妥協,即可降低營運總成本。
Axion 內建的高效能,使其成為支援現代 AI 工作流程的理想選項。當像 Ironwood 這樣的專業加速器負責處理複雜的模型伺服任務的同時,Axion 則在運行的核心骨幹層面表現出色:支援高容量的資料準備、擷取,以及運行託管企業智慧應用程式的應用程式伺服器的。Axion 已經為客戶帶來實質的影響:
Vimeo 託管與交付營運資深總監 Joe Peled:「在 Vimeo,我們長期仰賴自訂機器類型(Custom Machine Types)來有效管理我們龐大的影片轉檔平台。我們在新型 Axion N4A 執行個體上的初步測試結果令人非常驚豔,解鎖了新的效率水平。與同等級的 x86 VM 相比,我們的核心轉檔工作負載效能提高了 30%。這意味著我們能在無需改變營運模式的情況下,改善我們的單位經濟效益,並以更高的利潤擴展服務。」
ZoomInfo 基礎架構首席架構師 Sergei Kore:「在 ZoomInfo,我們營運著一個效率至上的龐大的數據智慧平台。我們的核心資料處理流程,對於向客戶提供即時洞察至關重要,這些流程廣泛運行在 GKE 中的 Dataflow 和 Java 服務上。在我們對 N4A 執行個體的預覽測試中,測得這些關鍵工作負載的性價比相較於 x86 的同類產品提升了 60%。這使我們能夠更有效率地擴展平台,並更快地為客戶提供更多價值。」
Rise 雲端與軟體架構師 Or Ben Dahan:「遷移到 Google Cloud 的 Axion 產品組合為我們帶來了關鍵的競爭優勢。我們將運算消耗降低了 20%,同時透過 C4A 執行個體(例如我們的供應方平台 SSP 後端服務)保持低延遲和穩定性。此外,C4A 使我們能夠利用 Hyperdisk,為我們的狀態性工作負載(stateful workloads) 提供精確所需的 IOPS,而不受執行個體大小的限制。這種靈活性為我們帶來兩全其美的優勢──能為客戶贏得更多廣告競價,同時顯著提高我們的利潤。我們正在測試 N4A 系列,運行例如 API 轉送服務等一些需要最高靈活性的關鍵工作負載。我們很高興分享,目前在生產環境中運行的數個應用程式,其 CPU 消耗量比我們先前的基礎架構減少了 15%,進一步降低了成本,同時確保合適的執行個體能支援所需的工作負載特性。」