谷歌發布第八代TPU：訓練推理分道揚鑣，與博通聯發科共拓AI新局-業界資訊-虎科技

谷歌發布第八代TPU：訓練推理分道揚鑣，與博通聯發科共拓AI新局

時間：2026-04-23 23:50 來源：快訊作者：陸辰風

在拉斯維加斯舉辦的Google Cloud Next大會上，谷歌宣布了一項重大技術突破：正式推出第八代張量處理器（TPU），首次將AI訓練與推理任務分別交由兩款獨立芯片承擔——專為大規模模型訓練設計的TPU 8t與面向高并發推理優化的TPU 8i。這一戰略調整標志著谷歌在AI硬件領域邁出關鍵一步，旨在通過針對性優化滿足日益分化的計算需求。

谷歌AI與基礎設施高級副總裁Amin Vahdat在主題演講中強調，隨著AI智能體生態的爆發式增長，訓練與推理任務對硬件的要求已截然不同。訓練場景需要極致的計算密度與內存帶寬以支撐萬億參數模型的迭代，而推理場景則更關注低延遲與高并發能力，以確保數百萬智能體同時響應的流暢性。基于這一洞察，谷歌從零開始設計了這兩款芯片，而非簡單迭代前代產品。

作為訓練旗艦，TPU 8t由谷歌與博通聯合研發，單超級計算節點可集成9600塊芯片，配備2PB高帶寬內存，FP4精度下算力達121 exaflops，較上一代Ironwood提升近3倍。其核心創新包括雙計算芯粒架構、8組堆疊HBM3e內存，以及專為大語言模型優化的SparseCore加速器。通過全新Virgo互聯架構，數據中心網絡帶寬提升至前代4倍，支持單集群超百萬芯片的分布式訓練。存儲訪問方面，TPU直連RDMA技術使數據吞吐速度提升10倍，配合光路電路交換技術實現硬件拓撲的自動重構，顯著提升系統可靠性。

針對推理場景，TPU 8i與聯發科合作開發，通過片上384MB SRAM緩存將KV Cache保留在芯片內部，減少長上下文解碼時的空閑等待。其集合通信加速引擎（CAE）使多核心結果聚合延遲降低5倍，特別適合自回歸解碼與思維鏈推理任務。架構層面，TPU 8i摒棄傳統3D環形拓撲，采用Boardfly層級互聯設計，在1024芯片集群中可將通信跳數從16次壓縮至7次，全對全通信延遲改善最高50%。單Pod性能達11.6 exaflops（FP8），每瓦性能較前代提升117%。

兩款芯片均搭載谷歌自研Arm架構Axion CPU作為主控，采用臺積電2nm制程工藝制造，計劃于2027年底量產，并配備第四代液冷散熱系統。軟件生態方面，第八代TPU已實現對JAX、PyTorch等主流框架的原生支持，PyTorch遷移工具進入預覽階段，用戶可無縫切換硬件平臺。

市場布局上，谷歌同步開放第七代TPU Ironwood的云服務，并宣布與英偉達達成深度合作，將于2026年下半年成為首家部署NVIDIA Vera Rubin NVL72超級計算機的云服務商。目前，Anthropic已預訂數GW級TPU算力，2027年規模將擴展至3.5吉瓦；Citadel Securities利用TPU開發量化研究軟件，美國能源部17個國家實驗室則采用TPU構建AI協同科學家系統。行業分析師指出，谷歌通過芯片拆分策略，有效提升了特定場景下的單位算力性價比，為云客戶降低了大規模AI部署的門檻。

更多>同類內容

阿里“千問小酒窩”上線：人格化AI搭子，開	京東七鮮“粉芭樂櫻櫻茶”：AI全鏈路賦能，
劉慶峰翟薈對話：AI與量子融合成破局關鍵，	第57次報告發布：2025年我國互聯網向“新”