英偉達Vera Rubin平臺新突破：LPU登場，與GPU共筑AI推理新未來-生活家電-虎科技

在近日舉辦的英偉達GTC 2026大會上，英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛身著標志性皮衣亮相，宣布公司正從“芯片公司”向“AI基礎(chǔ)設(shè)施工廠”全面轉(zhuǎn)型。他透露，到2027年，英偉達新一代AI芯片的累計營收將突破1萬億美元，這一數(shù)字是去年預(yù)測的兩倍，引發(fā)市場高度關(guān)注。

本次大會的核心亮點是Vera Rubin AI工廠平臺的發(fā)布。與以往發(fā)布單芯片不同，此次展示的是一個包含7款全新芯片的“全家桶”系統(tǒng)。黃仁勛強調(diào)：“過去提到Hopper，我會舉起一塊芯片，那很可愛。但提到Vera Rubin，大家想到的是整個系統(tǒng)。”

該系統(tǒng)級平臺的核心組件包括專為“AI智能體時代”設(shè)計的Vera CPU，其搭載88個自研“Olympus”核心，性能較傳統(tǒng)CPU提升50%，能效翻倍，被比作智能體系統(tǒng)的“指揮與調(diào)度中心”。Rubin GPU則通過NVLink-C2C技術(shù)與Vera CPU實現(xiàn)1.8TB/s的互聯(lián)帶寬，構(gòu)成算力核心。平臺還集成了NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學(xué)器件的Spectrum-X可擴展交換機，形成完整的超高速互聯(lián)、網(wǎng)絡(luò)與數(shù)據(jù)處理基礎(chǔ)架構(gòu)。

基于這些組件構(gòu)建的Vera Rubin NVL72機架集成了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平臺，其訓(xùn)練大型混合專家模型所需GPU數(shù)量減少至四分之一，推理吞吐量/瓦特提升高達10倍。黃仁勛透露，通過軟硬件協(xié)同設(shè)計，英偉達在兩年內(nèi)將1GW數(shù)據(jù)中心內(nèi)的Token生成速率提升了350倍。

大會上，黃仁勛還重點介紹了一款戰(zhàn)略級芯片——Groq 3語言處理單元（LPU）。這款芯片源自英偉達去年12月以約200億美元收購Groq核心技術(shù)資產(chǎn)，被定位為Rubin GPU的“推理協(xié)處理器”。黃仁勛解釋，引入LPU是為了應(yīng)對AI智能體時代推理需求的分化：面對需要極高交互性、超短響應(yīng)時間的任務(wù)，傳統(tǒng)GPU架構(gòu)存在性能冗余，而LPU專注于“極致低延遲Token生成”。

Groq 3 LPU的技術(shù)顛覆性在于其內(nèi)存架構(gòu)。每個芯片集成500MB片上SRAM，提供高達150TB/s的帶寬，是傳統(tǒng)HBM4帶寬（22TB/s）的近7倍。盡管容量僅為Rubin GPU上HBM4的1/500，但對于帶寬敏感的AI解碼操作，LPU的優(yōu)勢無可替代。基于此芯片的Groq 3 LPX機架配備256顆LPU，提供128GB片上SRAM和640TB/s總帶寬。

英偉達超大規(guī)模計算副總裁Ian Buck指出，LPU與GPU的協(xié)同工作將重新定義AI推理架構(gòu)：Rubin GPU負責(zé)需要海量計算的“預(yù)填充”階段，Groq LPU負責(zé)延遲敏感的“解碼”階段。在這種混合架構(gòu)下，系統(tǒng)推理吞吐量與功耗比最高可提升35倍。黃仁勛建議企業(yè)客戶，若工作負載包含大量高價值Token生成需求，應(yīng)將25%的數(shù)據(jù)中心規(guī)模配置給Groq LPU。

三星電子在本次大會上扮演了重要角色。黃仁勛特別感謝三星為英偉達加快生產(chǎn)Groq 3 LPU芯片，并透露該芯片將于2026年第三季度正式出貨。這一合作標志著三星與英偉達的伙伴關(guān)系從存儲領(lǐng)域擴展到晶圓代工領(lǐng)域。三星當(dāng)天展出了第七代HBM產(chǎn)品“HBM4E”和垂直堆疊芯片“核心裸片”，強調(diào)其在存儲和代工領(lǐng)域的雙重優(yōu)勢。

然而，SRAM的高成本和芯片面積占用問題也帶來挑戰(zhàn)。單個Groq 3 LPU僅能提供500MB內(nèi)存，遠不足以獨立運行萬億參數(shù)級別的超大AI模型。英偉達的解決方案是通過數(shù)量彌補容量：將256顆LPU集成到一個Groq 3 LPX機架中，采用液冷設(shè)計，并通過專用擴展接口實現(xiàn)芯片互聯(lián)。Ian Buck承認，這種設(shè)計需要大量芯片才能獲得高性能，從每芯片的token吞吐量經(jīng)濟性來看，LPU其實相當(dāng)?shù)汀?/p>

在混合架構(gòu)的協(xié)同工作方面，大語言模型的推理過程分為預(yù)填充和解碼兩個階段。預(yù)填充階段需要強大浮點運算能力和大容量內(nèi)存存儲鍵值緩存，由Rubin GPU負責(zé)；解碼階段對延遲極度敏感，受內(nèi)存帶寬限制嚴重，由Groq LPU處理。在Dynamo軟件框架的協(xié)調(diào)下，Rubin GPU利用其288GB HBM4處理復(fù)雜計算，Groq LPU利用其150TB/s帶寬實現(xiàn)極低延遲的逐token生成。

隨著AI從單一大模型走向多智能體系統(tǒng)，推理延遲的要求發(fā)生根本性變化。Ian Buck表示，Rubin GPU和Groq LPU的組合將人工智能代理間通信的吞吐量從每秒100個token提升到每秒1500個token甚至更高。根據(jù)英偉達官方基準測試，運行1萬億參數(shù)規(guī)模的大語言模型時，該組合相比上代方案推理吞吐量每瓦特提升高達35倍，每百萬token成本為45美元，每秒token處理量達到500。

分析認為，收購Groq技術(shù)并將其整合到Rubin平臺，是英偉達對推理市場競爭者的直接回應(yīng)。長期以來，英偉達在訓(xùn)練市場占據(jù)主導(dǎo)，但在低延遲推理領(lǐng)域面臨Cerebras等挑戰(zhàn)者的競爭。Cerebras的晶圓級引擎同樣集成大量SRAM，為先進模型提供低延遲推理，甚至吸引了OpenAI等大客戶。通過引入Groq LPU，英偉達終于進入了推理市場——一個它從未成為第一的市場。

對于現(xiàn)有英偉達客戶而言，Groq LPU的一個重要優(yōu)勢是軟件兼容性。Groq 3 LPX機架與Rubin平臺的結(jié)合無需修改現(xiàn)有的NVIDIA CUDA軟件生態(tài)系統(tǒng)，企業(yè)客戶可以在不重寫代碼的前提下，通過增加LPU機架顯著提升推理性能。PCMag預(yù)測，OpenAI、Anthropic、meta等大型AI公司將成為這項技術(shù)的首批采用者，未來用戶的聊天機器人查詢或圖像生成請求可能正由Rubin GPU和Groq LPU協(xié)同處理。

阿里應(yīng)對AI浪潮：吳泳銘掛帥成立ATH事業(yè)群	科大訊飛AI學(xué)習(xí)機T30lite pro：護眼又高效
AGI前夜阿里再出擊：ATH事業(yè)群成立，布局To	春日限定浪漫！龍泉驛第40屆桃花薈啟幕，日