在近日舉辦的英偉達GTC 2026大會上,英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛身著標志性皮衣亮相,宣布公司正從“芯片公司”向“AI基礎(chǔ)設(shè)施工廠”全面轉(zhuǎn)型。他透露,到2027年,英偉達新一代AI芯片的累計營收將突破1萬億美元,這一數(shù)字是去年預(yù)測的兩倍,引發(fā)市場高度關(guān)注。
本次大會的核心亮點是Vera Rubin AI工廠平臺的發(fā)布。與以往發(fā)布單芯片不同,此次展示的是一個包含7款全新芯片的“全家桶”系統(tǒng)。黃仁勛強調(diào):“過去提到Hopper,我會舉起一塊芯片,那很可愛。但提到Vera Rubin,大家想到的是整個系統(tǒng)。”
該系統(tǒng)級平臺的核心組件包括專為“AI智能體時代”設(shè)計的Vera CPU,其搭載88個自研“Olympus”核心,性能較傳統(tǒng)CPU提升50%,能效翻倍,被比作智能體系統(tǒng)的“指揮與調(diào)度中心”。Rubin GPU則通過NVLink-C2C技術(shù)與Vera CPU實現(xiàn)1.8TB/s的互聯(lián)帶寬,構(gòu)成算力核心。平臺還集成了NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學(xué)器件的Spectrum-X可擴展交換機,形成完整的超高速互聯(lián)、網(wǎng)絡(luò)與數(shù)據(jù)處理基礎(chǔ)架構(gòu)。
基于這些組件構(gòu)建的Vera Rubin NVL72機架集成了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平臺,其訓(xùn)練大型混合專家模型所需GPU數(shù)量減少至四分之一,推理吞吐量/瓦特提升高達10倍。黃仁勛透露,通過軟硬件協(xié)同設(shè)計,英偉達在兩年內(nèi)將1GW數(shù)據(jù)中心內(nèi)的Token生成速率提升了350倍。
大會上,黃仁勛還重點介紹了一款戰(zhàn)略級芯片——Groq 3語言處理單元(LPU)。這款芯片源自英偉達去年12月以約200億美元收購Groq核心技術(shù)資產(chǎn),被定位為Rubin GPU的“推理協(xié)處理器”。黃仁勛解釋,引入LPU是為了應(yīng)對AI智能體時代推理需求的分化:面對需要極高交互性、超短響應(yīng)時間的任務(wù),傳統(tǒng)GPU架構(gòu)存在性能冗余,而LPU專注于“極致低延遲Token生成”。
Groq 3 LPU的技術(shù)顛覆性在于其內(nèi)存架構(gòu)。每個芯片集成500MB片上SRAM,提供高達150TB/s的帶寬,是傳統(tǒng)HBM4帶寬(22TB/s)的近7倍。盡管容量僅為Rubin GPU上HBM4的1/500,但對于帶寬敏感的AI解碼操作,LPU的優(yōu)勢無可替代。基于此芯片的Groq 3 LPX機架配備256顆LPU,提供128GB片上SRAM和640TB/s總帶寬。
英偉達超大規(guī)模計算副總裁Ian Buck指出,LPU與GPU的協(xié)同工作將重新定義AI推理架構(gòu):Rubin GPU負責(zé)需要海量計算的“預(yù)填充”階段,Groq LPU負責(zé)延遲敏感的“解碼”階段。在這種混合架構(gòu)下,系統(tǒng)推理吞吐量與功耗比最高可提升35倍。黃仁勛建議企業(yè)客戶,若工作負載包含大量高價值Token生成需求,應(yīng)將25%的數(shù)據(jù)中心規(guī)模配置給Groq LPU。
三星電子在本次大會上扮演了重要角色。黃仁勛特別感謝三星為英偉達加快生產(chǎn)Groq 3 LPU芯片,并透露該芯片將于2026年第三季度正式出貨。這一合作標志著三星與英偉達的伙伴關(guān)系從存儲領(lǐng)域擴展到晶圓代工領(lǐng)域。三星當(dāng)天展出了第七代HBM產(chǎn)品“HBM4E”和垂直堆疊芯片“核心裸片”,強調(diào)其在存儲和代工領(lǐng)域的雙重優(yōu)勢。
然而,SRAM的高成本和芯片面積占用問題也帶來挑戰(zhàn)。單個Groq 3 LPU僅能提供500MB內(nèi)存,遠不足以獨立運行萬億參數(shù)級別的超大AI模型。英偉達的解決方案是通過數(shù)量彌補容量:將256顆LPU集成到一個Groq 3 LPX機架中,采用液冷設(shè)計,并通過專用擴展接口實現(xiàn)芯片互聯(lián)。Ian Buck承認,這種設(shè)計需要大量芯片才能獲得高性能,從每芯片的token吞吐量經(jīng)濟性來看,LPU其實相當(dāng)?shù)汀?/p>
在混合架構(gòu)的協(xié)同工作方面,大語言模型的推理過程分為預(yù)填充和解碼兩個階段。預(yù)填充階段需要強大浮點運算能力和大容量內(nèi)存存儲鍵值緩存,由Rubin GPU負責(zé);解碼階段對延遲極度敏感,受內(nèi)存帶寬限制嚴重,由Groq LPU處理。在Dynamo軟件框架的協(xié)調(diào)下,Rubin GPU利用其288GB HBM4處理復(fù)雜計算,Groq LPU利用其150TB/s帶寬實現(xiàn)極低延遲的逐token生成。
隨著AI從單一大模型走向多智能體系統(tǒng),推理延遲的要求發(fā)生根本性變化。Ian Buck表示,Rubin GPU和Groq LPU的組合將人工智能代理間通信的吞吐量從每秒100個token提升到每秒1500個token甚至更高。根據(jù)英偉達官方基準測試,運行1萬億參數(shù)規(guī)模的大語言模型時,該組合相比上代方案推理吞吐量每瓦特提升高達35倍,每百萬token成本為45美元,每秒token處理量達到500。
分析認為,收購Groq技術(shù)并將其整合到Rubin平臺,是英偉達對推理市場競爭者的直接回應(yīng)。長期以來,英偉達在訓(xùn)練市場占據(jù)主導(dǎo),但在低延遲推理領(lǐng)域面臨Cerebras等挑戰(zhàn)者的競爭。Cerebras的晶圓級引擎同樣集成大量SRAM,為先進模型提供低延遲推理,甚至吸引了OpenAI等大客戶。通過引入Groq LPU,英偉達終于進入了推理市場——一個它從未成為第一的市場。
對于現(xiàn)有英偉達客戶而言,Groq LPU的一個重要優(yōu)勢是軟件兼容性。Groq 3 LPX機架與Rubin平臺的結(jié)合無需修改現(xiàn)有的NVIDIA CUDA軟件生態(tài)系統(tǒng),企業(yè)客戶可以在不重寫代碼的前提下,通過增加LPU機架顯著提升推理性能。PCMag預(yù)測,OpenAI、Anthropic、meta等大型AI公司將成為這項技術(shù)的首批采用者,未來用戶的聊天機器人查詢或圖像生成請求可能正由Rubin GPU和Groq LPU協(xié)同處理。















