91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

英偉達(dá)Vera Rubin平臺(tái)新突破:LPU登場(chǎng),與GPU共筑AI推理新未來(lái)

   發(fā)布時(shí)間:2026-03-17 13:31 作者:顧青青

在近日舉辦的英偉達(dá)GTC 2026大會(huì)上,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛身著標(biāo)志性皮衣亮相,宣布公司正從“芯片公司”向“AI基礎(chǔ)設(shè)施工廠”全面轉(zhuǎn)型。他透露,到2027年,英偉達(dá)新一代AI芯片的累計(jì)營(yíng)收將突破1萬(wàn)億美元,這一數(shù)字是去年預(yù)測(cè)的兩倍,引發(fā)市場(chǎng)高度關(guān)注。

本次大會(huì)的核心亮點(diǎn)是Vera Rubin AI工廠平臺(tái)的發(fā)布。與以往發(fā)布單芯片不同,此次展示的是一個(gè)包含7款全新芯片的“全家桶”系統(tǒng)。黃仁勛強(qiáng)調(diào):“過(guò)去提到Hopper,我會(huì)舉起一塊芯片,那很可愛(ài)。但提到Vera Rubin,大家想到的是整個(gè)系統(tǒng)?!?/p>

該系統(tǒng)級(jí)平臺(tái)的核心組件包括專為“AI智能體時(shí)代”設(shè)計(jì)的Vera CPU,其搭載88個(gè)自研“Olympus”核心,性能較傳統(tǒng)CPU提升50%,能效翻倍,被比作智能體系統(tǒng)的“指揮與調(diào)度中心”。Rubin GPU則通過(guò)NVLink-C2C技術(shù)與Vera CPU實(shí)現(xiàn)1.8TB/s的互聯(lián)帶寬,構(gòu)成算力核心。平臺(tái)還集成了NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學(xué)器件的Spectrum-X可擴(kuò)展交換機(jī),形成完整的超高速互聯(lián)、網(wǎng)絡(luò)與數(shù)據(jù)處理基礎(chǔ)架構(gòu)。

基于這些組件構(gòu)建的Vera Rubin NVL72機(jī)架集成了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平臺(tái),其訓(xùn)練大型混合專家模型所需GPU數(shù)量減少至四分之一,推理吞吐量/瓦特提升高達(dá)10倍。黃仁勛透露,通過(guò)軟硬件協(xié)同設(shè)計(jì),英偉達(dá)在兩年內(nèi)將1GW數(shù)據(jù)中心內(nèi)的Token生成速率提升了350倍。

大會(huì)上,黃仁勛還重點(diǎn)介紹了一款戰(zhàn)略級(jí)芯片——Groq 3語(yǔ)言處理單元(LPU)。這款芯片源自英偉達(dá)去年12月以約200億美元收購(gòu)Groq核心技術(shù)資產(chǎn),被定位為Rubin GPU的“推理協(xié)處理器”。黃仁勛解釋,引入LPU是為了應(yīng)對(duì)AI智能體時(shí)代推理需求的分化:面對(duì)需要極高交互性、超短響應(yīng)時(shí)間的任務(wù),傳統(tǒng)GPU架構(gòu)存在性能冗余,而LPU專注于“極致低延遲Token生成”。

Groq 3 LPU的技術(shù)顛覆性在于其內(nèi)存架構(gòu)。每個(gè)芯片集成500MB片上SRAM,提供高達(dá)150TB/s的帶寬,是傳統(tǒng)HBM4帶寬(22TB/s)的近7倍。盡管容量?jī)H為Rubin GPU上HBM4的1/500,但對(duì)于帶寬敏感的AI解碼操作,LPU的優(yōu)勢(shì)無(wú)可替代?;诖诵酒腉roq 3 LPX機(jī)架配備256顆LPU,提供128GB片上SRAM和640TB/s總帶寬。

英偉達(dá)超大規(guī)模計(jì)算副總裁Ian Buck指出,LPU與GPU的協(xié)同工作將重新定義AI推理架構(gòu):Rubin GPU負(fù)責(zé)需要海量計(jì)算的“預(yù)填充”階段,Groq LPU負(fù)責(zé)延遲敏感的“解碼”階段。在這種混合架構(gòu)下,系統(tǒng)推理吞吐量與功耗比最高可提升35倍。黃仁勛建議企業(yè)客戶,若工作負(fù)載包含大量高價(jià)值Token生成需求,應(yīng)將25%的數(shù)據(jù)中心規(guī)模配置給Groq LPU。

三星電子在本次大會(huì)上扮演了重要角色。黃仁勛特別感謝三星為英偉達(dá)加快生產(chǎn)Groq 3 LPU芯片,并透露該芯片將于2026年第三季度正式出貨。這一合作標(biāo)志著三星與英偉達(dá)的伙伴關(guān)系從存儲(chǔ)領(lǐng)域擴(kuò)展到晶圓代工領(lǐng)域。三星當(dāng)天展出了第七代HBM產(chǎn)品“HBM4E”和垂直堆疊芯片“核心裸片”,強(qiáng)調(diào)其在存儲(chǔ)和代工領(lǐng)域的雙重優(yōu)勢(shì)。

然而,SRAM的高成本和芯片面積占用問(wèn)題也帶來(lái)挑戰(zhàn)。單個(gè)Groq 3 LPU僅能提供500MB內(nèi)存,遠(yuǎn)不足以獨(dú)立運(yùn)行萬(wàn)億參數(shù)級(jí)別的超大AI模型。英偉達(dá)的解決方案是通過(guò)數(shù)量彌補(bǔ)容量:將256顆LPU集成到一個(gè)Groq 3 LPX機(jī)架中,采用液冷設(shè)計(jì),并通過(guò)專用擴(kuò)展接口實(shí)現(xiàn)芯片互聯(lián)。Ian Buck承認(rèn),這種設(shè)計(jì)需要大量芯片才能獲得高性能,從每芯片的token吞吐量經(jīng)濟(jì)性來(lái)看,LPU其實(shí)相當(dāng)?shù)汀?/p>

在混合架構(gòu)的協(xié)同工作方面,大語(yǔ)言模型的推理過(guò)程分為預(yù)填充和解碼兩個(gè)階段。預(yù)填充階段需要強(qiáng)大浮點(diǎn)運(yùn)算能力和大容量?jī)?nèi)存存儲(chǔ)鍵值緩存,由Rubin GPU負(fù)責(zé);解碼階段對(duì)延遲極度敏感,受內(nèi)存帶寬限制嚴(yán)重,由Groq LPU處理。在Dynamo軟件框架的協(xié)調(diào)下,Rubin GPU利用其288GB HBM4處理復(fù)雜計(jì)算,Groq LPU利用其150TB/s帶寬實(shí)現(xiàn)極低延遲的逐token生成。

隨著AI從單一大模型走向多智能體系統(tǒng),推理延遲的要求發(fā)生根本性變化。Ian Buck表示,Rubin GPU和Groq LPU的組合將人工智能代理間通信的吞吐量從每秒100個(gè)token提升到每秒1500個(gè)token甚至更高。根據(jù)英偉達(dá)官方基準(zhǔn)測(cè)試,運(yùn)行1萬(wàn)億參數(shù)規(guī)模的大語(yǔ)言模型時(shí),該組合相比上代方案推理吞吐量每瓦特提升高達(dá)35倍,每百萬(wàn)token成本為45美元,每秒token處理量達(dá)到500。

分析認(rèn)為,收購(gòu)Groq技術(shù)并將其整合到Rubin平臺(tái),是英偉達(dá)對(duì)推理市場(chǎng)競(jìng)爭(zhēng)者的直接回應(yīng)。長(zhǎng)期以來(lái),英偉達(dá)在訓(xùn)練市場(chǎng)占據(jù)主導(dǎo),但在低延遲推理領(lǐng)域面臨Cerebras等挑戰(zhàn)者的競(jìng)爭(zhēng)。Cerebras的晶圓級(jí)引擎同樣集成大量SRAM,為先進(jìn)模型提供低延遲推理,甚至吸引了OpenAI等大客戶。通過(guò)引入Groq LPU,英偉達(dá)終于進(jìn)入了推理市場(chǎng)——一個(gè)它從未成為第一的市場(chǎng)。

對(duì)于現(xiàn)有英偉達(dá)客戶而言,Groq LPU的一個(gè)重要優(yōu)勢(shì)是軟件兼容性。Groq 3 LPX機(jī)架與Rubin平臺(tái)的結(jié)合無(wú)需修改現(xiàn)有的NVIDIA CUDA軟件生態(tài)系統(tǒng),企業(yè)客戶可以在不重寫代碼的前提下,通過(guò)增加LPU機(jī)架顯著提升推理性能。PCMag預(yù)測(cè),OpenAI、Anthropic、meta等大型AI公司將成為這項(xiàng)技術(shù)的首批采用者,未來(lái)用戶的聊天機(jī)器人查詢或圖像生成請(qǐng)求可能正由Rubin GPU和Groq LPU協(xié)同處理。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群