智快網 - 新科技與新能源行業網絡媒體

谷歌蓄力AI新戰場:十年自研TPU發力推理芯片,向英偉達發起全面挑戰

   發布時間:2026-04-21 18:13 作者:楊凌霄

在人工智能芯片領域,一場新的競爭風暴正在醞釀。谷歌正憑借其自研芯片業務,向英偉達長期占據的市場主導地位發起有力挑戰。本周,在拉斯維加斯舉行的Google Cloud Next大會上,谷歌計劃發布新一代張量處理單元(TPU),這一舉措被視為其爭奪AI推理市場的重要一步。

谷歌首席科學家Jeff Dean在接受采訪時指出,隨著AI查詢處理需求的急劇增長,針對訓練或推理工作負載設計專用芯片已成為必然選擇。當前,AI芯片市場格局正經歷深刻變化。英偉達的GPU在AI領域,尤其是模型訓練環節,依然保持著行業標桿的地位。然而,推理市場的競爭卻日益白熱化。市場研究機構Gartner分析師Chirag Dekate認為,推理市場正成為新的“戰場”,而谷歌在這一領域擁有顯著的基礎設施優勢。

谷歌的芯片研發之路始于十多年前。當時,谷歌面臨一個現實問題:現有的芯片和硬件無法在可控成本下,為其語言翻譯和語音識別服務提供足夠的算力支持。于是,谷歌決定逆勢而上,開發定制硬件。TPU的核心設計理念是“聚焦解決計算量巨大的特定問題”,盡管這一理念在當時并不被主流觀點所認可。

在研發過程中,谷歌的芯片團隊與AI模型團隊保持著緊密的協同關系。2017年,一篇具有里程碑意義的研究論文催生了當代大語言模型,這也促使TPU團隊將研發重心轉向支持更大規模AI系統訓練的芯片設計。此后,谷歌DeepMind與芯片團隊發現,TPU在執行強化學習任務時存在算力閑置的問題,于是他們調整了芯片之間的網絡互聯方式,以提高數據流轉效率,避免算力浪費。這種內部反饋機制不僅提升了芯片性能,還增強了對“硬件級錯誤”的把控能力。谷歌科學家Paul Barham透露,如今他們能在10秒內完成對數十萬枚加速芯片的故障排查。

谷歌芯片業務的商業突破同樣引人注目。去年10月,Anthropic宣布擴大與谷歌的合作,將獲取多達100萬枚TPU。隨后,谷歌發布的Gemini模型獲得廣泛好評,該模型正是基于TPU進行訓練和運行的。此后,需求持續攀升。meta簽署了一項價值數十億美元、為期數年的TPU云服務協議。meta基礎設施負責人Santosh Janardhan表示,TPU在推理方面可能具有優勢,但也承認新平臺存在學習門檻。對沖基金公司Citadel Securities計劃在本次谷歌大會上分享其借助TPU實現比GPU方案更快模型訓練速度的經驗。阿布扎比科技集團G42旗下云業務Core42的臨時CEO Talal Al Kaissi也表示,已與谷歌就TPU使用進行多輪磋商,并對合作前景持樂觀態度。

在軟件生態方面,谷歌也在積極補強。如今,TPU客戶可以使用PyTorch等外部工具及第三方調度軟件,不再局限于谷歌自有產品。同時,谷歌還在測試允許合作方將部分TPU部署于自有數據中心,而非必須依賴谷歌設施。

面對谷歌的強勢進攻,英偉達并未坐以待斃。上月,英偉達推出了一款基于收購自Groq技術開發的推理芯片。英偉達CEO黃仁勛強調其芯片的多用途優勢,稱能夠完成“大量TPU無法勝任的應用”。事實上,谷歌在實際部署中也同時使用TPU和GPU兩種芯片。谷歌DeepMind CEO Demis Hassabis指出,頂尖AI實驗室對TPU的興趣尤為濃厚,許多團隊希望同時在兩種平臺上運行模型。

谷歌的優勢在于其擁有十余年的芯片設計經驗、充裕的資金以及對AI模型的第一手洞察。在頂級AI開發商中,谷歌是唯一一家大規模自研芯片的公司,這使得其硬件與模型團隊之間能夠形成高效的雙向反饋。Gimlet Labs聯合創始人Natalie Serrino表示,現有TPU已非常適合處理新興AI智能體的工作負載,是應對這類爆發式任務的理想工具。

然而,谷歌的芯片業務也面臨挑戰。芯片從研發到量產需要約三年時間,而AI模型的迭代速度遠超這一周期,這使得精準預測未來客戶需求變得異常困難。TPU團隊成員Barham還擔心,硬件與模型團隊之間過于緊密的反饋循環可能導致團隊只優化當前軟硬件的契合度,而忽視更具突破性的新思路。為平衡這一矛盾,TPU團隊有時會選擇將芯片設計為“通用型”,以適應多種使用場景;有時則會并行推進兩套不同設計方案,根據具體需求決定最終落地版本。谷歌芯片團隊負責人Vahdat表示,只為谷歌內部生產TPU雖有好處,但也可能導致技術孤島化,限制多樣性和發展潛力。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群