智快網 - 新科技與新能源行業網絡媒體

谷歌Gemma 4系列AI模型迎升級:MTP起草器助力推理速度大幅躍升

   發布時間:2026-05-07 23:52 作者:楊凌霄

谷歌近日宣布,為旗下開源大模型Gemma 4系列推出了一項名為多Token預測(MTP)的起草器技術。這項基于推測解碼架構的創新方案,通過優化推理流程,在保持輸出質量的前提下,將模型推理速度提升至原有水平的三倍。該技術尤其適用于對實時性要求嚴苛的場景,如聊天機器人、編程助手和移動端應用開發。

作為谷歌當前性能最強的開源模型,Gemma 4系列自發布以來表現亮眼。數據顯示,該模型在短短數周內下載量已突破6000萬次。此次技術升級的核心目標,是解決傳統大模型推理過程中因內存帶寬限制導致的效率瓶頸。據谷歌工程師介紹,現有模型在運行時需頻繁將數十億參數從顯存傳輸至計算單元,這一過程消耗了大量時間,導致計算資源利用率低下。

MTP技術的突破性在于引入了"雙模型協作"機制。系統將重型目標模型(如310億參數版本)與輕量級MTP起草器配對運行:起草器利用閑置算力快速生成多個未來token的預測序列,目標模型則并行驗證這些預測結果。若驗證通過,整個序列可在單次前向傳遞中完成確認,從而大幅減少重復計算。這種設計既保證了輸出質量,又顯著提升了推理效率。

實際測試數據顯示,在Apple Silicon芯片環境下,當批量處理尺寸(batch sizes)設置為4至8時,260億參數版本的Gemma 4模型實現了約2.2倍的本地加速效果。這一提升使得開發者能夠在個人電腦和消費級顯卡上流暢運行復雜AI應用,包括離線編程、智能體工作流等場景。同時,邊緣設備的能耗也因計算效率提高而顯著降低。

該技術更新特別針對需要低延遲響應的應用場景進行優化。除了前述領域外,自主智能體和移動端AI部署也將從中受益。開發者現在可以在資源受限的環境中部署高性能語言模型,無需在響應速度和計算精度之間做出妥協。這項突破為AI技術的普及化應用開辟了新路徑,特別是在消費級硬件上的落地提供了關鍵技術支持。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群