螞蟻集團旗下百靈團隊近日宣布,其最新研發的輕量級大模型Ling-2.6-flash正式亮相。該模型此前以匿名形式在OpenRouter平臺上線測試,迅速攀升至熱榜首位并持續保持領先地位,日均調用量突破百億級tokens。經過多輪優化驗證,這款總參數量達104B、激活參數7.4B的Instruct模型,現已在OpenRouter與官方平臺同步開放免費API調用服務。
技術團隊通過架構創新實現性能突破,該模型采用混合線性注意力機制與稀疏化MoE架構,在4卡H20硬件環境下推理速度達340 tokens/s,Prefill吞吐量達到主流模型的2.2倍。特別在token效率優化方面,模型在Artificial Analysis完整評測中僅消耗15M tokens即達成目標,成本約為同類模型的十分之一。這種設計使其在長文本生成、實時交互等場景中展現出顯著優勢,百萬字級內容可在數十分鐘內完成創作。
針對Agent應用場景,研發團隊構建了專項強化訓練體系。通過擴展高保真交互數據集,模型在工具調用、多步驟規劃等核心能力上取得突破性進展。在BFCL-V4、TAU2-bench等權威評測中,該模型與參數量更大的競品相比,仍保持相近甚至領先的性能表現。實測數據顯示,其可穩定處理需求整理、任務拆解等復雜工作流,幻覺率較前代降低37%,結果可用性顯著提升。
在應用開發層面,Ling-2.6-flash展現出強大的場景適應能力。測試案例顯示,模型可在1分鐘內完成包含明暗模式切換、響應式設計的網站開發,并支持局部功能秒級修改。結合Kilo Code插件使用時,多子Agent協同機制使輸出效率進一步提升。目前該模型已支持BF16、FP8、INT4等多種精度模式,其中INT4量化版本可在DGX Spark硬件上運行,為邊緣設備部署提供可能。
當前開放的服務方案包含雙重福利:首周提供完全免費的API調用,之后每日保留50萬tokens免費額度,超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。技術社區可期待的是,該模型的BF16、FP8、INT4版本代碼即將開源,配套的推理算子優化方案也將陸續公開,這為開發者自定義部署提供了重要支撐。
盡管在復雜系統開發等場景仍存在局限,但百靈團隊通過持續迭代已顯著改善模型穩定性。最新測試表明,在涉及中英雙語切換、長程任務執行等場景時,模型的響應準確率較測試初期提升29%。技術白皮書顯示,研發團隊正探索通過動態注意力分配機制,進一步突破推理深度限制,在保持高效特性的同時提升復雜場景處理能力。




















