螞蟻百靈Ling-2.6-flash模型揭曉：高效推理，百萬字長篇輕松生成-產業-智快網

螞蟻百靈Ling-2.6-flash模型揭曉：高效推理，百萬字長篇輕松生成

發布時間：2026-04-22 19:33 來源：天脈網作者：沈如風

螞蟻集團旗下百靈團隊近日宣布，其最新研發的輕量級大模型Ling-2.6-flash正式亮相。該模型此前以匿名形式在OpenRouter平臺上線測試，迅速攀升至熱榜首位并持續保持領先地位，日均調用量突破百億級tokens。經過多輪優化驗證，這款總參數量達104B、激活參數7.4B的Instruct模型，現已在OpenRouter與官方平臺同步開放免費API調用服務。

技術團隊通過架構創新實現性能突破，該模型采用混合線性注意力機制與稀疏化MoE架構，在4卡H20硬件環境下推理速度達340 tokens/s，Prefill吞吐量達到主流模型的2.2倍。特別在token效率優化方面，模型在Artificial Analysis完整評測中僅消耗15M tokens即達成目標，成本約為同類模型的十分之一。這種設計使其在長文本生成、實時交互等場景中展現出顯著優勢，百萬字級內容可在數十分鐘內完成創作。

針對Agent應用場景，研發團隊構建了專項強化訓練體系。通過擴展高保真交互數據集，模型在工具調用、多步驟規劃等核心能力上取得突破性進展。在BFCL-V4、TAU2-bench等權威評測中，該模型與參數量更大的競品相比，仍保持相近甚至領先的性能表現。實測數據顯示，其可穩定處理需求整理、任務拆解等復雜工作流，幻覺率較前代降低37%，結果可用性顯著提升。

在應用開發層面，Ling-2.6-flash展現出強大的場景適應能力。測試案例顯示，模型可在1分鐘內完成包含明暗模式切換、響應式設計的網站開發，并支持局部功能秒級修改。結合Kilo Code插件使用時，多子Agent協同機制使輸出效率進一步提升。目前該模型已支持BF16、FP8、INT4等多種精度模式，其中INT4量化版本可在DGX Spark硬件上運行，為邊緣設備部署提供可能。

當前開放的服務方案包含雙重福利：首周提供完全免費的API調用，之后每日保留50萬tokens免費額度，超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。技術社區可期待的是，該模型的BF16、FP8、INT4版本代碼即將開源，配套的推理算子優化方案也將陸續公開，這為開發者自定義部署提供了重要支撐。

盡管在復雜系統開發等場景仍存在局限，但百靈團隊通過持續迭代已顯著改善模型穩定性。最新測試表明，在涉及中英雙語切換、長程任務執行等場景時，模型的響應準確率較測試初期提升29%。技術白皮書顯示，研發團隊正探索通過動態注意力分配機制，進一步突破推理深度限制，在保持高效特性的同時提升復雜場景處理能力。

更多>同類內容