智快網 - 新科技與新能源行業網絡媒體

小米MiMo-V2.5全鏈路語音大模型發布,TTS與ASR能力升級加速AI應用落地

   發布時間:2026-04-26 18:24 作者:江紫萱

小米近日正式推出MiMo-V2.5全鏈路語音大模型系列,涵蓋三款TTS語音合成模型與一款ASR語音識別模型,標志著其在智能語音交互領域完成從“精準識別”到“自然表達”的技術閉環。目前,TTS系列模型已在MiMo Studio平臺開放限時免費體驗,ASR模型代碼與權重則面向全球開發者開源。

作為核心突破的TTS系列聚焦“導演級”語音控制能力,用戶可通過自然語言指令靈活調節語速、情緒與語氣。其中,VoiceDesign功能支持“一句話生成定制音色”,而VoiceClone技術僅需30秒音頻樣本即可實現人聲高保真復刻。配套的MiMo-V2.5-ASR模型則展現多維度技術優勢:不僅支持吳語、粵語等中文方言及中英混合識別,還能在80分貝以上噪音環境中保持97%的準確率,并直接輸出帶標點符號的文本結果。

該技術組合對AI應用生態產生顯著推動作用。TTS模型的開放策略與ASR的開源模式形成互補,開發者可基于小米提供的全棧工具鏈,以極低成本構建具備擬人化交互能力的智能體。據測試,使用該系列模型開發的智能客服、有聲讀物生成等場景,用戶滿意度較傳統方案提升40%以上。

技術文檔顯示,MiMo-V2.5系列采用分層架構設計,TTS模型通過動態聲學建模實現毫秒級響應,ASR模型則運用多模態預訓練框架提升復雜場景適應性。小米AI實驗室負責人表示,此次開源的ASR模型已通過ISO/IEC 30145安全認證,開發者可直接部署于醫療、金融等對數據隱私要求嚴苛的領域。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群