智快網 - 新科技與新能源行業網絡媒體

商湯SenseNova U1開源登場:多模態融合新突破 圖文創作效率與質量雙提升

   發布時間:2026-04-30 02:08 作者:鐘景軒

商湯科技近日宣布推出并開源日日新SenseNova U1系列原生理解生成統一模型,該模型基于今年3月自主研發的NEO-unify架構,首次在單一架構中實現了多模態理解、推理與生成的深度融合。這一突破性技術通過統一表征空間的設計,使圖像與語言信息能夠直接協同處理,顯著提升了多模態任務的執行效率與生成質量。

傳統多模態模型通常采用拼接式架構,將視覺編碼器與語言處理模塊通過適配器連接,如同不同語言的工作組協作完成任務。這種模式存在信息傳遞損耗大、效率低的問題,往往需要擴大模型規模來彌補性能不足。而SenseNova U1系列通過原生統一架構,將圖像與語言視為同一表征空間中的復合信息,實現了"一個大腦"直接理解與生成,減少了中間轉譯環節,信息流轉效率提升顯著。

此次開源的輕量版SenseNova U1 Lite包含兩個規格:基于稠密骨干網絡的8B-MoT模型與混合專家骨干網絡的A3B-MoT模型。在圖像理解、生成編輯、空間推理等基準測試中,該系列模型達到同量級開源模型的領先水平,其中8B-MoT規格在部分任務中甚至超越了大型商業閉源模型。特別是在復雜信息圖生成任務中,模型展現出對排版布局與文字控制的商業級水準,推理響應速度較同類產品提升明顯。

NEO-unify架構的創新性體現在徹底摒棄拼接式設計,通過構建統一的表征空間并融入每一層計算,實現了從模態集成到原生統一的范式轉變。這種架構使SenseNova U1成為業內首個支持連續性圖文創作輸出的模型,僅需單次調用即可生成高質量圖文內容。例如在生成牛排菜譜時,模型可自動規劃步驟并生成一致性極強的配套圖示;在鋼鐵俠圖案創作中,能從草稿逐步優化,保持每一步的結構細節連貫性。

該系列模型已在GitHub、Hugging Face等平臺開源,并計劃上線辦公小浣熊體驗系統。技術文檔顯示,SenseNova U1通過共享上下文機制,天然保留了圖像與文本的底層融合信號,這種原生多模態能力為機器人具身智能發展提供了新路徑。未來商湯將推出更大參數規模的版本,有望在降低計算成本的同時達到國際頂尖模型性能。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群