商湯SenseNova U1開源登場：多模態融合新突破圖文創作效率與質量雙提升-汽車-智快網

商湯SenseNova U1開源登場：多模態融合新突破圖文創作效率與質量雙提升

發布時間：2026-04-30 02:08 來源：快訊作者：鐘景軒

商湯科技近日宣布推出并開源日日新SenseNova U1系列原生理解生成統一模型，該模型基于今年3月自主研發的NEO-unify架構，首次在單一架構中實現了多模態理解、推理與生成的深度融合。這一突破性技術通過統一表征空間的設計，使圖像與語言信息能夠直接協同處理，顯著提升了多模態任務的執行效率與生成質量。

傳統多模態模型通常采用拼接式架構，將視覺編碼器與語言處理模塊通過適配器連接，如同不同語言的工作組協作完成任務。這種模式存在信息傳遞損耗大、效率低的問題，往往需要擴大模型規模來彌補性能不足。而SenseNova U1系列通過原生統一架構，將圖像與語言視為同一表征空間中的復合信息，實現了"一個大腦"直接理解與生成，減少了中間轉譯環節，信息流轉效率提升顯著。

此次開源的輕量版SenseNova U1 Lite包含兩個規格：基于稠密骨干網絡的8B-MoT模型與混合專家骨干網絡的A3B-MoT模型。在圖像理解、生成編輯、空間推理等基準測試中，該系列模型達到同量級開源模型的領先水平，其中8B-MoT規格在部分任務中甚至超越了大型商業閉源模型。特別是在復雜信息圖生成任務中，模型展現出對排版布局與文字控制的商業級水準，推理響應速度較同類產品提升明顯。

NEO-unify架構的創新性體現在徹底摒棄拼接式設計，通過構建統一的表征空間并融入每一層計算，實現了從模態集成到原生統一的范式轉變。這種架構使SenseNova U1成為業內首個支持連續性圖文創作輸出的模型，僅需單次調用即可生成高質量圖文內容。例如在生成牛排菜譜時，模型可自動規劃步驟并生成一致性極強的配套圖示；在鋼鐵俠圖案創作中，能從草稿逐步優化，保持每一步的結構細節連貫性。

該系列模型已在GitHub、Hugging Face等平臺開源，并計劃上線辦公小浣熊體驗系統。技術文檔顯示，SenseNova U1通過共享上下文機制，天然保留了圖像與文本的底層融合信號，這種原生多模態能力為機器人具身智能發展提供了新路徑。未來商湯將推出更大參數規模的版本，有望在降低計算成本的同時達到國際頂尖模型性能。

更多>同類內容

商湯SenseNova U1開源登場：多模態融合新突破 圖文創作效率與質量雙提升

商湯SenseNova U1開源登場：多模態融合新突破圖文創作效率與質量雙提升