在2025年世界人工智能大會(huì)WAIC上,商湯科技帶來了一系列震撼業(yè)界的創(chuàng)新成果。會(huì)上,商湯正式推出了“日日新SenseNova V6.5”大模型體系與“悟能”具身智能平臺,并對旗下的明星產(chǎn)品商湯小浣熊進(jìn)行了智能體升級。
日日新V6.5大模型體系在強(qiáng)推理、高效率及智能體三大方面進(jìn)行了重點(diǎn)升級。該版本率先突破了圖文交錯(cuò)思維鏈技術(shù),使AI模型能夠更直觀地理解和處理圖像與文字交織的信息。商湯科技CEO徐立表示,之所以選擇推出V6.5而非V7,是因?yàn)樗麄兿MM(jìn)一步擴(kuò)充多模態(tài)思維鏈構(gòu)造數(shù)據(jù),結(jié)合商湯在視覺感知領(lǐng)域的優(yōu)勢,通過圖文關(guān)系的深度挖掘,推動(dòng)模型核心能力的飛躍。
在性能表現(xiàn)上,日日新V6.5的文本推理能力和多模態(tài)推理能力均超越了Gemini 2.5 Pro和Claude-4 Sonnet,其多模態(tài)交互能力也領(lǐng)先Gemini 2.5 Flash和GPT-4o。這一突破得益于商湯對多模態(tài)模型融合架構(gòu)的改進(jìn),新的架構(gòu)不僅減輕了視覺編碼器的負(fù)擔(dān),還通過深而窄的主干模型,實(shí)現(xiàn)了視覺與語言表征的早期對齊與融合,從而提高了感知效率和模態(tài)融合的深度。
基于日日新V6.5的多模態(tài)數(shù)據(jù)分析能力,商湯小浣熊也迎來了全面升級。升級后的商湯小浣熊能夠處理復(fù)雜的多模態(tài)輸入,進(jìn)行深度融合分析,并以多模態(tài)形式輸出結(jié)果。在數(shù)據(jù)分析和智能體領(lǐng)域的測試中,商湯小浣熊的表現(xiàn)達(dá)到了國際標(biāo)桿Claude 4 Opus的水平,遠(yuǎn)超OpenAI o3等模型。在實(shí)際辦公場景中,商湯小浣熊能夠解析復(fù)雜的Excel表格,通過多模態(tài)思維鏈構(gòu)造進(jìn)行全局分析,最終生成結(jié)構(gòu)化的報(bào)告。
商湯小浣熊還推出了教育版和金融版,針對不同行業(yè)的需求提供定制化服務(wù)。教育版能夠智能分析學(xué)生的學(xué)習(xí)表現(xiàn)和行為模式,已在多所院校協(xié)助提升教學(xué)效率和學(xué)生心理健康水平。金融版則提供知識助手、智能問數(shù)和多模態(tài)智能理賠等解決方案,構(gòu)建金融領(lǐng)域的“人機(jī)協(xié)同”智能決策新范式。
“悟能”具身智能平臺是商湯科技的另一項(xiàng)重磅創(chuàng)新。該平臺以商湯的具身世界模型為核心引擎,為機(jī)器人等智能終端提供強(qiáng)大的感知、視覺導(dǎo)航和多模態(tài)交互能力。徐立在現(xiàn)場展示了搭載具身世界引擎的人形機(jī)器人,它能夠生動(dòng)地講解PPT,語言自然流暢,還能回答觀眾的問題,進(jìn)行階段性小結(jié)。
商湯的具身世界模型不僅能夠生成多視角視頻,還能構(gòu)建面向人、物、場的4D真實(shí)世界。用戶只需輸入簡單的提示詞,模型就能自主進(jìn)行位姿、動(dòng)作骨架和指令的生成,實(shí)現(xiàn)與真實(shí)世界的深度交互。這一技術(shù)突破為機(jī)器人等智能終端提供了前所未有的自主化與智能化水平。
在WAIC的商湯科技展臺上,吸引了眾多參觀者駐足。會(huì)解說PPT的人形機(jī)器人成為全場焦點(diǎn),它基于日日新V6.5多模態(tài)大模型,擁有強(qiáng)大的音視頻處理和AI交互能力,能夠在嘈雜環(huán)境中完成實(shí)時(shí)流暢的互動(dòng)。傅利葉、鈦虎等多家機(jī)器人也亮相商湯展臺,展示了基于日日新V6.5多模態(tài)大模型的智能硬件產(chǎn)品。
商湯科技還展示了其AI基礎(chǔ)設(shè)施商湯大裝置、“開悟”世界模型以及各類AI原生應(yīng)用,如商湯商量、辦公小浣熊、代碼小浣熊等。這些創(chuàng)新成果不僅展現(xiàn)了商湯在人工智能領(lǐng)域的深厚積累,也預(yù)示著AI技術(shù)正在逐步觸達(dá)AGI邊界,向“類人”標(biāo)準(zhǔn)靠近。























