91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

港科大賈佳亞團(tuán)隊新突破:DreamOmni2開源,AI多模態(tài)創(chuàng)作邁入新階段

   發(fā)布時間:2025-10-24 02:53 作者:鐘景軒

當(dāng)語言無法精準(zhǔn)傳遞靈感時,AI能否跨越文字的局限,直接捕捉創(chuàng)作者心中的視覺想象?香港科技大學(xué)賈佳亞團(tuán)隊最新推出的DreamOmni2模型,通過突破性的多模態(tài)編輯技術(shù),為這一難題提供了創(chuàng)新解決方案。該成果在GitHub上線兩周即收獲1600顆星,引發(fā)YouTube創(chuàng)作者群體熱議,被視為AI圖像生成領(lǐng)域的里程碑。

傳統(tǒng)AI創(chuàng)作工具長期受困于指令依賴?yán)Ь?。?dāng)用戶試圖將照片中的背包替換為波西米亞風(fēng)格圖案時,復(fù)雜紋理的語義描述往往導(dǎo)致結(jié)果偏差;而模仿老照片的復(fù)古光影或畫家筆觸時,現(xiàn)有模型更因抽象屬性處理能力不足而束手無策。DreamOmni2的突破性在于,其構(gòu)建的FLUX Kontext基座模型通過多參考圖像解析機制,首次實現(xiàn)了對具體物體與抽象概念的同步編輯。

實測數(shù)據(jù)顯示,該模型在人物替換任務(wù)中展現(xiàn)出驚人精度。將賽博場景中的男性角色替換為女性形象時,生成的畫面不僅完整保留了背景光影與文字細(xì)節(jié),更通過面部光線遷移技術(shù),使新角色自然融入原始環(huán)境。在風(fēng)格遷移測試中,模型成功將像素藝術(shù)、二次元畫風(fēng)等視覺特征完整遷移,相較GPT-4o的色調(diào)復(fù)制和Nano Banana的簡單變色,展現(xiàn)出對藝術(shù)風(fēng)格的深度理解。

技術(shù)白皮書揭示,研究團(tuán)隊通過三階段數(shù)據(jù)工程構(gòu)建了新型訓(xùn)練范式。首先利用特征混合技術(shù)生成包含相同物體/屬性的高質(zhì)量圖像對,解決數(shù)據(jù)稀缺難題;繼而開發(fā)提取-編輯雙模型架構(gòu),自動生成(源圖+指令+參考圖)→目標(biāo)圖的完整訓(xùn)練鏈;最終通過多參考圖像生成機制,形成覆蓋具體物體與抽象屬性的綜合數(shù)據(jù)集。這種創(chuàng)新方法使模型在基準(zhǔn)測試中,抽象屬性處理得分超越GPT-4o與Nano Banana。

模型架構(gòu)創(chuàng)新同樣引人注目。針對多圖像輸入的混淆問題,研究團(tuán)隊引入索引編碼與位置偏移技術(shù),使模型能精準(zhǔn)區(qū)分不同參考圖像。通過視覺語言模型(VLM)與生成模型的聯(lián)合訓(xùn)練機制,系統(tǒng)可自動將用戶模糊指令轉(zhuǎn)化為結(jié)構(gòu)化操作,顯著提升真實場景下的指令理解能力。LoRA微調(diào)策略的運用,則在保持基座模型性能的同時,實現(xiàn)了多模態(tài)能力的無縫激活。

在四圖組合生成測試中,DreamOmni2將三位不同角色的特征與第四張圖的畫風(fēng)完美融合,生成畫面中人物服飾細(xì)節(jié)、動物品種特征與藝術(shù)筆觸均得到準(zhǔn)確呈現(xiàn)。這種跨圖像、跨模態(tài)的編輯能力,使設(shè)計師能直接通過視覺參考進(jìn)行創(chuàng)作,而非依賴文字描述。YouTube教程作者評價該模型為"免費工作流中的性能王者",其多圖編輯精度已達(dá)到專業(yè)創(chuàng)作工具水準(zhǔn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群