91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

舊金山四人團隊另辟蹊徑:用千萬小時視頻訓(xùn)練出通用計算機操作新模型

   發(fā)布時間:2026-02-25 08:44 作者:柳晴雪

舊金山一家名為Standard Intelligence的初創(chuàng)公司,近日宣布推出名為FDM-1(前向動力學(xué)模型)的計算機行為模型,宣稱其為“首個完全通用的計算機行為模型”。該模型通過直接處理視頻流,在CAD建模、網(wǎng)站安全測試以及自動駕駛等場景中展現(xiàn)出強大的泛化能力,引發(fā)行業(yè)關(guān)注。

與傳統(tǒng)計算機使用代理依賴截屏分析和界面元素識別不同,F(xiàn)DM-1選擇了一條截然不同的技術(shù)路徑。它直接從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)人類操作計算機的行為模式,而非在已有視覺語言模型上疊加工具調(diào)用能力。Standard Intelligence認(rèn)為,要實現(xiàn)真正通用的計算機操作智能體,關(guān)鍵在于利用互聯(lián)網(wǎng)規(guī)模的視頻語料庫,而非局限于截屏上的分類和推理。

當(dāng)前,主流的計算機使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看圖說話”的思路,依賴視覺語言模型和工具調(diào)用能力。這些模型通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機,盡管在特定基準(zhǔn)測試中取得了不錯成績,但本質(zhì)上仍受限于截屏分辨率和操作頻率。

FDM-1的訓(xùn)練方法則更接近OpenAI在2022年提出的VPT(視頻預(yù)訓(xùn)練)方法,但進行了顯著改進。VPT通過少量標(biāo)注數(shù)據(jù)訓(xùn)練逆向動力學(xué)模型(IDM),再利用IDM為大規(guī)模游戲視頻自動打標(biāo)簽,最終實現(xiàn)行為克隆訓(xùn)練。然而,VPT的應(yīng)用局限于Minecraft游戲環(huán)境,且上下文窗口極短,無法處理需要長時間連貫操作的任務(wù)。

Standard Intelligence在FDM-1的開發(fā)中,同時突破了數(shù)據(jù)規(guī)模和上下文長度兩個維度。他們首先利用4萬小時的標(biāo)注員錄屏數(shù)據(jù)訓(xùn)練IDM,然后用IDM為1,100萬小時的互聯(lián)網(wǎng)視頻語料庫自動標(biāo)注操作動作。IDM采用掩碼擴散架構(gòu),能夠同時參照所有幀來推斷每個時間步的動作,提高了數(shù)據(jù)效率和標(biāo)注準(zhǔn)確性。

在上下文長度方面,F(xiàn)DM-1通過自研的視頻編碼器實現(xiàn)了顯著突破?,F(xiàn)有視覺語言模型處理屏幕錄制視頻的方式極度浪費token,導(dǎo)致上下文窗口極短。而FDM-1的視頻編碼器能夠?qū)⒔鼉尚r的30 FPS視頻壓縮進200k token預(yù)算,比此前最優(yōu)方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流,適應(yīng)需要長時間連貫操作的任務(wù)。

FDM-1本身是一個標(biāo)準(zhǔn)的自回歸模型,接收此前的視頻幀和動作序列,預(yù)測下一個動作token。輸出空間由鍵盤按鍵和鼠標(biāo)移動增量組成。為了處理鼠標(biāo)位移的龐大狀態(tài)空間,F(xiàn)DM-1將鼠標(biāo)位移分解為X和Y分量,使用指數(shù)分箱將其映射到有限數(shù)量的箱中。同時,每個鼠標(biāo)移動token還附帶預(yù)測下一個點擊位置,幫助生成更精確的軌跡。

在評估基礎(chǔ)設(shè)施方面,Standard Intelligence建立了一套可運行8萬臺分叉虛擬機的系統(tǒng),每小時能跑超過100萬次rollout。分叉機制允許他們對操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新的VM上,從而在同一個起始狀態(tài)上并行跑數(shù)千次評估。這種評估方式大大提高了測試效率,降低了推理延遲。

初步評測結(jié)果顯示,IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點擊、符號記憶和UI操控等方面的表現(xiàn)已經(jīng)超過了人工標(biāo)注的承包商數(shù)據(jù)。然而,在打字和語言理解任務(wù)上,IDM數(shù)據(jù)上的進步速度慢于承包商數(shù)據(jù),這可能是由于IDM標(biāo)注噪聲造成的。未來,Standard Intelligence計劃混合使用兩種數(shù)據(jù),以進一步提高模型性能。

在自動駕駛的微調(diào)實驗中,F(xiàn)DM-1在不到1小時的駕駛數(shù)據(jù)上微調(diào)后,就能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎,起始準(zhǔn)確率為50%。這一結(jié)果明顯高于僅有視頻編碼器而沒有互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型,展示了FDM-1在連續(xù)控制任務(wù)上的潛力。

Standard Intelligence的研究團隊背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機器學(xué)習(xí)對齊理論學(xué)者項目的Yudhister Kumar等。在FDM-1之前,該團隊已經(jīng)有過兩個引起關(guān)注的項目:一個是建造30 PB存儲集群用于存放視頻數(shù)據(jù),另一個是開源全雙工音頻基礎(chǔ)模型hertz-dev。這兩個項目分別對應(yīng)了FDM-1所需要的兩個關(guān)鍵能力:大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)。

盡管FDM-1現(xiàn)在還遠不是一個可用的產(chǎn)品,缺乏指令跟隨能力和公開標(biāo)準(zhǔn)化基準(zhǔn)測試結(jié)果,但它在連續(xù)控制任務(wù)上的獨特優(yōu)勢以及提出的技術(shù)路徑仍然值得關(guān)注。未來,F(xiàn)DM-1代表的路線和視覺語言模型代理路線最終可能會趨于融合,兼得兩種路線的優(yōu)點。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群