久久青青草线视频免费观看,无码制服丝袜人妻ol在线视频

舊金山四人團隊另辟蹊徑：用千萬小時視頻訓(xùn)練出通用計算機操作新模型

發(fā)布時間：2026-02-25 08:44 來源：快訊作者：柳晴雪

舊金山一家名為Standard Intelligence的初創(chuàng)公司，近日宣布推出名為FDM-1（前向動力學(xué)模型）的計算機行為模型，宣稱其為“首個完全通用的計算機行為模型”。該模型通過直接處理視頻流，在CAD建模、網(wǎng)站安全測試以及自動駕駛等場景中展現(xiàn)出強大的泛化能力，引發(fā)行業(yè)關(guān)注。

與傳統(tǒng)計算機使用代理依賴截屏分析和界面元素識別不同，F(xiàn)DM-1選擇了一條截然不同的技術(shù)路徑。它直接從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)人類操作計算機的行為模式，而非在已有視覺語言模型上疊加工具調(diào)用能力。Standard Intelligence認(rèn)為，要實現(xiàn)真正通用的計算機操作智能體，關(guān)鍵在于利用互聯(lián)網(wǎng)規(guī)模的視頻語料庫，而非局限于截屏上的分類和推理。

當(dāng)前，主流的計算機使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner，均采用“看圖說話”的思路，依賴視覺語言模型和工具調(diào)用能力。這些模型通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機，盡管在特定基準(zhǔn)測試中取得了不錯成績，但本質(zhì)上仍受限于截屏分辨率和操作頻率。

FDM-1的訓(xùn)練方法則更接近OpenAI在2022年提出的VPT（視頻預(yù)訓(xùn)練）方法，但進行了顯著改進。VPT通過少量標(biāo)注數(shù)據(jù)訓(xùn)練逆向動力學(xué)模型（IDM），再利用IDM為大規(guī)模游戲視頻自動打標(biāo)簽，最終實現(xiàn)行為克隆訓(xùn)練。然而，VPT的應(yīng)用局限于Minecraft游戲環(huán)境，且上下文窗口極短，無法處理需要長時間連貫操作的任務(wù)。

Standard Intelligence在FDM-1的開發(fā)中，同時突破了數(shù)據(jù)規(guī)模和上下文長度兩個維度。他們首先利用4萬小時的標(biāo)注員錄屏數(shù)據(jù)訓(xùn)練IDM，然后用IDM為1,100萬小時的互聯(lián)網(wǎng)視頻語料庫自動標(biāo)注操作動作。IDM采用掩碼擴散架構(gòu)，能夠同時參照所有幀來推斷每個時間步的動作，提高了數(shù)據(jù)效率和標(biāo)注準(zhǔn)確性。

在上下文長度方面，F(xiàn)DM-1通過自研的視頻編碼器實現(xiàn)了顯著突破?，F(xiàn)有視覺語言模型處理屏幕錄制視頻的方式極度浪費token，導(dǎo)致上下文窗口極短。而FDM-1的視頻編碼器能夠?qū)⒔鼉尚r的30 FPS視頻壓縮進200k token預(yù)算，比此前最優(yōu)方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流，適應(yīng)需要長時間連貫操作的任務(wù)。

FDM-1本身是一個標(biāo)準(zhǔn)的自回歸模型，接收此前的視頻幀和動作序列，預(yù)測下一個動作token。輸出空間由鍵盤按鍵和鼠標(biāo)移動增量組成。為了處理鼠標(biāo)位移的龐大狀態(tài)空間，F(xiàn)DM-1將鼠標(biāo)位移分解為X和Y分量，使用指數(shù)分箱將其映射到有限數(shù)量的箱中。同時，每個鼠標(biāo)移動token還附帶預(yù)測下一個點擊位置，幫助生成更精確的軌跡。

在評估基礎(chǔ)設(shè)施方面，Standard Intelligence建立了一套可運行8萬臺分叉虛擬機的系統(tǒng)，每小時能跑超過100萬次rollout。分叉機制允許他們對操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新的VM上，從而在同一個起始狀態(tài)上并行跑數(shù)千次評估。這種評估方式大大提高了測試效率，降低了推理延遲。

初步評測結(jié)果顯示，IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點擊、符號記憶和UI操控等方面的表現(xiàn)已經(jīng)超過了人工標(biāo)注的承包商數(shù)據(jù)。然而，在打字和語言理解任務(wù)上，IDM數(shù)據(jù)上的進步速度慢于承包商數(shù)據(jù)，這可能是由于IDM標(biāo)注噪聲造成的。未來，Standard Intelligence計劃混合使用兩種數(shù)據(jù)，以進一步提高模型性能。

在自動駕駛的微調(diào)實驗中，F(xiàn)DM-1在不到1小時的駕駛數(shù)據(jù)上微調(diào)后，就能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎，起始準(zhǔn)確率為50%。這一結(jié)果明顯高于僅有視頻編碼器而沒有互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型，展示了FDM-1在連續(xù)控制任務(wù)上的潛力。

Standard Intelligence的研究團隊背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機器學(xué)習(xí)對齊理論學(xué)者項目的Yudhister Kumar等。在FDM-1之前，該團隊已經(jīng)有過兩個引起關(guān)注的項目：一個是建造30 PB存儲集群用于存放視頻數(shù)據(jù)，另一個是開源全雙工音頻基礎(chǔ)模型hertz-dev。這兩個項目分別對應(yīng)了FDM-1所需要的兩個關(guān)鍵能力：大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)。

盡管FDM-1現(xiàn)在還遠不是一個可用的產(chǎn)品，缺乏指令跟隨能力和公開標(biāo)準(zhǔn)化基準(zhǔn)測試結(jié)果，但它在連續(xù)控制任務(wù)上的獨特優(yōu)勢以及提出的技術(shù)路徑仍然值得關(guān)注。未來，F(xiàn)DM-1代表的路線和視覺語言模型代理路線最終可能會趨于融合，兼得兩種路線的優(yōu)點。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

舊金山四人團隊另辟蹊徑：用千萬小時視頻訓(xùn)練出通用計算機操作新模型