在具身智能領域,資本正加速涌入,但行業卻面臨“能執行卻不智能”的困境。這一問題的核心并非算法或硬件的不足,而是高質量訓練數據的極度短缺。據統計,全球可用的具身數據僅約五十萬小時,與大語言模型所需的訓練語料相比,差距超過萬倍。這種巨大的落差,正催生出一個全新的數據基礎設施市場。
四月十六日,智元機器人旗下的覓蜂科技宣布推出一站式物理AI數據服務平臺,正式以“數據賣鏟人”的角色進入萬億級市場。與此同時,京東和戴盟機器人也公布了各自的數據基建布局,具身智能賽道的競爭焦點迅速轉向數據供給能力。覓蜂科技CEO姚卯青在發布會上表示,當前國內真機數據采集的市場價格已飆升至每小時五百至一千元,需求端幾乎處于“有多少買多少”的極度緊缺狀態。
為緩解這一供給瓶頸,覓蜂科技推出了覆蓋真機遙操、無本體采集與仿真數據的全范式平臺,并發布了MEgo系列采集硬件,包括專用夾爪和頭戴式設備。根據規劃,覓蜂科技將在今年內實現千萬小時級的數據產能,并力爭到2030年達到百億小時規模。姚卯青強調,盡管覓蜂科技脫胎于智元機器人,但其運營完全獨立,智元獲取數據也需通過市場渠道,與其他客戶遵循相同的商業條款,以消除同行對數據壟斷的擔憂。
隨著大廠的入場,數據基建的規模化進程正在加快。京東展示了其具身智能數據體系,覆蓋從采集、存儲、標注、訓練、評測到仿真與測試的全鏈條,依托其遍布全國的倉儲物流和多元線下場景,構建了真實環境下的數據優勢。戴盟機器人則發布了包含觸覺信息的全模態數據集Daimon-Infinity,預計年內規模將達數百萬小時,并率先在阿里魔搭開源一萬小時數據。百度智能云也在月初聯合多家企業推出了“具身智能數據超市”。
然而,布米普特拉北京投資基金管理有限公司的分析師指出,超過九成的采集數據因重復、噪聲或缺乏物理反饋而難以直接使用。真正稀缺的并非原始數據量,而是高價值數據的精煉與閉環迭代能力。隨著數據基礎設施成為具身智能的底層命脈,誰能率先建立高質量數據供給體系并掌握生態主導權,誰就能在這場萬億級競爭中占據先機。圍繞數據定義權的競爭,才剛剛開始。






















