深圳新聞網(wǎng)2026年1月21日訊(記者 王睿)近日,星塵智能與清華、港大、MIT聯(lián)合提出基于對(duì)比學(xué)習(xí)的隱空間動(dòng)作預(yù)訓(xùn)練(Contrastive Latent Action Pretraining, CLAP)框架。這個(gè)框架能夠?qū)⒁曨l中提純的運(yùn)動(dòng)空間與機(jī)器人的動(dòng)作空間進(jìn)行對(duì)齊,也就是說(shuō),機(jī)器人能夠直接從視頻中學(xué)習(xí)技能。相關(guān)研究論文已上線arXiv。
長(zhǎng)期以來(lái),機(jī)器人學(xué)習(xí)面臨著一個(gè)令人頭疼的“數(shù)據(jù)饑荒”難題:互聯(lián)網(wǎng)上有著數(shù)以億計(jì)的人類行為視頻,但專門(mén)用于訓(xùn)練機(jī)器人的數(shù)據(jù)卻寥寥無(wú)幾。這種數(shù)據(jù)不對(duì)稱現(xiàn)象的根源在于,收集機(jī)器人操作數(shù)據(jù)需要昂貴的硬件設(shè)備、專業(yè)的操作環(huán)境,以及大量的人工標(biāo)注工作,成本高昂且效率低下。相比之下,人類行為視頻數(shù)據(jù)雖然豐富,但由于視覺(jué)表征與機(jī)器人動(dòng)作空間之間存在巨大的語(yǔ)義鴻溝,傳統(tǒng)方法難以有效利用這些資源。
現(xiàn)有的潛在動(dòng)作模型(Latent Action Models)試圖利用視頻數(shù)據(jù),但往往會(huì)遭遇“視覺(jué)糾纏”(visual entanglement)問(wèn)題——模型學(xué)到的更多是與實(shí)際操控?zé)o關(guān)的視覺(jué)噪聲,而非真實(shí)的操控技能。
CLAP框架的核心創(chuàng)新正是解決了這一長(zhǎng)期困擾業(yè)界的技術(shù)瓶頸。該框架能夠?qū)⒁曨l中提純的運(yùn)動(dòng)空間與機(jī)器人的動(dòng)作空間進(jìn)行對(duì)齊,有效避免了以往潛在動(dòng)作模型中普遍存在的"視覺(jué)糾纏"問(wèn)題。通過(guò)對(duì)比學(xué)習(xí),CLAP 將視頻中的狀態(tài)轉(zhuǎn)移映射到一個(gè)量化的、物理上可執(zhí)行的動(dòng)作碼本上。
研究團(tuán)隊(duì)基于兩種VLA建模范式進(jìn)行訓(xùn)練:其一是 CLAP-NTP,一種自回歸模型,在指令跟隨與對(duì)象泛化方面表現(xiàn)突出;其二是 CLAP-RF,一種基于 Rectified Flow 的策略,面向高頻率、精細(xì)化的操控。
這一技術(shù)突破的實(shí)際意義體現(xiàn)在多個(gè)層面。首先,從數(shù)據(jù)利用效率來(lái)看,CLAP框架使得機(jī)器人能夠從YouTube、抖音等平臺(tái)上的海量視頻中學(xué)習(xí)技能,極大擴(kuò)展了可用訓(xùn)練數(shù)據(jù)的規(guī)模。其次,從成本效益角度分析,這種“看視頻學(xué)技能”的方式顯著降低了機(jī)器人技能獲取的門(mén)檻。
此外,該框架還解決了機(jī)器人學(xué)習(xí)中的一個(gè)關(guān)鍵技術(shù)挑戰(zhàn)——知識(shí)遷移問(wèn)題。通過(guò)知識(shí)匹配(Knowledge Matching, KM)正則化策略,CLAP有效緩解了模型微調(diào)過(guò)程中的災(zāi)難性遺忘現(xiàn)象,確保機(jī)器人在學(xué)習(xí)新技能的同時(shí)不會(huì)丟失已掌握的能力。大量實(shí)驗(yàn)表明,CLAP 顯著優(yōu)于強(qiáng)基線方法,使得從人類視頻中學(xué)習(xí)到的技能能夠有效遷移到機(jī)器人執(zhí)行中。
從產(chǎn)業(yè)應(yīng)用前景來(lái)看,CLAP框架的長(zhǎng)期價(jià)值不僅在于技術(shù)創(chuàng)新,更在于其對(duì)機(jī)器人產(chǎn)業(yè)化進(jìn)程的推動(dòng)作用。當(dāng)機(jī)器人能夠通過(guò)觀看視頻快速掌握新技能時(shí),企業(yè)部署機(jī)器人的成本和周期將大幅降低,這有望加速機(jī)器人在服務(wù)業(yè)、制造業(yè)等領(lǐng)域的規(guī)?;瘧?yīng)用。
論文標(biāo)題:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
論文地址:https://arxiv.org/abs/2601.04061
項(xiàng)目地址:https://lin-shan.com/CLAP/#