浙大葉琦:建立機器人 Benchmark,為算法提供公平“競技場”
五年前,在浙大控制科學與工程學院一間會議室里,剛從劍橋微軟研究院回國的葉琦,向課題組描繪了她的長聘故事:五年之后,她希望把機器人拉來答辯會現場,由機器人為在座評委們逐一端茶倒水。
機器人、靈巧手、端茶倒水,這在當時還是一個頗有難度的研究任務。非機器人科班出身的葉琦,面臨著跨界探索的挑戰:她此前從未研究過機器人,還得從頭開始學新知識,“再當一回博士”。
在此之前,她一直沿著計算機視覺路徑開展研究。2008年本科畢業于北京師范大學后,她前往清華大學讀研,2014 年進入英國帝國理工學院攻讀博士學位。博士期間,她在學術頂會上分享的手勢識別相關工作,讓她得到了一位學術大牛 Jamie Shotton 的盛情邀約。
Jamie Shotton 彼時擔任劍橋微軟研究院微混合現實與人工智能實驗室負責人,他邀請葉琦前往研究院進行交流。還未意識到這是一場面試的葉琦,在輕松的交談氛圍中與團隊聊得很是投緣,直到最后,她才發現原來是“招賢令”。
在與 Jamie Shotton 1v1 的飯桌上,葉琦有些拿不準究竟是加入微軟團隊,還是回到學術界做科研。葉琦面對著 Jamie Shotton,一個她讀研時常看的論文作者;還有一位中途臨時加入飯局的 Christopher M. Bishop,是經典教材 Computer Vision and Pattern Recognition 的作者,這兩人都是她大為敬佩的前輩。
能夠與讀書時候就一直欽佩的學術大拿們共事,而且還是她當時看好的技術方向——MR/VR 技術,她心中的天平開始向著微軟研究院傾斜,“不管三七二十一,先去干兩年再說。”葉琦隨后加入 Jamie Shotton 團隊。
彼時 MR/VR 技術升溫,數百企業開始涉足相關領域,AR 眼鏡、頭顯設備涌現。2019 年,微軟發布的第二代 Hololens headset 頭戴 MR 設備,正是由葉琦所在的的團隊所負責 。葉琦深度參與了 Hololens2 手勢跟蹤算法的開發,后來也參與到數字人研究。
一年多后,因為更熱愛自由探索前沿技術,葉琦選擇回到浙大任職。浙大給予她充分的自由,讓她能夠自行選擇研究方向。最終,葉琦選擇轉向機器人領域,聚焦于靈巧手研究,為此,她也做好了“惡補”一番的準備。
只是她沒想到,機器人領域突然升溫,此前稍顯冷清的靈巧手領域,一下子涌進許多聰明腦袋。她留意到,靈巧手的研究進度明顯在加快。2024年,她們課題組一篇關于靈巧操作的論文剛被 ICRA 收錄,博士生還未來得及推進下一步,一篇基于他們工作的新論文很快投稿到 2025 IROS 并掛在 arxiv 上,“太快了,馬上就有人把我們計劃做的工作給做了。”
而原先頗有挑戰的課題任務,隨著大模型的發展以及技術的不斷磨合,開始變得有些輕松了。
這在此前是難以想象的。當初葉琦轉向靈巧手時,她一度苦惱于這一領域形同荒地開墾。一面,她作為新人,得和學生一同學習機器人知識、解決問題;另一面,五爪相關研究較少、研究者也少,意味著一篇文章能有的引用量上限并不會太高。
之所以選擇迎難而行,是因為看見機會。計算機視覺出身的葉琦,曾目睹過計算機視覺、計算機圖形學的融合,新技術方向隨之而生,3D 領域的論文也由此成為頂會常客。彼時她堅信,未來機器人與計算機視覺、計算機圖形學會融合在一起,催生出一個新領域,歷史將再度重演。
葉琦的預言在當下得到了驗證。具身智能熱潮下,不同學科背景的人陸續匯聚在新的交叉口上,影響開始顯現。例如,原先機器人領域缺乏統一標準,難以衡量工作好壞、復現他人代碼,更別提在他人工作基礎上進行迭代。現在,不少原計算機視覺、圖形學的人才加入具身智能社區,和機器人領域的研究者們一起開始搭建屬于機器人領域的“Benchmark”,推動著機器人邁向更為開放的社區。
今年 1 月,葉琦課題組發布并開源了大規模靈巧手抓取動作數據集 GraspM3。它包含超 100 萬條抓取軌跡,涵蓋 8000 多個物體,軌跡自然流暢,有詳盡語義標注,且經兩個仿真環境驗證,為機器人抓取研究和應用提供了全面的數據資源。
兩天后,葉琦又在社交平臺上推出了視觸預訓練與靈巧操作的數據集與基準。她們收集了 10 個人類操作的日常任務與 182 個物體視覺-觸覺數據集,還提出了一種新穎的基準用于檢驗工作效果。這一工作也將會陸續開源。
“等所有代碼、平臺開源之后,靈巧手整個領域,大家的進入門檻會低很多。”葉琦告訴 AI 科技評論。
談及研究目目標,葉琦希望實現的核心是:讓任何配備觸覺傳感器或其他傳感器的靈巧手,都能自主完成各類操作任務。她的研究聚焦于靈巧操作的智能化技術,較少涉及硬件設計本身。
以下是 AI 科技評論與葉琦的交流。
正因為難,才要做靈巧手
AI 科技評論: 你的研究興趣非常豐富,是在本科階段就對計算機視覺、圖形學與機器人交叉領域產生興趣了嗎?聊聊你的研究 經歷吧。
葉琦: 大四時,我接觸了圖像處理相關課程,發現圖像處理與其他領域有所不同,它能給予明確反饋,像算法優劣、圖像去噪效果以及高斯平滑算子應用于圖像后的成效等,你所做的任何工作都可以直接獲得反饋與對比,我覺得還挺有趣,所以從本科畢設開始做的就是圖像相關。
在清華讀研期間,研究方向依舊與圖像相關,導師專注于數字手寫、數字字符識別領域。本科及碩士階段,我側重于圖像處理中的算法與算子研究,例如經典的 SIFT 算子,主要從改進算子的角度去探究問題。到博士階段,我從事手勢跟蹤研究,通過圖像或深度點云來恢復手的三維骨骼,這對人機交互意義重大,如今 Meta、Apple的頭顯設備中,手勢跟蹤不可或缺。此外,博士工作還涉及人工提取特征,運用隨機森林開展,我的博士課題則圍繞深度神經網絡進行研究。
后來,我前往微軟亞洲研究院實習,實習內容也是圖像相關,側重安全方面。大家會看到部分網站利用含有歪歪扭扭字符的圖片來防范惡意訪問。這些字符設計目的是讓機器無法識別,卻可被人識別。我們的研究旨在探究這樣的設計機制是否真的能防止機器自動識別,為此我們嘗試對圖片進行分割、分析,再交由OCR引擎識別,看它的安全性、魯棒性表現如何。
AI 科技評論: 你離開微軟后加入浙江大學,從產業界轉向學術 界,是出于什么考慮?
葉琦: 在劍橋微軟研究院工作時,正值疫情期間,一個人在劍橋呆著挺孤單,加上家人都希望我回來。
另外,去了工業界后發現,做產品與開展前沿技術研究之間存在很大的 gap。產品落地會涉及很多工程化問題,過程中需要解決大量難題。雖然劍橋微軟團隊非常好,但工作內容更偏向產品側一些,難以完全自主地去做研究。在公司里,研究方向往往由高層決定,但我特別喜歡自己去深入鉆研,只要覺得特別有意思的,我就特別想去做。但在公司里并沒有這樣充分的自主決定權,可能還得向領導論證你所選的方向,說服他們認可其可行性及落地可能。
經過這些體驗,我發現自己更喜歡在高校從事研究工作。我進入浙大后,并沒有人告訴我你要做什么方向,我可以根據自己的興趣來進行研究方向的選擇。
AI 科技評論:你自己選擇了機器人領域?
葉琦: 是的。
AI 科技評論:為什么決定轉向機器人?一個看似和你此前研究經歷并不太相關的方向,是看到什么新變量嗎?
葉琦: 我進微軟前,CV(計算機視覺)和 CG(計算機圖形學)相對而言是兩個不同且方向相反的學科,很少交集。CV 旨在從視覺角度理解并重構物理世界;而 CG 則是假定存在一個虛擬世界,去給它做渲染,基于成像原理計算出一個物理世界圖像。
那時候這兩個學科基本不會融合于同一領域,但在2018、2019年參加 CVPR 時,我看到一篇論文將圖像渲染過程設為可微(differentiable)過程,當時我就跟導師探討,覺得未來 CV 和 CG 會融合成一個方向。
CG 研究的是從模型到圖像,以往采用光線追蹤(Ray Tracing)等方案,因其各種復雜計算過程,不一定是非常好的可微可導,導致難以實現從圖像到模型,再從模型到圖像的回環。
舉個例子,用手勢圖像重構出三維手勢,再將該三維手勢渲染回手勢圖像,以往這一過程可能是割裂的。以前要評價一個重建的三維模型好不好,靠的是人為標注數據。后來部分工作將三維模型渲染回圖像的過程變為可微過程,這樣一來,渲染圖像就能夠直接與輸入圖像對比,不一定需要人力標注。
通過這一過程,可以實現從視覺推理三維世界、再從三維世界渲染回圖形,也就是完成 2D 到 3D、3D 到 2D 的回環。畢竟有正過程與逆過程之分,CV 與 CG 天然具備共同研究的基礎。以前 CV、CG 領域各自為政,較少邁進彼此的領域,但現在可以看到一個二者共同參與的新興研究領域。
例如,隨著可微渲染和后續NeRF等工作出現,整個三維視覺領域蓬勃發展起來。觀察 CVPR 這類頂會的論文投稿量便能發現,過去以 Segemantation(分割)、Tracking(跟蹤)、Classification(分類)為主,近五年則變成了三維重建、新視角渲染等 3D 相關話題,還包括當下熱門的憑幾張圖片直接重建或者生成一個三維場景的研究。
鑒于不同學科、底層技術的新融合會催生出新的研究方向與結合點,當時我覺得這或許是個機會。基于過往經驗,我轉入機器人領域,就是因為預見機器人未來會和 CG、CV 相融合,就像當初 CV 與 CG 融合一樣。
所以我經常跟我的學生講,我是在圖形學、機器人以及視覺的交叉方向上開展研究,這三個領域是相互貫通 的。
AI 科技評論:機器人領域有很多方向,為什么偏偏是靈巧手?
葉琦: 當時選擇研究靈巧手時,我心里也有些打怵、不太確定。在2020、2021年前后,雖然世界上也有一些做靈巧手的機構,但遠不像計算機視覺領域那般熱門。當時做“二指夾爪”的單位不少,但著手做“五爪”的卻非常少,而且那時機器人領域整體也尚未大熱。
我走訪了很多企業進行調研,以按摩機器人為例,每進行一項按摩操作,可以更換不同按摩頭;在工業分揀應用方面,二指夾爪不行時就換個吸盤,靠著二指夾爪與吸盤的相互配合,基本上就能完成大部分工作了。
既然如此,我當時就一直在問自己一個問題:既然二指夾爪就能抓起很多東西,那我們為什么還要去做靈巧手?是不是為了解決問題而解決問題、為了難而難?
因為高自由度的靈巧手,其操作難度相當于五個機械臂協同工作,這么難的問題并沒有受到廣泛的關注。當時我之所以決定研究機器人靈巧手,正是因為它還沒有被很好解決,而且很少有人去鉆研,我覺得這其中還有很多問題待攻克,于是便開始研究。說實話,我當時也沒看到它有多大的價值。
AI 科技評論:選擇去解決困難的問題,這需要坐冷板凳。
葉琦: 對我們而言,這冷板凳也不是那么好坐。五年前我剛進入浙大時,給我們課題組描繪的愿景是:五年之后,我會拉來一個機器人,讓它給在座的各位評審們端茶倒水。但我此前沒有機器人研究基礎,這相當于我要從頭開始鉆研機器人,其難度不亞于再讀一回博士。
建立機器人 Benchmark 很有必要
AI 科技評論:從你深耕的原研究領域跨界到新研究方向,這個轉型過程中,在知識體系重構、研究方法適配等方面,有遇到哪些超出預期的挑戰嗎?
葉琦: 肯定是有挑戰的。如果我繼續深耕原來的研究方向,那我還能夠持續發論文。可一旦轉換到新領域,我要和學生一同成長,那這一兩年的時間里,我或許就無法產出論文,或者相比同齡人而言,產出速度會慢一些。
像我以前從事視覺領域,我很少接觸強化學習以及機器人硬件相關內容。而轉向機器人領域后,我得跟學生一起 debug(解決問題)。我經常跟我學生說,在這個新方向上,我不懂,你們也不懂,那我們就一起學。這個過程并不輕松,壓力巨大。
例如,購置機器人設備并不像買服務器那般簡單,我們從英國采購一臺機械手,光買設備這一環節可能都得耗時一兩年;建設實驗室更是要完全從零開始,哪怕是購買每一個傳感器,都會與自己的學生一起討論。前期要投入大量精力與資源,到了后期,要讓自己盡量不被其他人影響,得時刻提醒自己,這沒什么問題,我所選擇的是新方向,要允許自己和學生在這段時間內即便沒有成果產出,也要去大膽嘗試一些新事物。
對學生而言,轉向機器人領域的過程同樣會給他們帶來壓力。機器人領域與視覺領域并不同。在視覺領域,大部分視覺算法的代碼都是公開的,不僅有源代碼,而且平臺也搭建好了,各項參數都已調試妥當,只需從 GitHub 上把代碼下載過來,就能直接運行,隨后在其基礎上做些修改就可以。不少學生覺得,那我做計算機視覺相關工作,就不用調試硬件,自己只需要在別人已經完成的基礎工作上接著做就行。
AI 科技評論:在這種壓力下,五年前你向學院課題組提出的讓“機器人端茶倒水”的任務難度會不會很高?
葉琦: 其實沒那么難,當時我想的是,五六年時間,我應該能夠達到預期程度。但我沒想到機器人操作突然會這么火。如今火了之后,發展速度確實加快了,尤其是這兩年的發展,讓我覺得這件事變得更加簡單了。
AI 科技評論:怎么理解這種簡單?
葉琦: 因為有很多人在做。之前我研究五爪時,整個 Community (社區)中做相關工作的人相對較少。人少,大家推進的速度就慢。現在人多了,速度也就快了。
比如我們 2024 年在 ICRA 發表的一篇論文,很快就有人據此開展工作并投稿至 2025 年 IROS。因為我博士生忙于其他事務,本想讓他順著該論文繼續后續工作,沒想到論文剛發表就有人 follow 了,把我們 2025 年計劃做的事做了。說明這個領域真的匯聚了很多聰明的腦袋,大家一起在推動這個領域向前發展。
隨著 VLA、多模態大模型等技術發展,不少人嘗試技術融合,進行上層平臺、基礎模型相關工作。我們取得底層技能突破后,將上下層能力結合時,我發現不用再從頭做上層工作,已經有不少的工作可作基礎,讓我們省力不少。我們把所做的數據集開源,對他人而言,也省去了從頭收集數據的麻煩。
等代碼、平臺全部開源后,靈巧手領域的進入門檻會大幅降低。此前我會覺得五六年實現端茶倒水任務較難,但經過這幾年發展,你會發現它變得容易多了。
AI 科技評論:你提到靈巧手的發展加快,有人表示靈巧手在過去很長一段時間里一直沒有什么實際性進展,現在也還有很多問題沒突破,比較悲觀,并不看好靈巧手的發展。你怎么看待這一觀點?
葉琦: 有悲觀的聲音很正常,但我覺得技術的發展并非線性過程,而是經歷轉折點后迎來爆發式發展。
為什么靈巧手在過去幾十年間發展緩慢?一方面,靈巧手的硬件研發難度高,相當于要將五個機械臂集成于狹小空間內。硬件機械結構高度集成化,能否實現高自由度是個難題。現在靈巧手多是5、6個自由度,也有一些宣稱十幾、二十個自由度的靈巧手,但我還沒接觸到。在我們經費可承受范圍內,目前還難以買到非常好用的靈巧手,而我們的研究又依賴于本體。沒有硬件基礎,那研究基本無從談起。
另一方面,近年來圖形學領域中關于人手操作生成的工作數量不少,而操作生成離不開對于手的數字化描述。Michael J. Black 團隊 2017 年提出了針對手的參數化描述—— MANO 模型。可以看到,即便在純圖形仿真層面,這樣高質量且便于使用的開源手模型,也是直至2017年才提出。
此外,以往采用模型預測控制(MPC)等傳統控制優化算法來求解,這需要對手進行精確建模,涉及摩擦、運動等方面,操作難度極大。即便完成建模,相關技能也很難泛化到其他場景,對應的研究方法較少。如果你說傳統方法不好,轉用強化學習,這也可以,但問題是強化學習需要訓練場,即一個可交互的三維虛擬世界。然而要創建這樣一個虛擬世界也不容易,需要借助仿真平臺。
總體而言,算法方面存在限制,若采用更先進的學習算法,又得依賴于仿真平臺和圖形處理器(GPU)。過去,從算法到機械本體,再到軟件平臺,各方面都存在不足,導致導致靈巧手很難取得良好發展。
現在人形機器人火熱,國家也在積極推動,從政策扶持到經費撥付,都給了有力支持 。經費往這一方向傾斜,促使我們的研究也更側重這塊領域,相當于吸引了更多人才投身其中。今年,我們還與機械系老師共同申請了浙江省相關項目,就是研究靈巧手。
隨著大模型的進步、硬件的優化,加上 3D 生成技術能夠為我們提供訓練場,我覺得用不了多久,只需給定語言輸入,便可生成任意廚房的排布情況,這相當于為機器人提供了訓練場,能讓數百個機器人在數百個廚房里高速并行計算與探索。如今看來,這個問題似乎也沒有那么難了。
AI 科技評論:聽起來靈巧手領域出現了不少新變量,正在重構行業。
葉琦: 我看好靈巧手方向。雖然在未來五年內,想要妥善解決靈巧手相關問題有些難度,但我個人秉持樂觀態度。
受益于機械本體的不斷進步、大模型的蓬勃發展、3D生成技術的日益成熟,再結合強化學習以及諸多底層能力的集成,在未來 5 到 10 年,靈巧手會是一個極具 promising(發展前景)的方向。在一些限制性場景下,針對部分特定需求,機器人是能夠完成大部分操作的,比如疊衣服這類任務,肯定是能實現的。
然而,要想在十年內讓機器人實現與人并排行走,并且可以在非結構化的空間中自由地與人交互,我認為會有挑戰。但若是極為常規化的工作,像把碗放置到池子里,或者將瓶瓶罐罐擺放整齊,我覺得機器人是能夠做到的。
AI 科技評論:作為一名跨界研究者,哪些底層理論或方法論的遷移讓你產生了新理解?原領域的思維慣性有帶來哪些新視野嗎?
葉琦: 原先機器人領域存在一個問題,大家的硬件系統并不一樣,也沒有公開統一的 Benchmark、數據集和評測標準,沒法很好對比不同算法。過往研究往往局限于單一問題,通過采集小規模數據、針對特定任務展開,完成后就結束了,難以客觀評價算法優劣。多數情況下,就是用一個實物機器人去做一個demo,去跑一跑,看著效果還不錯。
但就我自己來看,我的東西和別人的東西雖然看起來差不多,但我很難知道哪個更好。
當我從視覺領域轉向機器人研究時,我會覺得很奇怪,因為視覺領域會有公開的 Benchmark,能夠衡量算法好壞,也有大量數據集可以做 Learning,但機器人沒有。機器人本體異構性是該領域獨特的挑戰。
盡管如此,這一兩年里,你可以看到無論是學界還是產業界,都在著力構建數據集、VLA及公開平臺,試圖將分散的數據集整合統一平臺,降低使用門檻。
從計算機視覺領域跨界而來的研究者,正將“視覺方法論”引入機器人領域:建立公開 Benchmark、共享平臺以及標準化評測任務,讓大家能夠基于此開展評測,可以更直觀比較算法優劣。在這一基礎上,機器人領域才能夠更好地快速發展,不然會很難復現別人的代碼,也就沒法在上面持續迭代優化。
堅持人類視頻數據采集路線
AI 科技評論:聽說你們在數據集的構建上有很多創新性突破,你們最初設計數據集的核心動機是什么?
葉琦: 我們很早在做數據集,GraspM3 數據集的生成算法在 2024 年 ICRA 上發布了。ICRA24 的工作提出,主要是因為發現現有的抓取動態動作的數據在數量和軌跡上都比較有限,所以我們想自己先做一個數據集。因為不想進行人工標注和采集,所以我們設計可以自動生成抓取軌跡算法,通過仿真獲得數據集。
我們有兩個數據集在推進中,有一個論文已經被 ICLR25 錄用。我們采集了十幾個人類操作的任務,涵蓋擰瓶蓋、插拔等二爪難以完成的復雜操作,這也是業界首次實現帶觸覺的靈巧手操作數據。基于這一數據,我們訓練了 6 個任務,能實現兩個靈巧手間物體拋接、擰瓶蓋、傳遞薯片等任務。
通過我們初步的帶有視覺、觸覺的訓練數據集,經過預訓練后顯著提升對下游任務的執行效果。在完成上述復雜操作任務時,當前成功率已經能達到 80%。關鍵是,我們沒有采用任務的supervision,只使用了 MAE 自監督方式去學習,發現學習出來的 attention 機制可以直接注意到手指接觸物體的瞬間,比如注意到手指打開盒子時的那一瞬間。我跟學生說這太牛了,我壓根沒想到居然可以學習到這種程度。
AI 科技評論:這個現象為什么讓你這么詫異?
葉琦: 我們對比的只有視覺,沒有觸覺。以何凱明的 Masked Auto Encoder(掩碼自動編碼器)工作為例,通過預訓練可以助力下一個工作,但如果沒有觸覺信號輔助監督,是根本不會 attention 到物體將要發生變化的區域,也不會 attention 到手指的區域。我們沒有引入任何監督信號,只是做了個多模態的自動編碼器(Autoencoder,AE),也只有一個圖像和觸覺信號,沒想到實驗效果非常出乎意外。
我最近在看腦認知領域的一些工作,發現人腦也有類似機制:通過神經元將人的動作與觸覺、視覺進行聯合處理。而我們的研究表明,引入觸覺模態后,網絡能夠自動集中在物體動態區域,并且我們都沒有用多幀、只是單幀形式。從實驗情況來看,這與神經科學中的部分理論形成了印證,這也是我自己在這些工作中感到很驚喜的瞬間。
也是因為這些成果,讓我們更加堅定要走這條路,從觸覺-動作態關聯入手,通過視頻采集更多人類操作數據,逐步推進上半身及全身操作的工作。
AI 科技評論:從你們之前發布的靈巧手操作視頻中可以看到物品抓取流暢,這項工作主要是解決什么問題?
葉琦: 主要是解決靈巧手抓取異形物體的難題。以抓取杯子為例,人類習慣手持杯柄,而現有靈巧手 demo 中大多抓取杯身;抓取高腳杯時,人類傾向于握持底部,靈巧手依然還是抓杯身,它抓底部可能就握不穩了。
靈巧手的抓取與二爪可能有點像。反觀工業領域的二指夾爪技術,上海交通大學盧策吾教授于 2020 年發布的 GraspNet-1Billion 數據集,已經實現對各類物體抓取策略的全覆蓋,能夠解決工業領域大部分“拾取-放置”(pick and place)工作。二指夾爪相關工作,盧老師已經做得很好了。
未來人形機器人的操作,無論是二爪還是五爪,重點其實不在 pick and place上,而是 pick 之后要去完成某個任務,比如把杯子抓起來后,還能遞給別人,或者是能夠在一些比較挑戰的區域把物體順滑抓起來。這不是簡單“拾取與放置”,得去服務于特定目標。
我們希望通過我們這一數據集實現靈巧手對物體難握區域的流暢抓取。純粹依賴強化學習策略,只是將物體抓起來。因為動作行為是由 reward 機制驅動,難以精準定義一個“優雅抓取”的動作特質(如目標抓取方位等),也就難以設計一個獎勵機制。
為此,我們數據集的構建方法是:通過靜態抓取手勢,比如我知道大部分人是抓取杯子把柄,那最后我生成軌跡就是針對這一行為生成動態手勢,讓靈巧手的操作更符合人類的自然抓取習慣。
AI 科技評論:在構建數據集時,你們優先采用的核心數據采集策略是什么?更側重真實場景實操采集、仿真環境批量生成,還是虛實結合的混合方案?
葉琦: 遙操作獲取數據是有價值的,但我認為比較便捷的數據來源還是人類自身行為數據。這基于兩點依據:其一,以 GPT 為例,其核心能力源于對人類問答數據的學習,先通過大規模人類數據訓練,再借助強化學習優化 reward 機制。同理, 我認為要賦予實體機器人或人形機器人以通用操作能力,其數據也應該是來自于人類。
其二,遙操作依賴人類操控機械臂采集數據,盡管數據質量高,但成本太昂貴了。像馬斯克一套采集設備可能都得幾十萬、一百萬,而一個工廠里可能需要幾百套設備,按每小時 50 美元的人工成本計算,開銷巨大。
盡管未來硬件可能降價實現降本,但遙操作多采用二爪或五爪機械臂,數據遷移時會面臨操作末端的異構性問題,要進行動作數據重定向。如果人手可視為一種抽象的異構機械臂,為何不直接從人類行為數據中學習?通過視頻采集人類操作,既能以更低成本獲取海量數據,又能支持大規模訓練,為機器人注入通用能力。
我的研究思路是:不一定通過機器人遙操作數據采用 VLA 方式,而是通過解析人類視頻信息(如動作軌跡、觸覺位置)提取操作先驗,將其與機器人自主探索訓練相結合。例如,通過視頻重建操作場景、定位人手運動軌跡,這些是能直接訓練機器人的數據。具體而言,機器人技能訓練分為兩個部分:一是通過強化學習優化靈巧手底層控制策略,提升執行精度;二是從視頻中重建場景,理解人類在真實場景中的操作邏輯。
我們的數據集價值在于實現“無遙操作的人類經驗遷移”,直接從視頻中最大程度提取人類經驗學習,再結合仿真環境進行技能校準與泛化。這一思路也符合人類學習本質:并非別人的動作是什么,我們觀察后每一步都能做到精確復現(我們也無法精確復現每一步)。就像小孩學習,媽媽先通過演示教一遍,后面還是小孩自己一步步與環境交互后逐漸掌握技能,要是沒抓住東西掉了,那就再抓緊一點。
AI 科技評論:盡管基于視頻的視覺模仿學習在效率上有著顯著優勢,但現在可以看到很多企業還是會選擇通過遙操方式進行數據采集。
葉琦: 我覺得選擇遙操方式是他們壓力所在,遙操可以直接通過監督學習快速得到一個不錯的操作demo。一開始我們課題組有老師專門做遙操,我嘗試后發現遠程操控靈巧手抓取物體很難,更別提大規模高效地采集類似擰開瓶蓋等任務。我發現這條路線搞不動,馬上就放棄了,決定轉向視頻數據采集。
我去參觀一些企業時,體驗了他們的遙操作系統,我發現需要來來回回操作好多次才能把物體抓起來、放下去。 一個人經過訓練后可以快速上手,但如果未經過特定培訓,一個簡單的“抓取-放下”動作,一分鐘都不一定能夠完成。
AI 科技評論:相較于遙操作,通過視頻獲取人類學習數據時,主要面臨哪些獨特的技術難點?
葉琦: 如果是有每一步的動作數據,算法相對會更直接一些。視頻數據肯定是沒有那么精確的,會有噪聲,沒法直接做 VLA 模仿學習,從這一層面看,算法挑戰會更大,但它帶來的潛力也可能會更大,因為它更便宜,規模量可以上去,而且更自然。
我不知道最后是 VLA 更強,還是從人類視頻學習路線更強,因為 VLA 也可以迭代,剛開始是采集小數據,特別是對工業界來講,可以先在一些有限場景里操作起來,后面通過批量賣出機器人,能利用采集回來的更多數據進行訓練。但對于高校研究而言,沒法在工業里實現數據迭代。不過這兩條技術路線在未來是可以融合在一起,相當于低質量數據與高質量數據相結合。
雷峰網 (公眾號:雷峰網) 雷峰網雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。