米兰·(milan)中国官方网站-北大卢宗青团队新作:超 70% 实机成功率,支持语言指令的功能性抓取系统
于呆板人研究中,抓取这一看似基础的问题正于成为决议上层智能能走多远的要害变量。今天的年夜模子已经经可以或许理解语言、阐发图象、计划使命,但于与世界发生真正物理接触的那一刻,智能体系仍旧显患上拙笨。
现有抓取研究年夜多逗留于不变性层面,只要能夹住、不失落,即视为乐成。然而于人类的一样平常勾当中,抓取从来不是目的自己,而是功效举动的出发点。端起杯子是为了倒水,握住锤柄是为了敲击,按住喷壶的扳机是为了喷洒。也恰是于这一层意义上,功效性抓取比不变抓取更靠近真实世界的智能。
难点于在,功效性抓取其实不是简朴的几何问题,而触及对于物体布局、用途、操控部位以和抓取方式的综合理解。特别于灵巧手体系中,上百维的节制空间与繁杂的接触动力学叠加,使患上传统强化进修要领难以取患上有用进展。怎样让呆板人自立进修到功效相干的抓取位置与适合的抓取姿态,一直缺少体系而可验证的解决方案。
于这一配景下,北京年夜学卢宗青团队于论文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一种名为DemoFunGrasp要领,对于功效性抓取举行了从头建模。
研究团队将存眷点从纯真是否捉住物体,晋升到怎样缭绕物体的详细功效举行抓取。他们把功效相干的位置以和抓取时所采用的姿态气势派头纳入到同一的进修框架之中,使功效方针直接介入到计谋优化历程中,并于年夜范围仿真情况及真实呆板人平台上对于这一框架举行了体系验证,并取患了于仿真与真实场景中均体现不变、乐成率跨越70%的功效性抓取效果。

论文地址:https://arxiv.org/pdf/2512.13380v1
从「抓患上住」走向「抓患上对于」这项研究的试验起首证实了一个焦点结论:研究团队所提出的DemoFunGrasp要领可以于年夜量差别外形、差别功效、差别抓取气势派头的物体上,实现可控的、语义明确的功效性抓取,并且不仅于仿真情况中有用,还有可以或许直接迁徙到真实呆板人平台上。
论文的第一个主要试验成果,是于年夜范围仿真情况中取患了较高的抓取乐成率。研究者于IsaacGym中构建了包罗三千多个差别物体的情况,这些物体来历在DexGraspNet及YCB数据集,外形差异很是显著,包括颀长物体、球形物体、带把手的容器、东西类物体等。
于这些场景中,呆板人被要求于指定功效前提下完成抓取,例如捉住杯子的把手、捉住喷壶的扳机位置或者捉住东西柄部。试验注解,于这类功效约束前提下,提出的要领仍旧可以或许连结较高的抓取乐成率,申明所学到的计谋不仅存眷不变性,并且统筹功效需求。

第二个主要试验成果是功效区域瞄准精度较着提高。传统抓取要领凡是只要捉住便可,而不体贴详细位置。为评价功效性,研究团队还有界说了“乐成抓取环境下,方针功效点与现实接触点的间隔”这一指标。
试验显示,DemoFunGrasp可以或许显著减小这二者之间的间隔,误差于平均程度上约莫降低到3厘米摆布,而对于比喻法往往会偏离较远,甚至抓于彻底不切合功效要求的位置上。
于详细物体上可以清晰看到这类不同,例如于锤子场景中,基线要领的抓取多集中于锤甲等不变区域,而DemoFunGrasp的接触点重要漫衍于锤柄位置,于喷壶场景中,前者常抓于瓶身外貌,后者则更多落于扳机或者握持柄部四周,总体抓取位置较着越发切近功效区域。

第三个主要试验成果是抓取气势派头的多样性与可控性。研究起首依据人类手部抓取分类系统,界说了一系列具备语义寄义的抓取气势派头,例如捏持、侧持、小直径抓等,并将其输入到计谋模子中,作为节制前提。
于抓取气势派头的多样性与可控性方面,试验起首于统一物体上施加差别的抓取气势派头前提,例如捏持、侧持、小直径抓等,不雅察由此孕育发生的抓取成果。
试验发明,统一物体于差别气势派头前提下,计谋会自动天生大相径庭的抓取姿态,而不是简朴转变极少量枢纽关头角或者举行微弱扰动,体现出较着的气势派头差异。进一阵势,将年夜量抓取姿态映照到低维嵌入空间举行可视化阐发时可以看到,差别抓取气势派头于嵌入空间中形成清楚分散的聚类,申明气势派头旌旗灯号被不变地编码并作用在节制历程,模子真正学到的是布局化、可控的抓取气势派头,而非无心义的数值颠簸。

第四个试验成果表现于真实呆板人平台上。试验中研究团队利用真实7自由度机械臂加灵巧手体系,对于一样平常物体举行功效抓取测试,包括水壶、碗、喷壶、喷鼻蕉、玩具以和各类东西。
于此场景中,呆板人只依靠摄像头图象,而再也不得到仿真中的完善状况信息。研究者没有举行分外的真实世界微调,而是将计谋直接部署于实际情况中,仍取患了跨越70%的抓取乐成率。更主要的是,呆板人不仅完成抓取举动,还有可以或许履行功效相干的后续动作,例如提起壶柄倒水、捉住喷壶扳机举行喷射等。这申明,计谋不只是“捉住就好”,而是抓于真正可以或许利用的位置。

此外,研究还有经由过程溶解试验证实设计中的要害模块都是须要的。例如,去失可供性相干奖励项后,乐成率反而略有晋升,却较着偏离功效区域,申明假如只寻求不变,会捐躯功效准确性;去失气势派头扰念头制后,乐成率年夜幅降落,注解气势派头调治对于计谋摸索具备主要意义;去失尺寸归一化后,年夜物体的进修变患上极不不变,证实思量标准一致性至关主要。这些试验配合证实,论文中提出的详细设计不仅是附加装饰,而是支撑总体机能的要害因素。


为了获得上述试验成果,研究团队设计了一条较为清楚的要领线路,这条线路的焦点思惟,就是把“功效抓取”从直觉观点酿成了建模优良的问题,然后再使用强化进修及模拟进修举行求解。
起首,研究团队于使命建模上做了很是要害的一步:它没有直接把抓取看做一个简朴的“手与物体彼此接触”的几何问题,而是明确提出,功效抓取应该由两个互补部门配合界说,即抓取的功效性位置以和抓取的姿态气势派头。功效位置用三维空间中的可供性点来描写,例如茶壶的把手位置、喷壶的扳机位置或者铰剪的握柄位置。
抓取气势派头则利用种别标签来暗示,例如捏持、环握或者侧持等。这类分化使患上功效抓取问题可以被表达为:于给定物体外形、功效点及气势派头标签的前提下,计较一个完备的抓握动作。

接下来,研究引入了演示编纂强化进修要领。传统强化进修于dexterous hand场景下很是坚苦,由于灵巧手具备二十多个甚至更多的自由度,动作空间极高,并且抓取触及繁杂的接触动力学,摸索历程轻易掉败。为此,研究团队不是让计谋从零天生整条抓取轨迹,而是先预备一条基础树模轨迹,然后让计谋进修怎样于这条轨迹四周举行修改。树模轨迹可以理解为一种“基本抓取动作骨架”,而计谋只做残差式调解。
详细来讲,计谋输出包括手段位姿的总体变换,以和手指枢纽关头角的小幅变化,这些变化直接作用在演示轨迹,获得新的履行动作。这类方式将原本需要于永劫间序列中连续决议计划的问题,转化为一次性的单步决议计划,从而年夜年夜降低了搜刮空间及进修难度。

于此基础上,研究职员精心设计了奖励函数,使计谋不仅寻求抓取乐成,还有要遵照功效约束与姿态气势派头。奖励包罗四个焦点部门:抓取是否终极乐成、抓取接触点与功效性可供性点的间隔、抓取历程中是否接近功效区域以和终极手部姿态与方针气势派头的差异。雷峰网(公家号:雷峰网)
尤其主要的是,他们还有思量到差别物体尺寸差异较着,假如直接利用欧氏间隔作为权衡尺度,尺寸年夜的物领会被不公允地处罚。是以,研究中引入了按物体尺寸举行归一化的间隔丈量方式,从而包管奖励标准一致,这使强化进修越发不变。

以后,研究进程并未逗留于状况级强化进修上,而是进一步把计谋迁徙到视觉输入空间。详细历程是,先使用上述状况计谋于仿真情况中年夜量网络乐成的抓取轨迹,包括RGB图象、手臂与手部的状况、方针功效点、抓取气势派头标签以和节制动作。
然后,将这些数据作为监视旌旗灯号,练习一个视觉计谋收集,使其直接从原始图象猜测节制旌旗灯号。这一步现实上相称在举行了一次模拟进修或者计谋蒸馏,它将“抱负信息放学患上的计谋”转化为“真实感知前提下可履行计谋”。练习历程中,作者对于光照、材质、相机位置等因素举行了年夜范围随机化,使视觉计谋不依靠特定情况特色,从而可以或许于真实世界中运行。

研究团队还有将视觉语言模子引入体系中,使呆板人可以或许从语言中理解功效性抓取要求。当用户说“捉住喷壶的扳机”或者“拿茶壶的把手”时,视觉语言模子会于图象中定位对于应的功效区域,并将其转换为可供性点作为抓取计谋输入。如许,体系构建起完备的链条:从语言理解,到视觉感知,到功效位置推理,再到灵巧手抓取节制。
当节制难题被真正降维
这项研究的意义可以从三个层面理解:抓取方针的改变、进修要领的冲破以和具身智能体系总体能力的晋升。
起首,它转变了传统呆板人抓取的方针。以往年夜大都呆板人抓取研究,只要物体被抬起、不失落,就认为使命完成。然而于人类一样平常糊口中,年夜大都抓取其实不只是“捉住”,而是“为了利用”。例如抓杯子是为了倒水,抓铰剪是为了剪工具,抓喷壶是为了喷洒。
这项研究将功效性要求明确引入抓取环节,使呆板人抓取从“几何不变性问题”改变为“与物体功效慎密相干的语义问题”。这标记着呆板人操作从纯真的物理举动向语义举动过渡,是迈向真正智能操作的要害一步。
其次,这项事情为dexterous hand的强化进修提供了新的解决路径。灵巧手具备极高自由度及繁杂接触模式,直接于其动作空间长进行强化进修往往极为坚苦,轻易堕入摸索掉败或者收敛迟缓的问题。
论文提出的演示编纂式强化进修,经由过程组织演示轨迹作为参考,将多步持续节制转化为单步残差决议计划,年夜幅降低了进修难度。这类思惟不仅合用在抓取,还有可能推广到多种繁杂操作使命,例如扭转、插接、开合等,对于整个dexterous manipulation范畴具备开导意义。
再次,论文提出的功效点+抓取气势派头表达方式,自己就是一种主要观点建模立异。它把功效抓取从恍惚观点转化为可计较、可组合、可前提节制的情势,使患上抓取计谋可以或许接管来自人类语言、使命计划器或者感知体系的前提输入。这为将来多模态呆板人体系与人类天然交互提供了基础。雷峰网
末了,这项研究实现了从语言、视觉到低层节制的完备闭环,呆板人再也不只是履行刚性预设步伐,而是可以或许于理解使命语义后自立决议怎样抓取及利用物体。这类能力是通用家庭呆板人、办事呆板人以和具身人工智能体系的要害能力之一,是以具备很是主要的理论与运用价值。
让抓取拥有「目的」的研究者本论文通信作者卢宗青为北京年夜学计较机学院长聘副传授、国度级青年人材、智源学者。持久担当NeurIPS、ICML、ICLR等国际顶级集会的范畴主席,提出Video Tokenizer技能以和Retriever–Actor–Critic框架,鞭策多模态模子与强化进修于呆板人范畴的深度联合,其研究结果已经于多家头部呆板人企业开展场景验证与运用互助。
卢宗青前后于东南年夜学得到学士及硕士学位,2014年在新加坡南洋理工年夜学得到计较机博士学位,随后在2014至2017年于美国宾州州立年夜学从事博士后研究。
2022年,他担当智源研究院多模态交互研究中央卖力人,主持国度天然科学基金委原创摸索规划“通用智能体”项目。2023年领导团队研发通用智能体Cradle,相干论文在2025年被ICML任命。
2025年1月,他创建北京智于无界科技有限公司(BeingBeyond),提出经由过程标注1500万条互联网视频中的人类枢纽关头动作数据构建多模态姿态模子。同年6月,公司完成由遐想之星领投、智谱Z基金、燕缘创投及彬复本钱跟投的数万万元天使轮融资,资金重要用在模子迭代与财产化验证。

参考链接:https://z0ngqing.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





