ChelseaFinn:RL是如何在RobotLearning...

海外看科技 2024-09-28 22:52:35

在海外独角兽对 AI Robtocis 的行业分析中,我们提出,相较于 LLM ,通用机器人的发展要更为长期,在当下时点,选择支持明星 researchers、成功连续创业者组建的团队更有机会找到机器人领域的 OpenAI。

Physical Intelligence 就是一个典型代表,它由 robot learning 领域公认全球最强的 researcher Sergey Levine 带队,公司的目标是做可以适配所有硬件的通用机器人 foundation model,为机器人开发一个超级大脑。Physical Intelligence 创立于 2024 年 3 月,首轮融资金额就达到了 7000 万美元,估值大约 4 亿美元,领投方为 Thrive Capital,跟投方为 OpenAI, Sequoia Capital,Khosla Ventures 以及 Lux Capital。

本篇内容是对 Physical Intelligence 核心创始成员 Chelsea Finn 的深度访谈。Chelsea 目前是斯坦福大学计算机科学与电子工程系的助理教授,Chelsea 的实验室 IRIS 主要的研究方向是通过大规模机器人交互实现智能,爆火的“家务机器人”ALOHA 就是 Chelsea 指导参与的。

Chelsea Finn 在其博士期间中提出的 MAML(Model-Agnostic Meta-Learning)是目前元学习的三大方法之一,MAML 在少样本模仿学习、元强化学习(Meta RL)、少样本目标推断等中都获得了很好的应用。

💡 目录 💡

01 机器人领域的强化学习

02 模拟可能会是机器人发展的阻碍

03 基于 Meta-RL 的作业打分系统

01.

机器人领域的强化学习

Lukas Biewald: 我看过你的研究视频,你们的机器人能完成各种高难度任务,但我感觉在现实世界中,其实很难让机器人做真正有意义的事情,你能谈谈机器人技术的现状吗,哪些方面已经实现,哪些方面还在探索?

Chelsea Finn: 目前机器人在某些领域表现得确实很不错,但在其他方面,要进入现实世界,还有很长的路要走。可能很多人都看过波士顿动力的视频,他们的机器人能完成后空翻、抓取物体等高难度动作。我们的机器人也能完成一些灵巧任务,比如用机械臂拿抹刀盛东西,或者撕胶带等等。从这些视频来看,机器人的能力很强,已经可以在现实生活中应用了。但问题在于,只有在特定场景中,它们才能有好的表现。

比如波士顿动力的机器人就是专门为了特定配置和环境调试的,我们的机器人也是在有限的环境下训练的。一旦环境或者交互对象发生改变,机器人的表现就可能大打折扣。这与人类不同,我们一般会认为,如果一个人能完成某个高难度任务,那么他应该也能完成其他类似的任务。比如,无论什么样的水瓶,都不影响人完成倒水这个动作。

但机器人和人类差别很大,所以我们除了要研究怎么提升机器人的灵巧性,也在努力提高他们的泛化能力,让机器人最终能胜任各种场景。

Lukas Biewald: 这让我想起了 20 年前我在 NLP 领域做研究的时候,虽然当时能完成的任务看起来很厉害,但很难泛化,和现在机器人领域的情况很像。现在 NLP 的很多任务都能很好地泛化,机器视觉领域也取得了显著进步,甚至在某些方面超越了人类的表现。你认为机器人技术是否也会迎来类似的飞跃,还是说机器人领域有一些更底层的难题需要解决?

Chelsea Finn: 我相信我们能取得突破,而且我们的确已经取得了不小的进展,但机器人技术和 NLP 有一个很大的不同点是,互联网上没有现成的数据来教机器人怎么控制电机来系鞋带,而在 NLP 领域,我们有 Wikipedia,在视觉领域,我们有 flicker 和大量的图像数据。

不过,互联网上的图像和文本数据仍然能够帮助机器人更好地理解世界。所以我们并不是从零开始起步的,但确实也面临很多数据上的挑战。我们正在建立更大的数据集,对数据集做整合。如果能收集足够多的数据,我们就能训出泛化能力更强的策略和行为。

我可以举一些我们收集数据的例子。有些任务比较简单,我们尝试过把机器人放在某个地方让它随机摆动双臂,它就可以在箱子里推动物体。随后,我们让机器人夜以继日不停歇地做这个做类似动作,这样就能收集到大量数据。但后来我们发现,如果我们的设定是让机器人随机做动作,那么它就只会一直推东西,而不是去做类似于倒水这样的复杂任务。换句话说,虽然我们当时收集到了很多数据,但数据质量并不高。相比之下,Wikipedia 上的数据质量就很高,这是因为 Wikipedia 是人们围绕特定话题撰写出来的,内容质量很高,知识量也很丰富。

所以我们开始收集人类操作机器人的数据。比如,让人通过 VR 或者直接操作机械臂,演示如何从水瓶里倒水,如何拿起一个物体并移动到另一个位置等等。在 Google 工作的时候,我们收集了大约 10 万到 20 万条演示轨迹数据,包括视频和控制机器人的电机命令序列。虽然 10 万条数据对于机器学习来说不算多,但这些数据已经能帮我们训出更强的策略。

我们正在做的一个工作是,基于预训练的视觉和语言模型来 fine-tuning 这些数据。这样做的话,就能够让机器人实现语义层面的泛化(semic generalization),即使在之前的数据中它从没见过某个物体或者名人,也能通过 pre-train 的模型正确识别并执行任务。比方说,我们让机器人把物体递给一张 Taylor Swift 的照片,即便它从没见过 Taylor Swift,也能准确地把物体递给正确的人,因为 pre-train 的模型能够把互联网上的知识转移到机器人控制中。

我们还在一直尝试去整合不同机器人 labs 和平台的数据,基于这些数据,我们已经成功训练出了一种策略,可以同时控制六种不同类型的机器人。

Physical Intelligence (π) 官网简介

Lukas Biewald: 人体姿态估计(human pose estimation)领域有很多很有趣的研究和实践,我们是不是也可以把人类的身体类比成某种机器人平台?机器人研究能不能从人体姿态估计这里获得一些灵感?

💡

人体姿态估计(Human Pose Estimation)是计算机视觉中的一个重要任务,旨在从图像或视频中检测和识别出人体的关键点位置,并根据这些关键点构建人体骨架以估计其姿态。

Chelsea Finn: 就像我我刚才提到的,我们可以训练策略来控制各类机器人,人类在某种程度上也是一种系统,所以也可以把人类数据拿来训练。不过,虽然我们可以用视频记录人类行为,但还是不能了解人类在不同的任务和动作中是如何控制肌肉的。在机器人训练中,正是这种信息可以帮助机器人控制电机,作出相应的动作。所以,仅仅依赖于人体姿态估计是远远不够的,尤其是在涉及更复杂的任务时,除了姿态估计,还需要考虑诸如力的作用等因素。但只要能准确地进行姿态估计,就能很好地把这类数据整合到训练里。

Lukas Biewald: 你关于 robot learning 的研究也很有趣,尤其是 learning through play 这个方向上的讨论。我自己也有两个孩子,当我观察小孩子适应环境的过程时,会发现这个过程也很像一个强化学习的过程。你是怎么看机器人领域的强化学习的?

Chelsea Finn: 我在 Berkeley 读 PhD 的时候,我们 lab 里有一个博士后,他的研究主题就是机器人的强化学习,机器人通过一系列试错的过程来学习各种能力。其中有一个任务是让机器人堆积木,机器人需要把一个很大的乐高 Duplo 积木块堆到另外一个 Duplo 积木 上,和孩子们玩积木一样,机器人会先弄清楚这两个积木是如何组合的,并且这个过程会越来越熟练,大概 10 到 15 分钟就能学会这个任务,有时候甚至更快。亲眼看到机器人学习和“玩耍”的过程,让我感到非常神奇,这也是为什么我选择了这个研究方向。

我的第一个项目是机器人的 RL,这个研究本质上是对之前的系统进行拓展,让机器人能够直接从像素级别中的数据中学习,之前的系统下,机器人拼积木的行为其实是“闭着眼睛”的,所以我们的目标是让机器人学习“看”的能力,是第一个从像素值到扭矩值的端到端的神经网络项目。当时是 2014 年、2015 年左右,我们让机器人同步学会了感知和行动。

到今天,在 Robot Learning 领域,RL 依然很有价值。机器人通过试错完成自主学习的过程是智能的核心要素。只会模仿学习的机器人,它的智能水平可能比试错学习的机器人要低。而且,通过试错学习让机器人能够自己收集学习大规模数据。

尽管目前的试错过程还需要人类监督,但长期来看,这种学自主学习的能力可以帮助机器人实现落地。在学习过程中,数据收集的规模和实际部署都非常重要。在现实场景中,如果一个机器人出了错,它需要迅速纠正错误,从错误中学习,尝试不同的方法,这样它就能越来越有用。

Lukas Biewald: 我看到过你们一个机器狗穿旱冰鞋、拉盒子的案例

0 阅读:0

海外看科技

简介:感谢大家的关注