历经百年“尘与土”，人形机器人离云和月还有几千里？

文/Renee

编辑/孙越

2023，机器人这一浪漫主义产物在东八区、西八区，再次火爆。

东八区，是供应商们纷纷在阶段性presentation——WAIC大会上秀肌肉，拿捏住80%群众的眼球与摄像头：

西八区，是两位风云人物为人形机器人站台：英伟达创始人兼首席执行官黄仁勋直言，AI下一个浪潮就将是具身智能；马斯克表示，通用型AI算法支持的机器人是特斯拉未来长期价值所在。

如果要追究“2023年XX股价暴涨，XX行业爆火”的导火索，十有八九是因为ChatGPT，人形机器人也不例外。ChatGPT来临后，市场情绪高涨：“人形机器人历经近百年，ChatGPT 有望引爆技术奇点”等说法层出不穷。

在“人形机器人+大模型”这一命题上，各个AI厂商、人形机器人厂商的执行力出乎意料：

3月，微软在其官网发表了一篇名为《机器人 ChatGPT：设计原则和模型能力》论文，给出“通过ChatGPT实现用人类语言控制机器人”的现实路径；

（机器人与人类自然语言交互图源：开源证券）

4月，AI公司Levatas与波士顿动力合作，将ChatGPT和谷歌的语音合成技术接入Spot机器狗，成功实现与人类的交互。

本文试图探究，人形机器人近百年来，为何没有所谓的“奇点”？这近百年沉寂的“死水”，ChatGPT要如何打破？

PART-01

1495年，命运的齿轮开始转动

1504年，达芬奇画笔下的《蒙娜丽莎的微笑》，被视为“以人为本”意识觉醒的标志，自此，人类开始自我欣赏，走上寻找自我价值的漫长征途。

而出人意料的是，机器人的“觉醒”，来得更早些。在1495年，达芬奇便已提交了关于机器人主题的画稿：一个靠风能和水力驱动的“机器武士”。

（达芬奇机器人画稿图源：网络）

在这之后的400多年，关于人形机器人的探索从未停止。

凭借着一腔热血和为人形机器人“千千万万遍”的韧劲，1927年，美国西屋公司推出“Televox”：不能走动，但可以抬起接收器以接听电话，并根据接收到的信号通过操作开关来控制简单的动作，此外其还能回答一些问题。

（世界上第一台人形机器人“Televox” 图源：国盛证券研究所）

10年过后，西屋公司在此基础上制造出“摩托人Elektro”，被认为是真正的第一个类人机器人，如此论断，或许是因为它会抽烟？

在1939年的世博会上，摩托人Elektro接到烟之后，像人类一样嘬了几口，但遗憾的是，它并不会“吐气”，烟雾只能从头颅里散发出来。

（摩托人Elektro 图源：国盛证券研究所）

又经过半个世纪的“调教”，人形机器人不再是艺术品里的天马行空，或是科技展会里的“喜剧秀”，开始“脚踏实地”起来。

1972年，早稻田大学孵化出ASIMO，世界上第一个真正意义上的人形机器人诞生（能走动能说话）。2000年，第一代ASIMO能“拉呱”和“搬砖”，到十几年后的第七代，ASIMO已经具备了类似人类的步行方式，能以将近9公里的时速奔跑和倒行，也能拧杯盖和倒水。

（ASIMO 多代参数比较图源：广发证券）

紧接着，人形机器人故事的主角纷纷涌现：其中不得不提的，便是现阶段花活最多的波士顿机器人。

（Atlas机器人发展历程图源：海通国际）

Atlas原型机最早于2009年亮相，Atlas多年以来，主打一个“体育生”人设，秀肌肉，秀技能：

2013年7月11日向公众正式公开。Atlas机器人身高188cm，体重150kg，其设计目的是为了搜索和救援任务。

2018年，波士顿动力进一步对机器人进行优化设计，最新身高1.5m，体重80kg，全身具有28个关节，速度能达到1.5m/s，能完成快速小跑、三级跳、后空翻和空中体操等一系列复杂动作。

本以为，人形机器人会一路高歌，而2022年却带来了一个好消息和一个坏消息，让整个人形机器人行业“扑朔迷离”。

坏消息是，“一代枭雄”退出历史舞台，商业化落地的大坑，无人幸免：2022年3月31日，在本田汽车公司的东京总部，仿人机器人ASIMO正式宣布退役，结束了长达22年的职业生涯。

好消息是，多个科技大厂跨界奔赴而来，“壁垒高筑”成为历史：2022年，特斯拉推出人形机器人“擎天柱”、小米发布全栈自研人形机器人“CyberOne”、亚马逊注资机器人“Digit”······

好运延续到了2023年，这半年，原生赛道选手动作频频：

1月31日，Walker机器人的优必选正式向港交所递交招股说明书；

7月6日，傅利叶智能在2023世界人工智能大会上发布首款GR-1通用人形机器人；

但从WAIC的展会来看，人形机器人仍然令人心生敬畏：

在机器人展区，仅有傅利叶的下肢康复机器人，云深处的绝影等四足机器人能够将产品搬到展会并进行演示，特斯拉的人形机器人模型“束之高阁”，达闼陈列了各式各样职业的人形机器人模型······

1495年开始，人形机器人命运的齿轮开始转动。以下是现如今，人形机器人厂商，给出的阶段性成果：

（典型的人形机器人图源：广发证券）

500多年过去，基于成本、续航等难题，人形机器人仍未成功“落户”。

PART-02

人形，究竟有多难？

机器人想要成“人”的成本，是精英的千千万万倍。

将一个真正的人培养至大学毕业，时间成本是23年，其金钱成本按知乎博主三笛规划测算，低配版至少要花70万，高配版要花费966万。

而仅仅是要为6岁WALKER进行4次迭代，“家长”优必选的代价是，近25亿元的投入（按照优必选披露的最低数据测算，近年来优必选科技的研发开支分别达到2020年4.288亿元、2021年5.171亿元和2022年前9个月3.247亿元）

如此费钱的根源是，人形机器人需要集“运动健将、智多星、导航助手”三大“完美人设”于一身，即在运动模块、传感模块和人工智能模块都要驾轻就熟。

而其他机器人的“KPI”往往只有一项：工业机器人的能力，取决于其“肌肉个数”，即主要侧重于运动控制技术；扫地机器人的能力，取决于其能否成功规避障碍物，把全屋打扫干净，即侧重于导航传感技术。

所以，人形机器人的这一“完美人设”背后，需要大把银两去维护：今年6月，天风证券的一份专家纪要显示，目前国内单台人形机器人生产成本在70-100万元。

一个自然而然的问题是，如何降本？

难题多的是，目标得先行。国内外皆有厂商，给出自己的schedule：根据优必选预测，在2030年，人形机器人将降本70%-80%至2-3万美元。特斯拉的Flag更为激进：3-5年之内，降到2万美元。

基于特斯拉数据与自身测算，开源证券给出了降本的方向与空间：对比当前时点和终局状态下 BOM 表拆解，线性关节和灵巧手的降本空间最大。

可以看到在核心环节，技术壁垒较高，国产化率较低，供应链话语权堪忧。尤其是谐波减速器，其技术迭代几近停滞，同时日本哈默纳科一家独大，短期之内，国产厂商难以突破，现阶段国产厂商正布局机电一体化，以期提高工业机器人等自动化设备的灵活性。

技术降本，荆棘重重，故现阶段厂商用产能扩张规模化，来讲述降本的故事：

优必选的降本规划，便是基于产能扩张规模化来测算的，同时其相关负责人表示，国产人形机器人的降本，受益于行业应用扩展的规模化量产和国产供应链的成本优势，同时也可通过改进制造工艺、采用更鲁棒运动控制算法降低对硬件精确度、硬件指标要求来实现。

（优必选对人形机器人成本预测图源：开源证券）

这更为考验国产厂商的量产能力与供应链管理能力。除此之外，眼下还有一大障碍是，人形机器人的续航问题。

据优必选向偲睿洞察透露，目前其产品Walker在充满电的情况下，续航时间大约在两小时左右，而这已然是前几名的成绩。

机器人巨大的耗电量实际上主要来自于关节部位，伺服驱动器是最主要的耗电单元，而它的耗电量又与效率有关。对此，优必选给出的解决方案是：通过优化“单个伺服舵机的驱动方式、机器人直立行走的算法、手眼协调的算法”，从而大幅降低机器人在运动状态下的耗电量。

以上，还是没有计算进阶版“大脑”和“眼睛”的显性成本与困境。基于现状，无论是科技大厂还是原生选手，皆选择面向TO B，等待蜕变。

Tesla bot最新一批“打工人”大概率将去造车，奔赴超级工厂；据傅利叶智能7月12日发布会显示，其未来将继续深耕医疗场景，在陪护/照护/康复等细分领域注力，同时迈向生产制造、科技展馆/演出等B端场景；优必选已然在科研开发和科技展馆、政企展厅等落地，同时近期的一系列动作，也围绕着新能源汽车、3C电子等相关工业场景。

人形，难在核心部件技术壁垒高企，降本依靠量产规模；难在续航在两小时左右，工作效率远比不上打工人；更难在集“运动健将、智多星、导航助手”于一身······

PART-03

成年人的战争，只会更加激烈

业内专家认为，人形机器人对本体制造商的考验，在以下三个方面：整机集成能力、运动控制算法软件开发能力、AI布局。

AI布局，也就是大脑层面，成为现阶段最大的变数：

先前在“大脑”层面，几乎没有什么水花，各家推出的模型，能动的基本只能倒倒水、搬搬快递；而现阶段，ChatGPT来临之后，人形机器人的“大脑”，终于迎来质变的可能性。

微软已给出“通过ChatGPT实现用人类语言控制机器人”的现实路径：

首先，由于机器人是个多元化领域，在微软的操作框架下，不同机器人都有自己对应的特定函数库。这些函数库，可以理解为中控，能够连接机器人控制系统进行底层硬件的管理，以及执行基本运动的代码和功能模块。

然后，为了让ChatGPT能遵循函数库的规则，需要清晰的预定义函数命名。清晰的函数名，能让各API之间建立良好的功能连接，最终生成高质量的回答。

最终，在设计好库和API后，用户给ChatGPT编写了一个文本提示（prompt），描述目标任务，并明确说明函数库中哪些函数可用，就可以控制机器人去执行任务。

（机器人与人类自然语言交互图源：开源证券）

ChatGPT的利好，还在持续进行中：一个具体案例是，近日已经有开发人员将GPT-4与目标检测网络结合，实时捕获摄像头中的物体进行分析并执行人类指令。

当询问GPT-4开发人员手中是什么物体时，GPT-4能识别出健怡可口可乐，然后继续提问可乐的卡路里，GPT-4也能做出回答；GPT-4还能识别出摄像头中的牙刷，然后还能按要求在网上找到牙刷的购买链接。

（向GPT-4提问摄像头中的信息图源：杳杳寒山道）

这也就意味着，人形机器人的心智很快要脱离稚嫩，“成年人”的战争，只会更加激烈。

那么，谁会先碰掉那条终点的红线？整机集成能力、运动控制算法软件开发能力（下文简称控制能力）、AI布局是三大参考标尺。

以特斯拉为代表的车企跨界选手，在AI布局上，有着天然优势：

特斯拉FSD视觉感知算法可以在机器人上复用，并以智驾领域积累的Know-How进行赋能，同时还有FSD V12、Dojo超算落地，这将大幅提升AI训练速度；

同时，自有工厂创造应用场景，以机器学习+大量数据的方式，在真实的场景不断训练-优化机器人。

除此之外，在供应链上，特斯拉有着充足话语权。据开源证券表示，特斯拉机器人轴承、齿轮箱、滚珠丝杠、电机等部件可直接复用特斯拉汽车成熟的供应链。

这是因为，特斯拉机器人关节执行器采用的零部件种类和现有的工业机器人基本一致，同时，由于没有像工业机器人一样对实现高速运动的要求，还一定程度上降低了生产难度。

换言之，特斯拉只需根据人形机器人的特点对零部件进行调整修改就可以进行标准化的大批量生产。

以优必选、傅利叶为代表的原生赛道选手，在整机集成能力、控制能力上把握更多的“Know-How”，而在AI布局上，略有欠缺，现阶段也在努力查漏补缺：

优必选透露，其已经尝试在人形机器人上导入具身多模态语言大模型提升语音交互，灵巧自主操作，足式机器人环境认知学习与自主导航能力。

傅利叶创始人顾捷表示，其正在与高校或者其他 AI 团队深度合作，构建商业化智能 AI 大模型的能力；

跨界选手追觅，在控制能力上积累了不少导航模块的经验：据其透露，其在运控算法、导航算法、视觉与AI算法等方面有着持续储备优势。

当ChatGPT强势入局之后，人形机器人将迈入成年人的赛道。

成年“人”的世界，无疑会更加激烈：在整机集成能力、控制能力、AI能力这三大维度上，大家各有优势，没有谁是绝对的赢家。但，成年人也更懂如何合力，如以上企业所做的，联合多方力量，奔赴云和月。

至于还有几千里，得看大模型们能否将“大脑”训练明白，满足人们对人形机器人最基础的要求：其既是博士生，能进行日常、专业的对话，也是“跑腿”的，能完美驯服四肢，拿快递扫地倒垃圾······

幸福双城资讯网

历经百年“尘与土”，人形机器人离云和月还有几千里？

科技偲睿洞察