一辆蔚来ET7有33个感知硬件,在辅助驾驶状态下,这些硬件每秒钟捕捉到的数据总和大概是8GB,每个小时会产生大约28TB数据。
假设一个ET7车主每周只使用辅助驾驶功能一个小时,每年单车产生的数据量就是1456TB,达到了PB级。
截止9月份,蔚来ET7已经累计交付了15439辆,就目前这些车,一年产生的数据大约2247万TB。
那么,储存这些数据需要多少钱?
如果把这些数据存储在移动硬盘里:
一个20TB移动硬盘,售价至少3000元,储存2247万TB数据,要用 112万个20T移动硬盘,购买成本超过33亿。
以上只是个非常保守的估算。随着辅助驾驶功能进化,采集的数据会越来越多,可使用时长也会增加,以及汽车保有量本身都在不断地增加,数据会很快暴涨至ZB(约等于10亿TB)级别。
对于自动驾驶赛道上的每一个玩家来说,动辄几十亿的投入都是毛毛雨。因为这些数据是决胜未来的至关重要的宝藏。
但如此庞大、未来还会更加庞大的数据库,如何有效地存储,如何更好地利用?“云”,就被放到了前所未有的重要位置。
广汽集团董事长曾庆洪曾说:“只有掌握数据才能有机生长。自动驾驶云数据中心,是实现算法场景演化叠加的有力保障,也是广汽着手布局的关键赛道。”
有需求就会有生意。
腾讯、华为、百度、阿里等在云计算领域深耕多年的互联网巨头们望风而起,在新的土地上短兵相接。
而车企,作为原住民,许多能力建设需要假手于人,但也不希望看到外来者喧宾夺主……
博弈和取舍,一个跑马圈地的故事,正在云端上演。
NO.1
[ 上云,没得选 ]
“一个成型的数据中心,硬件耗资至少上亿美元,这还不算运营维护费用,没有一定规模的企业,无法承受这个成本。”某汽车集团旗下智能科技公司运维总监说道。
对研发自动驾驶的企业来说,前期研发阶段测试车辆虽然在高强度运转,但整体数据规模没有十分庞大,通过自建数据中心等方式就可以支撑存储和算力需求。
甚至在一些体量较小 Robotaxi 公司,仅用最原始的硬盘拷贝方式,就可以回传全量数据,然后再进行数据挖掘。
但当自动驾驶从0-1的技术验证阶段进入1-N的商业化落地阶段,如前所述,数据将会有的几何级爆炸式增长。
如果想继续通过硬盘拷贝、自建机房等方式来存储数据将带来难以承受的成本。
除了贵,更致命的缺陷是传统的数据中心缺少可扩展性,很难满足超出本地算力以外的突发性需求, 临时采购或扩容服务器,会拖累研发进度,事后又容易造成资源闲置。
因此,“上云”就成为了自动驾驶从研发到商用的必由之路。
具象地说,“云”是通过互联网访问的服务器,以及在这些服务器上运行的软件和数据库。
云服务器分布在全球各地的数据中心中,通过使用云计算,用户不必自己管理物理服务器或在自己的机器上运行软件应用程序。
云服务通常有三个层次:软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)
腾讯就宣称,其自动驾驶云平台提供的数据储存方案,相比传统的存储方式可降低至少50%的存储成本。
当然,把数据存起来只完成了数据驱动流程的第一步,也就是Iaas服务级别。
云服务商,可以提供数倍于本地的算力,并且拥有云端训练复杂神经网络模型的经验,结合深度学习,实现自动标注能力提升,优化标注算法效率与精度,降低数据处理成本。
安永(中国)企业咨询有限公司与华为合作撰写的《智能汽车云服务白皮书》中指出。
依托更高算力和更多的经验积累,汽车云服务数据综合处理效率可以提升10倍以上,成本较人工降低50%。
另外,云服务商除了提供增量数据标注服务外,往往还为客户提供海量、持续迭代的已标注对象,方便客户利用既有数据,快速展开业务。
通过数据的采集和标注,得到了有价值的数据。而把这些数据用起来,则要依靠仿真模型训练和测试。
很大程度上, 仿真的效率决定了算法的迭代速度,也影响着完全自动驾驶的落地进程。
腾讯自动驾驶仿真业务总监孙驰天表示,“当前,自动驾驶算法已经能够处理绝大部分的交通场景。完全自动驾驶落地,真正的挑战在于少量corner case。”
而对于解决corner case, 行业中有个广泛流传的观点:一套自动驾驶系统,需要至少100亿英里的测试,其安全性能才能达到量产应用的条件。
这个距离相当于在地球和太阳之间往返50多次。从成本和时间上来说,没有任何一个企业可以依靠道路测试跑完这个测试里程。
但仿真系统,可以以真实世界的数据、物理规律为基础,构建出一个供自动驾驶汽车训练的平行世界, 大大降低测试成本。
不过,运行在本地的仿真,场景构建完全依靠自采数据,覆盖度往往不足。另外,无法实现高并发的并行仿真测试,场景运转效率难以满足漫长的测试里程需求。
赛目科技总经理何丰就表示:“一种算法或一套传感器方案可能需要几十万甚至上千万个测试场景进行验证。如果在单机里面进行测试,需要跑好几月,这是不能满足自动驾驶快速迭代开发需求的。”
而通过云+仿真的方式,可以在强大算力的支持下,并行运转数千个仿真场景,实现高并发测试,快速地得到测试结果,将算法迭代的效率提升数倍。
NO.2
[车企谨慎“开挂”]
“相较于堆硬件、拼算法,云端‘内卷’更有可能成为胜负手。小鹏的扶摇未来很有可能成为一张‘大猫’。“一位供职于新势力的软件工程师这样描述云对于自动驾驶的重要性。
一般来说,自动驾驶软件开发的数据驱动流程是:数据采集-数据存储-数据预处理-数据挖掘- 仿真模型训练&测试-部署发布。
离开了云,理论上讲这一套流程也能跑通。
但正如Panosim执行总裁李祥明所言:“所有的业务和物理世界本身就存在,而云就像一个‘外挂’,为自动驾驶的落地开了快车道。”
某种程度上,小鹏近期率先落地城市NGP,有扶摇这个“外挂”的一份功劳。
今年8月,阿里云也与小鹏汽车合建的智算中心“扶摇”,基于算力可达600PFLOPS(每秒浮点运算60亿亿次),规划将小鹏汽车的自动驾驶训练的速度提升近170倍。
其实说到自动驾驶云,最先应该提的是特斯拉。
特斯拉自研的超级计算机Dojo经过至少5年的准备,于2021年正式发布,总算力达到了1.8EFLOPS(每秒1.8百亿亿次浮点运算),能够利用海量的视频数据,进行无人监管的自动驾驶标注和训练。
另外,特斯拉还建立了一个拥有60亿个标注物的库,和将近2000万公里的虚拟道路,用于算法训练。
Dojo的推出,让马斯克在感知硬件上有了进一步化繁为简的底气。今年10月,伴随着取消Model 3与Model Y上超声波雷达的消息,特斯拉也成为了彻底的纯视觉派。
今后特斯拉还计划通过“exapod”集群部署Dojo,每个集群由10台机柜组成。
面向特斯拉自动驾驶汽车的AI模型进行换算之后,其处理能力将逼近每秒8百亿亿次浮点运算,是当前算力的四倍以上。
按照马斯克的计划,第一台Dojo exapod将在2023年第一季度完成部署。
借助16万参与FSD beta测试用户所产生的数据,Dojo exapod将让FSD的成长速度更进一步。
当然,特斯拉本质上是一家软件公司,Dojo也不光为了自动驾驶服务,擎天柱机器人、星链卫星等也需要云的支持。
马斯克甚至认为,Dojo可以和亚马逊的AWS相提并论。后者是全球最全面、应用最广泛的云平台。
歪个楼,马斯克和杰夫·贝索斯(亚马逊集团董事会执行主席)向来是不对付的,两人吵了十几年,经常在采访和社交媒体中互相挖苦。
自建私有云的优势在于,车企可以掌握核心数据以及全流程算法技术能力,更容易实现产品的差异化。
不过像特斯拉这么硬气的并不多,因为云是一个入门门槛很高,高到一点不亚于造车的领域,自建私有云需要漫长的时间周期和巨大的建设成本。
经济实力比较强的车企通常选择自建私有云+采购公有云的混合云架构。
作为推动国内自动驾驶普及的先锋企业,小鹏选择和阿里云合作自建云计算中心,但还是会外采部分针对图形数据的云计算和云存储服务。
继小鹏之后,今年10月上汽集团云计算数据中心项目落户郑州。根据规划,上汽的云计算数据中心将按照两万台服务器规模、互联网开源技术架构一次规划建设,为其智能出行、智能制造、智能驾驶发展赋能。
总体上讲,相比自建云计算中心,以采购云服务商提供的公有云服务为主的方式其实更具性价比,也是多数自动驾驶开发者的选择。
“开发者的核心能力在算法研发和定义产品上,云作为一种算法训练工具应该尽量SaaS化。比如,直接在云端准备好丰富的标注数据、场景,甚至是训练模型,最好做到开箱即用。”上述软件工程师说道。
一方面要够专业、方便使用,另一方面又要能做到底层解耦、自主可控,车企对于购买云服务也是要多方面权衡考量的。
因为云计算涉及到了企业竞争最关键的数据归属问题。
很多人应该还记得,在上汽荣威第一代互联网车型火爆过后,阿里系与上汽系对车联网数据及技术资源的争夺,直接导致了车联网先行者斑马网络的内乱。
“以工具链的使用来说,单独一家供应商提供数据采集、标注、仿真等全栈工具链一定是效率最高的。但出于安全自主的考量,车企又希望在不同的环节选择不同的供应商,甚至想通过自研工具链,提升自己在生态中的话语权。”某自动驾驶公司 IT 总监的话道出了车企的纠结。
NO.3
[ BATH跑马圈地,让子弹飞一会 ]
微软、亚马逊、谷歌等国际巨头正加速在国内汽车云市场上的布局。
比如8月,微软就在国内首次发布了面向汽车和移动出行,并以微软智能云与智能边缘技术为基础的整体解决方案。
不过整体上,国内的汽车云市场还是BATH(百度、阿里、腾讯、华为)在唱主角。
面对着车企的需求与纠结,他们也在试图寻找合作的平衡。
以腾讯为例,自2016年进入自动驾驶赛道以来,其发展方向几经调整。
2018年,腾讯相继拿到了北京和深圳两地的自动驾驶测试牌照。时任腾讯自动驾驶实验室负责人的苏奎峰表示,要重点推进L3产品落地。
显然,这个目标至今未实现,腾讯也早早放弃了做全套解决方案的念头,将定位调整为,自动驾驶研发的软件和服务提供商。
起初重点发力仿真业务。2019年推出自动驾驶虚拟仿真平台TAD Sim并在一年后将其迭代到2.0版本。
腾讯的虚拟仿真业务,在长沙、襄阳、深圳等地的智能网联汽车测试场或示范区中拿到了一些订单,但在车企方面,建树不多。
2021年,腾讯再次调整方向,推出了自动驾驶云平台,虚拟仿真成为了工具链中的一环。同时,在云平台中集成了西门子工业软件、云测数据等企业的工具和软件。
最终目的,就是在自动驾驶研发数据驱动的每一个流程上,都能够提供开箱即用的便捷工具和服务。
用官方的话说,就是让研发人员“拎包入住”。
同样云+SaaS化的业务发展思路,也展现在华为的自动驾驶云服务“八爪鱼”中。
早在2019年发布八爪鱼的时候,华为就提出了要协助车企“0”基础构建自动驾驶开发能力的口号。
为此,华为宣称其在八爪鱼中内置了2000万框标注数据集、20万仿真场景库、以及完整的工具链和标注算法,让车企能够快速聚焦自动驾驶业务的核心价值。
相比前两者,百度和阿里高调发布各自的自动驾驶云业务的时间比较晚。
今年 9 月,百度智能云推出三朵汽车云:覆盖研发、生产、服务环节的集团云,覆盖自动驾驶、智能座舱的网联云,以及覆盖产业协同、物流调度的供应链协同云。
可以看到,百度把供应链与自动驾驶提到了更高的地位。
此外帮助小鹏建设“扶摇”的阿里,将会在11月举办的云栖大会上,正式宣布其汽车云业务。
阿里云智能全球销售总裁蔡英华说:“自动驾驶将是未来阿里云的三大支柱之一。”
值得注意的是,尽管各家的云品牌叫法不同,但趋势很相似:
在服务SaaS化的同时,为了消除车企关于数据归属的顾虑,云服务商也在尝试将工具链解耦,分为数据、训练、仿真多个模块,不捆绑销售,用户可与随时替换,以此来保证车企的主导权。
根据公开信息,腾讯已经先后和宝马、奔驰两家车企在自动驾驶云领域达成合作。
按照公开的合作协议,腾讯将助力宝马建设一个用于自动驾驶的高性能数据中心;和奔驰则是共同成立一个自动驾驶实验室,推动奔驰L3级自动驾驶系统的本土化落地。
形成对比的是,到目前为止,并没有车企单独采购华为自动驾驶云服务的消息流出。但在其和极狐、问界等企业的合作中,这部分服务多半被打包其中。
但即便强势如华为,也需要考虑客户的接受度。为此,八爪鱼会给客户提供多种合作方案。
第一种,全包。华为负责开发并提供完整量产解决方案;
第二种半包,华为负责开发,客户可自由配置部分参数;
第三种采购,华为提供自动驾驶开发工具链,客户自研,华为提供全套售后开发咨询服务。”
阿里在与小鹏合建扶摇之前,就已经在为路特斯、上汽智己、毫末智行、赢彻科技等企业的自动驾驶模型训练提供算力和技术支持。
总体来讲,大家目前都处于市场开拓的初期阶段,但自动驾驶云市场广阔、前景光明。让子弹再飞一会,才能真正看出格局。