过去5年,整个社会对于数据的观念和认知,发生了天翻地覆的改变。这要归功于OpenAI与预训练大语言模型(以下简称大模型)的问世以及横扫全球的ChatGPT。从2020年1月OpenAI发表《自然语言模型的“摩尔定律”(Scaling Law for Neural Language Models)》论文到2023年的“百模”大战,数据成为了与算力和模型参数并驾齐驱的三驾马车之一。
在AI与大模型数据服务这条赛道上,出现了一家遥遥领先的解决方案与服务商,这就是位于Everest Group 2024 AI/ML数据标注解决方案Peak Matrix领导者象限第一的澳鹏Appen公司。2019年,澳鹏(中国)正式成立了,作为独立于澳鹏Appen全球而在中国市场“白手起家”的澳鹏(中国),5年来闯过了中国AI数据“江湖”,实现了在中国市场遥遥领先。
从 2020 年到 2023 年,5年来澳鹏的复合营收增长率是 90+%以上,2023年澳鹏(中国)实现了近2.5亿人民币营收,刚刚发布的2024 年上半年实现了 1.83 亿人民币营收,是业界头部友商上市公司海天瑞声和数据堂上半年营收的总和。预计2024年将实现3.5~4亿人民币营收,YOY 的收入增长率 50%~60%以上,2029年将跨入年营收10亿人民币大关。那么,澳鹏(中国)是如何踏准了大模型AI的时代巨浪,又如何在中国的AI数据服务赛道遥遥领先?
AI数据三维度爆发式裂变所谓AI数据,即经过人工或机器方式标注过的数据。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,澳鹏(中国)在近五年经历了三大AI浪潮,同时收获了AI数据在三个维度的爆发式裂变增长红利:即从深度学习和机器学习浪潮、到自动驾驶浪潮、再到大模型的“滔天巨浪”;相应带来AI数据在数据规模、数据质量和数据复杂度等三个维度的裂变增长。
在数据规模方面,传统深度学习模型训练数据规模在GB级到TB级,自动驾驶模型和大模型训练数据进一步上升至PB级。一辆智能汽车真实路况采集视频数据可达PB到数十PB,而通用大模型训练甚至已经耗尽了互联网数据,并向更广阔的私域数据高速拓展。
在数据质量方面,由于自动驾驶模型对于真实路况安全的重要性等,要求数据标注的准确性从之前的95%或96%进一步提升到99.5%甚至100%,这就意味着极大提高了数据标注的要求。而对于大模型训练来说,高质量数据则意味着更高水平的人工标注,例如需要量子力学等小众专业知识以及医疗、音乐、科技、金融、制造等垂直行业知识。
数据复杂度更在近年来急剧上升。在自动驾驶、VR/MR、机器人等领域,此前主要为2D、3D和 2D&3D融合标注,这两年进一步发展到4D标注,也就是将时间作为新增维度,而4D标注对技术和复杂度要求非常高。此外,由于大量AI模型训练和多频次模型迭代的需求,数据流转越来越复杂,数据处理的专业性要求越来越高,既有短周期甚至临时性项目、高频次数据标注需求,也有临时数据耗尽而项目挂起的需求,还有要求安全可控数据标注环境、专业数据人才能力等等。
整体而言,经过了2019年到2024年的飞速发展,从深度学习/机器学习的精品式小模型训练,到自动驾驶的规模化模型训练和高频次迭代,再到“百大”大模型和生成式 AI的规模化生产,引发了AI数据在规模、质量和复杂度三个维度的同时爆发式裂变,这对于AI数据服务商来说,既是机遇更是挑战。
“押注”技术平台产品,打造核心竞争力技术能力是传统数据标注服务商长期缺失的核心能力。随着AI数据在三个维度的爆发式裂变,单纯依靠手工方式进行数据标注已经远远不能满足需求,更无法持续降低数据标注项目的成本、提高数据标注的质量、加快数据的有效流转。
在数据标注技术工程平台方面,特斯拉为整个行业立了一面旗帜。从2018到2021年,特斯拉的数据工程平台经历了3次迭代,通过自动标注与多种技术手段配合,一个clip(即最小标注单位,通常特斯拉的一个clip包括45秒到1分钟的路段数据)的标注仅需0.5小时算力+0.1小时人工,效率较2018年提升了800倍之多。
在全球市场,2019年的时候也仅有包括澳鹏Appen在内的少数顶级AI数据标注服务商投资了自有的数据标注工程平台。在2019年澳鹏(中国)成立的时候,当时除了从IBM等世界一流IT公司出来的几位核心主创人员以及澳鹏Appen全球对中国团队的初始投资外,可以说“一穷二白”。
与其它全球公司的中国分公司不同,由于数据行业的高度安全合规要求,澳鹏(中国)必须要独立自主地在中国市场重建所有的资源、系统和流程。摈弃了“拿来主义”,摆在澳鹏(中国)创始团队面前的就是一张白纸,而团队决定对技术进行“押注”式投入:目前公司有60余名全职资深研发技术工程师,其中一半专门聚焦于公司的技术平台产品研发;另一半专门聚焦于和客户在平台数据接收和验收的无缝对接。2023年,澳鹏(中国)投资近5000万元用于技术和系统建设,包括对澳鹏MatrixGo企业级高精度数据标注平台和大模型智能开发平台的开发和增强。
今天的澳鹏(中国)有两大拳头产品:MatrixGo企业级高精度数据标注平台和大模型智能开发平台,并用这两大平台扛住了AI数据三维度裂变的“滚滚洪流”。澳鹏MatrixGo平台和大模型智能开发平台完全由澳鹏(中国)团队在本地研发,拥有全部的知识产权和产品主导能力。
目前,澳鹏(中国)对MatrixGo平台和大模型智能开发平台每年迭代近百次,相当于每周都有产品更新,国内本地客户的 AI 数据需求能够快速反应到产品设计和开发中。同时澳鹏自主研发的预标注通用模型和交互式算法在数据标注任务中能产生25%至10倍以上的效率提升。
具体来看,澳鹏MatrixGo平台主要针对深度学习和机器学习小模型的数据采集与标注需求,也服务于自动驾驶场景,覆盖文本、语音、图像、视频、多模态等各种数据类型。目前澳鹏MatrixGo平台已经演进到2.0版本,并不断增强AI辅助智能标注引擎,持续提升人工标注的效率和质量,降低数据标注成本。
例如,澳鹏MatrixGo平台在2D图像类项目上可达到5倍以上的效率提升;3D语义分割数据标注效率提升可达到35%以上;2/3D物体检测预标注模型效率提升15%-30%;数据交付准确率平均达到99%以上。在自动驾驶场景方面,澳鹏MatrixGo平台支持单帧100亿以上点云的加载、提供了多种4D数据标注工具,能够为客户增效30%以上。
澳鹏MatrixGo平台针对各种中国客户的不同信息安全性需求,还提供了客户On-Premise、专属安全屋On-premise、SaaS等多种不同的部署形式, 如On-premise的部署在48小时内可以完成,不仅极大地满足了针对客户的安全性需求适配,更解决客户快速交付的紧急诉求,已在中国成功地提供几十家客户的On-Premise部署。
(澳鹏大模型智能开发平台)
澳鹏大模型智能开发平台是澳鹏(中国)在2023年全新开发的一个新技术工程平台。针对大模型场景,澳鹏(中国)研发了专业的多模态数据标注工具、多轮对话数据标注工具、思维链数据标注工具、工具调用数据标注工具、知识库数据标注工具等多种专业标注工具,支持RLHF、RLAIF、SFT等多种高质量数据的生产;该平台对数据集管理、模型评估进行了针对性设计,通过A/B测试、红蓝对抗、排序打分等对大模型质量进行评估和分析;该平台还集成了算力资源的调度和对接,可以进行算法的微调和部署,一站式完成大模型数据开发。
大模型智能开发平台的快速上线让澳鹏(中国)迅速抓住了大模型商机。2023年,澳鹏(中国)在中国、日本和韩国共拓展了82家新客户,其中8家客户带来了20个大模型项目。2023年全年,澳鹏(中国)大模型业务营收接近3300万,2024上半年更直逼5000万,呈爆发式增长态势。
澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,正是依托澳鹏MatrixGO平台和大模型智能开发平台两大平台的技术能力,让澳鹏(中国)在众多数据项目中脱颖而出,也是获得头部客户青睐的重要原因。
在自主创新方面,澳鹏(中国)目前累计申请的专利数达到24项(其中20个专利申请处于已递交状态);软著登记共计62项,其中56项已获证。澳鹏(中国)与很多高校和科研院所在计算机视觉、多模态算法、大模型等领域进行了项目合作,也与许多院校在人工智能训练师、人工智能数据标注产业培养等方面深入合作。
正是因为坚持对核心技术进行布局,澳鹏(中国)成功入选艾瑞咨询的《2024年中国AI基础数据服务研究报告》,并作为行业标杆之一被列入AI基础数据服务厂商案例。而在2024世界人工智能大会(WAIC2024)期间,澳鹏(中国)入选了亿欧的2024 AI产业链图谱,并被评选为2024中国AI企业商业落地基础设施服务商Top20等。
躬身入局AI数据“江湖”,闯出新天地整个AI数据标注行业在过去5年经历了全面重塑。2019年的数据标注市场,仍处于野蛮生长状态,主要以劳动力密集型企业为主,其竞争优势主要体现在低价格和传统渠道,不少企业在四五线城市建立了低成本的数据标注基地。当时的数据标注员几乎零门槛,整个行业良莠不齐,恶意竞争、低价竞争等种种乱象丛生,可以用“江湖”一词来形容当时的市场状态。
2019年澳鹏(中国)成立的时候,当时已经成立23年、上市4年的澳鹏Appen全球拥有百万众包资源,支持235+种语言和方言,具备成熟的众包人力资源体系和项目管理能力。但对于2019年仅有不到10个人的澳鹏(中国)初创团队来说,这些来自顶级IT公司的专业精英人才,却要面对当时AI数据标注服务市场的各种乱象。
针对处于初级阶段的中国AI数据标注市场,澳鹏(中国)投入了大量时间和精力进行众包资源的招募、培训、流程建设和管理,特别是在二线城市创造性地建立了自营数据服务交付基地,通过自有专职人员+众包资源的方式,适配了中国数据标注行业的初级阶段。
所谓自营数据服务交付基地,即在无锡、大连、重庆等地租用办公楼,招聘专职数据标注服务员工入驻办公,同时为项目提供安全封闭的项目办公空间,供团队与客户共同完成高保密性的项目。而在项目管理方面,面对数据标注项目节奏快、数据需求量不稳定、数据规则不断变化等挑战,澳鹏(中国)从多个维度提升项目管理能力,保障对客户项目交付的稳定性。
澳鹏(中国)非常重视AI数据服务项目的安全和隐私保护,不仅在中国的各个自营基地均已获得ISO 27001、27701、9001、14001、45001、ISO 37301等安全及管理领域国际认证,还与客户、众包资源等100%签订NDA协议。此外,根据项目对数据的安全级别、隐私安全等要求,澳鹏(中国)为客户定制专属项目室,包括安全屋、网络专线、信息安全管控等,特殊项目要求员工在进入项目前还需要上交手机。正是因为澳鹏(中国)不遗余力地建设数据安全与隐私保护,才在市场竞争中获得了头部客户的青睐。
为什么要建自营服务交付基地?澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士介绍,尽管澳鹏自身非常重视数据安全与隐私保护,但很多BPO服务商特别是中小BPO服务其实在这方面并不重视,也很难具备高等级数据安保设施,相比之下只有自营服务交付基地才能满足客户高安全、高保密等高等级要求。澳鹏(中国)的自营服务交付基地也为中国AI数据标注行业建立了一个新规范、新标杆。有客户表示在国内所有大型数据标注服务商中,只有澳鹏(中国)是真正将数据安保真正落地的服务商,也是少有的全员交社保的数据标注服务商。
选择在二线城市建设自营数据服务交付基地,还有一个出发点就是为了满足AI数据对于高知识专业人才的需求。田小鹏表示,团队在成立之初就前瞻到了AI模型将越来越向垂直领域和专业化方向发展,对于知识的需求将越来越高。相比于四五线城市,二线城市有大量高水平的高校以及具备高知识的专业化人才,选择在二线城市建设自营数据服务交付基地可就近招募高知识专业化人才,满足AI模型的长期演进需求。
在澳鹏(中国)创业的5年中,经历了中国AI数据标注行业从初期乱象走向规范化发展之路,在这期间还经历了三年疫情这样百年未遇的公共事件,这些都是澳鹏(中国)创业团队在创业之初都始料未及的挑战。
例如,有的客户在项目进行过程中或项目结束就破产了,或因各种原因出现赖账,导致无法收回上百万的项目款或者打折结算,而与此同时很多众包人员的工作已经在进行中或完成了,澳鹏(中国)团队经过慎重考虑选择自行垫款结算所有众包人员和BPO商的项目款,因为对于很多地方上的众包和 BPO人员来说,项目款是维持生计的重要来源,特别在疫情期间甚至是唯一生计来源。
从“科技向善”的公司理念出发,澳鹏(中国)并没有因为AI数据“江湖”的乱象而放弃原则,而是知行合一地实践了这一理念,杜绝各种“踩红线”行为,为整个行业树立科技向善的标杆,引领AI数据标注行业走出无序和不良竞争乱象,走向更加光明的未来。
下一个5年,勇攀高峰在过去5年中,出现了大量不确定性的事件,包括全球疫情和中美科技竞争,但也幸运地赶上了自动驾驶和大模型浪潮以及由此引发的AI数据三维度爆发式裂变。由于澳鹏(中国)坚持以科技创新立身,坚定投入自有技术平台,依靠更高效率、更高质量、更高安全性的技术平台和人力资源优势,在市场中站稳了脚跟。
过去5年澳鹏(中国)的成功,可以总结为五大因素:顺势而为、创新为要、资源多样化、洞察客户需求、员工满意与数据合规。
顺势而为。澳鹏(中国)非常幸运地抓住了ChatGPT、LLM等AI科技突破性技术创新和成就所产生的商机,特别是敏锐察觉和把握了AI数据三维度爆发式裂变,坚定了对AI数据标注服务、AI和未来科技演进的信心与信念,在前瞻性战略思考基础上,谋定而后动。
创新为要。澳鹏(中国)将创新视为公司和行业发展的动力,以创新谋新局、开新篇:创造性地建立在中国自营 AI 数据服务交付基地模式;大胆投资开发了澳鹏MatrixGo平台和大模型智能开发平台并建立了技术护城河;率先尝试各种AI数据服务,包括3D数据标注、4D数据标注、大模型数据服务、多模态数据服务、海外路采等等。
资源多样化。通过众包、BPO和专职数据标注与服务人员等多种资源布局与协同,解决了客户在AI数据规模、质量与复杂性方面的挑战,同时也解决了部分大众就业、中小企业生存发展等民生问题,将创业与企业责任结合起来,用实践向业界展现了AI向善的商业与社会价值,引领整个行业走上可持续发展之路。
洞察客户需求。在AI数据服务行业,客户真正关心的是优异的品质和合理的价格。澳鹏(中国)一直秉承“季布一诺千金”的优良文化,全心全意服务好客户,不断打磨精细化管理,以优异的数据质量品质,在业界形成了良好的口碑。
员工满意和数据合规。澳鹏(中国)非常重视员工的满意度,授予员工充分的自主权,让员工全方位参与公司管理,获得员工的高认可度。数据合规红线是企业运营的根本,公司通过各种独立项目交付合规室的建设和管控措施以及ISO信息安全认证等多种举措建立了安全合规的企业文化。
目前,澳鹏(中国)客户主要分布在互联网/电商企业、算法科技公司、自动驾驶等行业,客户包括国内前十大汽车公司、前十大互联网公司和前四大移动互联网公司等。鉴于AI数据与AI模型越来越密不可分,澳鹏(中国)为头部客户配置了专属的客户经理,从而深入理解客户业务,并根据客户业务发展,提前准备相应的资源和能力,灵活及时满足客户需求。
例如,在服务某中国头部社交媒体海外实体公司的过程中,双方在大模型文本生成和多模态数据处理等领域展开了深入合作。澳鹏(中国)在东南亚地区建立了多个大模型标注的基地,招募了当地优秀的本科、硕士毕业生以及部分垂直领域的专家。借助海外专业且稳定的人力资源以及澳鹏丰富的管理经验,为该客户实现了大模型高精度+高一致率的标注结果。目前该客户大模型的业务量已经跻身澳鹏(中国)前三,成为重要的业务支柱。
在下一个5年到来之际,澳鹏(中国)又站在了一个新的起点。未来5年,在大模型的持续影响和应用需求激增下,全社会全面进入AI规模化应用阶段,相关数据标注的需求也呈现爆发式增长。面对下一波AI浪潮,澳鹏(中国)已经做好了充分的准备。
首先,澳鹏(中国)将持续投入两大平台的研发,不断提高产品力,从而提升产品在整个营收中的占比。在数据标注服务外,客户对于数据处理平台、数据处理工具和数据处理算法有大量需求。为此,澳鹏(中国)投入产品研发,打造可商业化的数据标注平台、多模态数据标注工具、成品数据库产品以及覆盖数据采集、数据清洗、数据脱敏、数据挖掘等不同阶段的自动化算法产品,为客户提供全面的产品矩阵。
澳鹏(中国)的团队与客户团队一起,共同探讨算法研发的思路和数据标注工具的产品设计。澳鹏(中国)团队每天都在为客户定制化需求而研发,这些需求可能是为了客户算法工程师的一个新思路而实现一个特殊的数据标注功能以标注特定的数据特征,也可能是为了让客户更好更快地验收数据标注结果而开发更便捷、可视化功能和数据准确率看板。所有这些新算法、新功能、新工具都汇入澳鹏(中国)的两大平台,惠及更多客户。
其次,澳鹏(中国)将继续开拓大模型和中国企业出海两大市场。在大模型市场,科技企业对于AI/LLM的研发投入巨大,迫切需要具有的高质量训练数据交付能力的公司,帮助更好、更快地处理模型训练数据,而澳鹏(中国)已经构建了强大的竞争力。
在中国企业出海市场,企业出海首先面对的就是语言和全球资源的挑战,澳鹏在全球170多个国家拥有290多种语言的资源,同时在菲律宾、越南、美国等地区拥有大型交付中心,这是澳鹏在行业内独一无二的优势,可以很好地支持国内企业出海拓展海外市场业务。
第三,针对AI技术深入行业应用带来的长期需求,包括代码、医疗、教育、金融、工业、汽车等行业,澳鹏(中国)已经储备了超过1500人的高学历专业人士,而且还在无锡、大连、重庆等多地的交付基地同时招聘招募专业人员,从而打造全国性的专业资源能力池。
艾瑞咨询预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,有信心在5年后实现12亿人民币的年营收,以至少27.8%+的高速复合增长率,成为中国及亚洲区AI数据专业服务行业的领军服务商。
其中,产品和服务两条线更均衡发展,产品项目的占比将从2024年的4%至少提升到2029年的12%;进一步加速开拓亚洲市场,占比将从 2024年10%至少提升到2029年15%,澳鹏中国5 年后将完成亚洲、欧洲、非洲、中东、南美、北美等地所有AI数据服务的全覆盖。
展望5年后乃至更长远的未来,田小鹏认为广阔天地在于突破AI数据标注服务窄领域,进入AI数据服务宽领域,即:AI数据服务将会有更广泛行业的覆盖拓展;AI 数据类型将向多模态、垂类细分颗粒度等演变;AI 数据产品将更国际化、全球化、多语言覆盖。例如:大模型就将AI数据服务推进到了人工反馈算法迭代服务和模型评估服务,今后随着AI技术的持续发展或将出现新的AI模型,相应带来新的AI数据服务需求,这为澳鹏(中国)基业长青奠定了信心。
回顾过去5年走过的路,田小鹏笑说如果再来一遍,肯定不会选择创业这条道路。因为在一个市场的初级阶段搏杀,再叠加全球三年疫情这样极具挑战的公共事件,即便是老兵创业也是每日如履薄冰。
5年前创业之初,澳鹏(中国)从零起步,没有客户、没有产品、没有流程、没有团队、只有投资和勇气;5年后,澳鹏(中国)已经有两大产品平台、3000+员工、3000+BPO合作伙伴、近百万众包资源、6大服务交付基地、完整的组织、流程与管理以及350+家优质客户……
闯过了前面的险滩,后面就是奔腾不息的大江大河。面向下一个5年,田小鹏说“澳鹏(中国)并不完美,但一直在追求完美的道路上。在 AI 的未来浪潮中,在AI数据主航道上我们将勇往直前。澳鹏(中国)愿做客户在 AI成功的幕后英雄和铺路石,成就客户是我们永远不变的初心!”(文/宁川)