5月13日,在零一万物成立一周年之际,零一万物CEO李开复博士携带千亿参数Yi-Large闭源模型正式亮相,正式进军全球SOTA顶级大模型之首,在斯坦福最新的AlpacaEval 2.0达到全球大模型Win Rate第一。除此之外,零一万物将早先发布的Yi-34B、Yi-9B/6B中小尺寸开源模型版本升级为Yi-1.5系列,每个版本达到同尺寸中SOTA性能最佳。
在国际领先的底座模型之上,零一万物本月同步官宣了从应用到生态的产品线:2C生产力应用“万知”正式提供服务、赋能2B生态的“API开放平台”今日全球上线。借一周年发布会,零一万物公开了开源闭源双轨大模型的战略布局,低调许久的创始人李开复也首度现身说法,亲自拆解发展蓝图背后的战略思路。
在中国大模型进入第二年之际,李开复博士提出,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到“TC-PMF”(Product-Market-Technology-Cost Fit,技术成本X产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的ofo式流血烧钱打法,让大模型能够用健康良性的ROI蓄能长跑,奔赴属于中国的AI 2.0变革。
零一万物以全球为目标市场,基于全球领先的Yi系列模型做出符合TC-PMF的B端和C端优质应用,进而与行业携手推进AI 2.0生态。中国市场的AI普惠必然到来,零一万物将结合国际经验,打造惊艳的国内AI-First应用生态,实现“让通用人工智能普惠各地,人人受益”的公司愿景。
Yi-Large进击全球SOTA大模型极品,Win Rate全球第一
去年11月,零一万物所发布的Yi-34B以开源社区“甜点级”尺寸就在权威榜单中超越了Llama2-70B、Falcon-180B等大几倍的模型,成为当时世界范围内开源最强基础模型之一,引发国际开发者社区的热烈回响和采用,在国际开源圈破圈建立了全球化的技术品牌信任感。
半年后,零一万物正式发布千亿参数规模的Yi-Large,在第三方权威评测中,零一万物Yi模型在全球头部大模型的中英文双语PK上表现出色。最新出炉的斯坦福评测机构AlpacaEval 2.0经官方认证的模型排行榜上,Yi-Large模型的英语能力主要指标LC Win Rate(控制回复的长度)排到了世界第二,仅次于GPT-4 Turbo,Win Rate更排到了世界第一,此前国内模型中仅有Yi和Qwen曾经登上此榜单的前20。
斯坦福AlpacaEval 2.0 Verified认证模型类别,英语能力评测(2024年5月12日)
在中文能力方面,SuperCLUE更新的四月基准表现中,Yi-Large也位列国产大模型之首,Yi-Large的综合中英双语能力皆展现了卓越的性能,可谓正式晋升全球大模型的“极品”。
在更全面的大模型综合能力评测中,Yi-Large多数指标超越GPT4、Claude3、Google Gemini 1.5等同级模型,达到首位。在通用能力、代码生成、数学推理、指令遵循方面都取得了优于全球领跑者的成绩,稳稳跻身世界范围内的第一梯队。随着各家大模型能力进入到力求对标GPT4的新阶段,大模型评测的重点也开始由简单的通用能力转向数学、代码等复杂推理能力。在针对代码生成能力的HumanEval、针对数学推理能力的GSM-8K和MATH、以及针对领域专家能力的GPQA等评测集上,Yi-Large也取得了具有绝对优势的成绩。
国际中英文评测数据集(2024年5月12日)
值得注意的是,上述评测均是在零样本(0-shot)或少样本(4-shot/5-shot/8-shot)的前提下进行。在零样本或少样本的情况下,模型必须依赖于其在大量数据上训练时获得的知识和推理能力,而不是简单地记忆训练数据。这最大程度上避免了刷分的可能性,能更加客观真实地考验模型的深层次理解和推理能力。
此外,从行业落地的角度来看,理解人类指令、对齐人类偏好已经成为大模型不可或缺的能力,指令遵循(Instruction Following)相关评测也越发受到全球大模型企业重视。斯坦福开源评测项目AlpacaEval和伯克利LM-SYS推出的MT-bench是两组英文指令遵循评测集,AlignBench则是由清华大学的团队推出的中文对齐评测基准。在中外权威指令遵循评测集中,Yi-Large的表现均优于国际前五大模型。
发布会上,李开复博士还宣布,零一万物已启动下一代Yi-XLarge MoE模型训练,将冲击GPT-5的性能与创新性。从MMLU、GPQA、HumanEval、MATH等权威评测集中,仍在初期训练中的Yi-XLarge MoE已经与Claude-3-Opus、GPT4-0409等国际厂商的最新旗舰模型互有胜负,训练完成后的性能令人期待。
Yi-XLarge初期训练中评测(2024年5月12日)
Yi-1.5开源全面升级,开源闭源双轨完善生态策略
此次发布会上,零一万物Yi系列开源模型也迎来全面升级,Yi-1.5分为34B、9B、6B三个版本,且提供了Yi-1.5-Chat微调模型可供开发者选择。从评测数据来看,Yi-1.5系列延续了Yi系列开源模型的出色表现,数学逻辑、代码能力全面增强的同时,语言能力方面也保持了原先的高水准。开源地址:Hugginf Face https://huggingface.co/01-ai及魔搭社区https://www.modelscope.cn/organization/01ai。
经过微调后的Yi-1.5-6B/9B/34B-Chat在数学推理、代码能力、指令遵循等方面更上一层楼。Yi-1.5-6B/9B-Chat在GSM-8K和MATH等数学能力评测集、HumanEval和MBPP等代码能力评测集上的表现远同参数量级模型,也优于近期发布的Llama-3-8B-Instruct;在MT-Bench、AlignBench、AlpacaEval上的得分在同参数量级模型中也处于领先位置。
Yi-1.5-34B-Chat在数学能力同样保持着大幅领先,代码能力与超大参数量级的Mixtral-8x22B-Instruct-v0.1持平,指令遵循方面更是在MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0等多个权威评测集上完全超越了Mixtral-8x22B-Instruct-v0.1。
去年零一万物选择以开源首发Yi系列模型,其优异的性能受到国际开发者的高度认可。Yi开源版本2023年11月上线首月,便占据开源社区近5成热门模型排行,发布一个月后Yi-34B被Nvidia大模型Playground收录,成为国内唯一获选模型,也建立了Yi模型面向国际的科技品牌信任度。
以开源模型构建生态,以闭源模型展开AI-First探索,开源闭源双轨模型策略使得零一万物构建起了生态体系。开源模型服务于全球的科研院校、学生、开发者、创业者人群,推动百花齐放的应用滋长;API开放平台提供企业商用,协助企业实践AI 2.0的智能化转型。同时,零一万物以优异的闭源模型能力,正在积极探索与世界500强企业的大型战略合作。开源闭源相互助力,确保零一万物本着TC-PMF的方法论,以更稳健的步伐奔向AGI。
Yi大模型API开放平台全球首发
全球开发者们对开源模型的品牌认可,成为零一万物API服务的强有力支撑。今天,零一万物宣布面向国内市场一次性发布了包含Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark等多款模型API接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform英文站同步对全球开发者开放试用申请。
Yi大模型API开放平台(https://platform.lingyiwanwu.com/)
其中,千亿参数规模的Yi-Large API具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景;Yi-Large-Turbo API则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。
Yi-Medium API优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用Yi-Medium-200K API,一次性解读20万字不在话下;Yi-Vision API具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。
小胰宝是一个在胰腺肿瘤患者群体中广受关注的公益项目,正在寻求以开源方式运营和共建。通过问答的形式,小胰宝AI小助手可以7x24小时为患者介绍综合治疗知识。这一助手背后的技术支持正是零一万物的Yi大模型。使用Yi API调用AI大模型后,小胰宝突破了胰腺肿瘤治疗信息壁垒,可将胰腺癌治疗路线图和治疗方案精准且系统性地呈现给胰腺肿瘤病友。目前,该公益项目已经帮助了3000多位胰腺肿瘤病友,AI小助手在病历和报告解读的准确率也有显著提升,已被某国家级权威三甲医院推荐。
而这也是零一万物的愿景所及之处。能否实现价值落地是一切技术的试金石,模型能力不应当是空中楼阁,大模型公司不仅要放眼AGI,更重要的是要切实推动模型进入各行各业、进入日常生活,让每个人都能享受到AI 2.0所带来的便利。
万知“AI-First版Office”帮你找、读、写
近期上线的一站式AI工作站“万知”(wanzhi.com微信小程序“万知AI”)则是零一万物基于世界领先的闭源模型Yi-Large所做出的“模应一体” 2C生产力应用。依托零一万物闭源模型的强大能力,万知在通用问答、多模态、长文本方面都有着不俗表现。更令人惊喜的是,万知成为业内第一款真正实践了“AI-First”理念、创新性地将模型能力与应用场景完美融合的2C应用产品。
以往发布的大模型2C应用大多定位于“聊天机器人”,万知则针对找、读、写三大场景,将通用问答场景作为交互方式,搭配长文档解读、PPT制作等功能,打造PC/手机多端协同、覆盖工作生活全场景的“AI-First版Office”,为用户提供AI 2.0时代颠覆性的办公体验,创始人李开复也亲自担任“首席体验官”聆听网友反馈。
大模型赛道从狂奔到长跑,需有达到TC-PMF的方法论
在移动互联网的鼎盛时期,PMF(Product-Market Fit,产品市场契合)曾是众多初创企业追求的核心目标。然而,随着大语言模型成为新的创业焦点,仅仅追求产品与市场契合远远不够。
两个时代在创业基础设施层面存在着决定性的差异——在移动互联网时代,用户规模增长所带来的边际成本很低,但是在大模型时代,模型训练和推理成本构成了每一个创业公司必须要面临的增长陷阱。用户增长需要优质的应用,而优质应用离不开强大的基座模型,强大基座模型的背后往往是高昂的训练成本,接着还需要考虑随用户规模增长的推理成本。这一普惠点如何达成、何时到来变得越发难以捉摸。
李开复博士认为,PMF这一概念已经不能完整定义以大模型为基础的AI-First创业,应当引入Technology(技术)与Cost(成本)组成四维概念——TC-PMF。“做Technology-Cost Product-Market-Fit(TC-PMF),技术成本X产品市场契合度,尤其推理成本下降是个‘移动目标’,这比传统PMF难上一百倍。”李开复博士表示。
随着高性能计算硬件的迭代和模型优化技术的普及,大模型推理成本的大幅度下降已经成为可预见的趋势所在。在普惠点终将到来的前提下,能够率先察觉、并达到TC-PMF这一普惠点的玩家无疑会占尽先机。要做到这一点,模型、AI Infra、应用这“三位一体”的优异能力缺一不可。基于此,零一万物将“模基共建”、“模应一体”列为公司的顶层核心战略,在人才密度和协作方式上,也快速打磨出一整套能够媒合不同专业的精英人才进行跨界共创的组织能力。
模基共建:依托AI Infra能力走出增长陷阱
在国内大模型赛道向前狂奔的第一年,模型结构成为行业焦点,鲜少有人注意到AI Infra的重要性。
一个不容忽视的事实在于,中国大模型公司没有美国大厂的GPU数量,所以必须采取更务实的战术和战略。AI Infra(AI Infrastructure人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施,在李开复博士看来,自研AI Infra是零一万物必然要走过的路,零一万物也自成立起便将AI Infra设立为重要方向。
“第一年大模型行业在卷算法,第二年大家在卷算法+ Infra。在国外一线大厂,最高效训练模型的方式是算法与Infra共建,不仅仅关注模型架构,而是从优化底层训练方法出发。”零一万物模型训练负责人黄文灏表示,“这对大模型人才的知识能力提出了全新要求。”
目前来看,模型研究人员只关注算法而忽视AI Infra是国内大模型行业现状。而零一万物选择跟国际一线梯队齐平,模型团队和AI Infra团队高度共建,人数比为1比1。“我们要求做模型研究的人一定要‘往下沉淀’,具备工程能力。这也对齐我们倡导的TC-PMF的方法论。”黄文灏说。
零一万物着力于实现计算效率的优化,经过多方面优化后,零一万物千亿参数模型的训练成本同比降幅达一倍之多。今年3月,零一万物推出了基于全导航图的新型向量数据库笛卡尔(Descartes),其搜索内核已包揽权威榜单ANN-Benchmarks 6项数据集评测第一名。同样于3月,零一万物成功在Nvidia GPU上进行了千亿参数模型Yi-Large的端到端FP8训练和推理,成为全球率先落地该技术的三个案例之一。
底层技术的突破带来了优化成本的新可能。接入自研向量数据库后,零一万物的C端应用在保证响应速率与准确性的前提下,成本大幅降至了原用第三方向量数据库时的18%。在端到端FP8训练的前提下,零一万物能够采用技术和工程手段得到与更高精度类型相媲美的训练结果,与此同时模型训练所需的显存占用、通讯带宽都极大降低。
训练和推理成本的下降固然已经成为行业趋势,但在达标TC-PMF的激烈角逐中,AI Infra优化使得零一万物能够比行业更快、更精准地抵达普惠点。“模基共建”所带来的绝对领先的成本优势,为零一万物争取到了更多时间,推出价廉物美的API和开源模型,进一步催化更多的AI-First应用生态。
模应一体:初步跑通TC-PMF,全球市场打磨造血能力
国内大模型领域陷入混战的2023年初,各式各样的评测榜单铺天盖地,跻身各大榜单TOP的模型不在少数。大模型进入第二年,行业进入更为现实的商业落地阶段,客户/用户都会按照应用侧所展现的能力,用脚投票。如何基于基座模型能力,尽可能提升应用效果,是追赶TC-PMF的重要课题。
基座模型、AI Infra、API、C端应用,全栈式业务部署,使得零一万物能够以更全面的视野来看待大模型时代的增长陷阱,也为零一万物在应用层的商业落地带来了更大的发挥空间。无论是2C还是2B,“模应一体”的思路始终贯穿零一万物的商业实践——模型团队与产品团队紧密结合,摸清模型能力边界,针对某一应用场景去优化专有模型,并最终实现全球范围内的弯道超车。
“AI-First不等于AI Only,”零一万物生产力产品负责人曹大鹏表示,“模型、工程、算法、产品要基于场景深度结合,模型长板匹配刚需高价值场景,构建AI-First工作流,追求极致体验、一站式解决用户问题,而不是单纯秀模型能力肌肉,拿锤子找钉子。”
“万知”正是这一理念的最好证明。“找、读、写”职场人的三大需求精准切入办公场景刚需,AI助力之下的文件撰写提效超10倍,低专业判断的日常白领任务节约时间超8成,联网生成回答、PPT速率远超行业平均水平。万知还创新性地将多模态能力与PDF文档阅读场景相结合,解决PDF文档中大量图表无法识别的痛点。这一功能的实现离不开高性能的场景专属模型——多模态模型Yi-VL-Plus在视觉模型盲测平台Vision Arena上的评测成绩始终保持全球领先。
在行业普遍追求大项目、快增长的背景下,零一万物选择了冷静克制的发展路径,更关注能造血的“高质量增长”。在AI 1.0时代,人工智能还未展现出高泛化性和涌现能力,针对头部客户做私有化部署的模式成为主流,但时间已经证明,偏项目制的重交付模式所带来的营收增长存在上限,其可持续性挑战严峻。
在零一万物API平台负责人蓝雨川看来,已经在海外充分得到商业模式验证的API会是更好的选择。作为标准化产品的API复用性更强,商业模式也更趋近于云服务。比起AI 1.0定制化重交付的模式,API能够更快穿透千行百业,蓝雨川表示,零一万物提供世界第一梯队的模型、最佳性价比的方案,聚焦企业如何用AI为自身业务带来增长。
API与万知等C端应用共同构建起了零一万物的商业落地版图,也成为零一万物追逐TC-PMF的重要实践。在李开复博士的规划中,零一万物将作为具有前瞻性的务实者一步步实现落地,并最终达到TC-PMF,打造出AI 2.0时代的超级应用,实现让通用人工智能普惠各地,人人受益。
在普惠各地的愿景下,海外市场是零一万物不可或缺的一部分。值得一提的是,无论是B端API还是C端应用,零一万物都已开启海外的落地尝试。
去年9月开始,零一万物便聚焦生产力、社交赛道于海外应用展开探索,已有4款产品陆续上线。目前零一万物海外生产力应用总用户接近千万,营收今年预期过亿人民币,已实践出大模型2C产品的TC-PMF——产品ROI为1,初步摆脱烧钱获客,成功验证了AI-First产品的用户订阅制商业模式。API也将面向海外推出Yi-Large、Yi-Large-RAG、Yi-Medium等API,还未上线便已在开发者群体里引发关注。
由于海外市场与国内市场在付费意愿、市场环境方面存在差异,目前万知采取限时免费模式。但据曹大鹏介绍,后续万知会结合产品发展和用户反馈推出收费模式。
TC-PMF所带来的AI普惠点终将来临,这一次市场竞争将不再支持共享单车式的烧钱大战,采用以资金“跑马圈地”商业模式的企业必然会率先力竭,冷静判断行业发展进程,脚踏实地打磨TC-PMF才是更符合长期主义的路线。这场较量将包含模型、AI Infra、产品应用等三位一体多个方面,零一万物已经做足准备。
李开复博士表示,ofo式的补贴逻辑不再适用于AI 2.0,希望大模型赛道的竞争聚焦于达成TC-PMF。零一万物将以全球为目标市场,以更从容的姿态迎接必然被点燃的中国普惠AI市场。