文|白 鸽编|王一粟刚上AI大模型的牌桌,字节跳动就要掀桌子了。
近日,字节跳动自研豆包大模型家族产品首次亮相,包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等九款模型。
“豆包家族”并不是第一次发布,而是整合升级了此前字节跳动的云雀大模型和一系列细分模型,统一为一个体系。
据了解,豆包家族将通过字节跳动云计算业务火山引擎正式“营业”,值得注意的是,在现场火山引擎的大模型服务全矩阵图中,底层的大模型服务已经由此前的多个第三方大模型(MiniMax、百川等),全部替换为了豆包家族。
2024年大模型落地元年,大模型将在越来越多的企业场景中,从PoC(验证性测试)走到真实的生产系统。
“不过,落地过程中,仍面临着模型效果不够好、推理成本高、落地应用难等挑战。”火山引擎总裁谭待表示。
激烈的竞争和迫切的需求之下,各家大模型和云厂商都拿出了自己的杀手锏。
随着豆包家族的就位,火山引擎也打出了一张自己的“杀手锏”——降价,将大模型的计价从以“分”计带到以“厘”计的阶段。
以豆包通用模型pro-32k版为例,模型推理输入价格仅为0.0008元/千Tokens,而市面上同规格模型的定价一般为0.12元/千Tokens,是豆包模型价格的150倍。
也就是说,豆包通用模型比行业便宜99.3%。
据火山引擎公布的价格计算,一元钱就能买到豆包主力模型的125万Tokens,大约是200万个汉字,相当于三本《三国演义》。
谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。
事实上,在云计算领域,以价换规模,是近两年来云厂商们的主流做法。
火山引擎作为云计算领域的后来者,从成立之初就一直致力于成为国内的第四朵云,但时至今日,火山引擎在云市场份额统计表中仍属于Other。
现如今,在大模型刚刚落地应用初期,火山引擎就直接开“卷”价格战,想要以大模型落地来抢占云计算市场份额。
就像谭待对光锥智能表示:“大模型尚未真正大规模落地,只要把价格降下来就还有机会。火山引擎最重要的,就是如何把最佳实践做好、市场做大。”
豆包大模型产品思维下的大模型矩阵字节跳动产品和战略副总裁朱骏
棒球帽、T恤和短裤,字节跳动产品和战略副总裁朱骏的这身日常着装,像是刚从公司开完上一个日常沟通会,就上了火山引擎的发布会。
他还用自己没有西装的梗,让大模型做了一张宣传照,批评现在大模型的华而不实。
朱骏的不拘一格,也是字节文化的体现,在拘谨的ToB赛道里格外显眼。朱骏的实用主义和产品价值观也在豆包家族上体现的淋漓尽致。
在朱俊看来,大模型不只是服务器上的一堆代码,而是需要找到最适合的应用形态,以足够自然的交互形式,才能够让更多用户用起来。
相比于其他厂商,字节跳动做大模型的思路,是以做产品的思维,先推动豆包产品用户规模的增长,从而带动大模型能力的提升。
这个思路非常实际,近期一众ToC的大模型应用,也都在疯狂砸钱做增长。同时,在具体产品应用方向上,则更贴近用户。
此前,字节跳动的通用大模型并不叫豆包,而是叫“云雀大模型”。去年,字节跳动内部准备开发大模型产品时,需要为产品取名,最终被命名为豆包。
朱俊现场讲述了最后取名为豆包的三个原则:拟人化、离用户近,以及个性化。
从改名这件小事,其实我们就能够看出字节跳动在大模型落地过程中,现阶段的主要打法之一,是基于大模型的能力,构建更像人,也更懂人的智能体,并使其成为人类的AI助手。
如北京一个五年级的小学生,通过火山引擎旗下的扣子开发平台,开发出了一个青蛙外教智能体。现在,这个小朋友不仅自己使用青蛙外教学习英语,还分享给她的同学和朋友们一起使用。
去年,飞书也上线了基于豆包大模型开发的智能伙伴,目前每天都有大量的企业员工通过飞书的智能伙伴进行工作总结、会议纪要和知识辅助。
朱骏也表示:当前虽然技术在快速演化,但用户核心的需求没有改变,包括高效获取信息、工作提效、自我表达、社交娱乐等等。
与此同时,为了满足不同场景中对智能体的不同需求,此次豆包大模型是以家族矩阵式亮相,不同的大模型,可以满足不同的场景需求。
豆包大模型有两款通用大模型,其中豆包通用模型pro是主力模型,具备理解、生成、逻辑、记忆等强综合能力,支持128k长文本精调,且支持问答、总结、分类、创作等丰富的场景。
在长文本理解的场景中,豆包可以总结分析上传三篇论文中的亮点,还可以让它触及和论文相关的题目,来考察其是否对文档、论文等有非常清楚的理解。
“豆包pro模型非常强大,但在有些场景里,用户对延时和成本会非常敏感,这个时候,豆包通用模型lite是大家更好的选择。”谭待如此说道。
豆包通用模型lite是更具性价比的通用模型,千Tokens成本降低84%,延迟降低50%,它支持闲聊、天气及实时信息查询、音乐视频播放、导航等场景,效果领先传统语音处理50%以上。
如智能汽车的座舱交互,就是一个非常适合lite模型的应用场景。通过豆包lite,汽车厂商可以在低延迟下实现对话,支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景,效果要比传统语音处理高50%以上,让汽车变得更“聪明”。
除了通用大模型外,火山引擎还发布豆包角色扮演模型、语音系列模型、文生图模型、Function call模型、向量化模型等其他细分领域模型。
其中,角色扮演模型支持角色高度定制,能够基于上下文感知自适应用户扮演或陪伴需求,且具有强剧情推动能力,能够持续引导聊天。
豆包语音系列模型中:
豆包语音识别模型具有高准确率和个性化特征,支持多语种识别;豆包合成模型具有自然、多情绪和多演绎特征;豆包声音复刻模型支持5秒复刻,跨语种迁移,与原声具有高相似度。
按照以往字节跳动产品发布的情况来看,基本都是已经在内部经过多个业务线进行测试,并已经相对成熟的产品,才会拿到市场中做泛化应用,如飞书、火山引擎。
字节跳动去年开始加速大模型的研发,谭待现场表示,过去一年中,字节内部50多个业务已大量使用豆包进行AI创新,包括抖音、头条、番茄小说等多个产品。同时基于豆包大模型打造的同名豆包APP,在苹果APP Store和各大安卓应用市场,下载量一度在AIGC类应用中排名第一。据朱骏透露,豆包上已有超过800万个智能体被创建,月度活跃用户达到2600万。同时,火山引擎也以邀测的方式,和不同行业的头部客户对基于豆包大模型进行深度共创,包括手机、汽车、金融、消费、互娱等等领域。“好的技术,一定是在大规模应用,在不断应用情况下不断打磨才能形成的。大模型也一样,只有在真实场景中落地,用的人越多,调用量越大,才能让模型越来越好。”官方数据显示,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。“这么大的使用量,这么多的场景,让我们觉得一切已经就绪。”谭待的这句话,无疑表露了字节跳动大模型要向企业端落地应用的决心。
除了价格火山引擎还有什么牌?豆包家族的首次亮相,可以看作是字节跳动大模型发展的转折点,即经过内部AI产品赛马之后,字节收拢了经过产品验证的大模型能力,并通过与火山引擎的结合,开始全面做增长。
于火山引擎而言,相比较目前主流云厂商们来说,受制于字节本身大模型开发节奏问题,火山引擎在自研大模型的应用上的步伐,始终迟了一步。
迟来的开局,B端业务的“慢”特点,让火山引擎没办法像短视频一样,快速实现弯道超车。但从豆包的能力,和火山引擎当前大模型落地的思路来看,其与行业头部的差距,正不断缩小。“一定要降低门槛去做。”谭待对光锥智能说明了火山引擎推动大模型向B端落地应用的策略,降低门槛,不光是价格上的降低,更重要的是能够大模型能够更简单快速的实现落地应用。AI应用开发平台“扣子”,是火山引擎加速大模型快速落地应用的关键抓手。目前主流云厂商和大模型企业,都在推AI应用开发平台,比如阿里云的魔搭、百度的千帆等等。
扣子,也可以理解为是智能体定义平台,无论是否有编程基础,都可以在扣子上快速搭建基于大模型的各类Bot,并将Bot发布到各个社交平台、通讯软件或部署到网站等其他渠道。此次大会上,火山引擎也发布了扣子专业版,相比于面向C端的扣子平台,企业版会根据企业的需求,以扣子平台为基础做进一步封装。据介绍,扣子专业版会额外提供企业级SLA保障,并且还有很多高级特性,包括自定义精调模型、自定义算力单元等,能够让企业在应用扣子便利性的同时,也能够保障它的高性能和它的定制化,让企业能够高效便捷地开发专属智能体。现场,扣子产品经理潘宇扬表示,目前扣子平台已经有了海底捞、超猩猩、招商银行、猎聘等多位B端客户。而扣子之所以能够被这些企业所应用,主要还在于基于C端积累的优势,即使用门槛低,一句话或一张图就可以组成一个Bot,并且这个Bot更了解用户。一方面,扣子平台可以提供长期记忆、数据库、文件盒子等功能,可以让Bot记住用户喜好,并做个性化推荐。另一方面,其可以提供插件、触发器、知识库等能力,可让Bot不断获取新的信息,从而更了解用户周边世界。“大模型的到来,让开发变得更加简单。通过AI原生开发平台,我们有机会让每个人、每家企业都成为AI的开发者。”谭待说道。AI应用开发平台和云底层基础设施,要同步升级,火山引擎才能赶上大模型时代的快车。自从去年发布MaaS服务平台火山方舟以来,火山引擎就希望通过推动基础设施的方式,加速大模型在行业的落地。在豆包大模型亮相后,火山方舟也推出2.0版,发布了3个重要插件,包括联网插件、大模型内容插件、知识库插件等,帮助企业大模型实现应用落地。同时,方舟2.0还全面升级了系统承载能力、安全保护能力和算法服务能力。借大模型抢云计算市场大模型带来的全新AI时代,正在成为云计算市场中的最大变量。自成立之初,火山引擎就一直希望成为国内“第四朵云”。火山引擎借大模型,能否实现弯道超车?从战略打法来看,火山引擎放出了三个大招:第一就是低价。于当下企业而言,算力成本、推理成本十分高昂,而做企业市场,企业的痛点就是第一驱动力,因此火山引擎以低价为引子,切入企业市场。火山引擎直接将豆包大模型的价格低于行业99%。不过,谭待也表示:“To B的业务要求长期的定力,用亏损换收入是不可持续的,未来我们也会持续通过技术降低成本以降低价格。”低价是吸引企业客户的一个手段,但并不能成为影响企业选择火山引擎的唯一因素。因此,火山引擎的第二个战略打法,就是聚焦字节的核心产品生态资源上,以C2B的形式,更好的推动大模型在各行各业的落地应用。本次会上,光锥智能发现火山引擎大模型服务全景图,其大模型服务主要聚焦三类应用场景,包括ToC的终端应用、ToB的场景应用以及行业应用。相比较其他云厂商来说,火山引擎在大模型领域的核心竞争优势之一,是来自于字节系中抖音、今日头条等搜索和内容的丰富生态资源,尤其是通过与抖音巨量引擎相结合,在数字营销、AI销售、文本/视频等内容创造上,而这也是火山引擎在AI应用层为企业提供服务的关键。其中,在ToB 场景应用上,火山引擎也推出具有字节特色的产品,即搭载豆包大模型的智能创作云2.0版本,这是一个批量生成视频的智能SaaS平台,主要帮助电商卖家批量生成商品素材。通过大模型的支持,用户只需要输入简单的营销描述,智创云2.0就能生成视频文案、脚本和相关素材,并通过模板与混剪能力的搭配,帮助客户在电商、生活服务等场景快速创作营销视频。另外,在面向ToC 的终端应用上,除了早就推出的豆包和扣子,也新加入了4个垂类领域的AI平台,分别面向智能学习、生成式AI、AI互动娱乐和AI分身。这4个垂类领域,也跟字节的核心业务优势息息相关。C2B虽然能够给火山引擎带来一定的生态资源优势,但对于云计算市场而言,更简单粗暴且真正有用的策略,在于买卡卖算力。据光锥智能了解到,受大模型浪潮影响,字节的云计算业务火山引擎的营收增长也比较可观。得益于字节前期储备了大量英伟达的GPU,很多大模型创业公司都愿意主动加入到火山引擎的生态中,从而拉动了火山引擎的增长。同时,在底层基础设施上,火山引擎也推出了针对大规模AI场景的混合云产品veStack智算版。据介绍,veStack智算版提供了从IaaS到机器学习平台全栈的智算解决方案,可支持万卡集群、3.2T高性能无损网络;并且能提供端到端工程优化的97.78%训练加速比,分钟级故障发现和自愈恢复;支持十余种主流GPU卡的主流型号,能够去兼容各种各样的异构算力。通过veStack智算版,企业能够非常容易地搭建超高稳定性、超高效率的AI基础设施,能够大幅提升自己的算力效率,能够轻松地实现对万卡集群的管理。不过,虽然第一波先靠卖算力赚到第一桶金,但对火山引擎来说,未来靠使用这些大模型公司的算法而再次为云计算业务付费的客户,才是更吸引人的。同时,于云厂商们来说,生态联合会比单打独斗更能够为企业提供一体化服务,加强云厂商与企业之间的粘性。因此,此次火山引擎也发布了“万有计划”——豆包企服联盟,这是“万有计划”针对大模型应用的一个专项计划,豆包企服联盟将提供一揽子的支持措施,帮助SaaS企业实现自身的AI升级,最后这些SaaS企业与火山引擎一起为客户提供更多开箱即用的AI应用。现阶段,火山引擎已经从底层基础设施,到中间工具链、开发平台,再到上层AI应用,以及最终的生态体系,搭建了全栈AI服务体系。AI大模型时代的来临,给云厂商们提供了第二增长曲线,于火山引擎而言,则是其是否成为国内第四朵云的机会。