通用大模型犹如大模型产业的地基,而地基的深度和强度将决定大厦的高度。
文|周享玥
编|赵艳秋
11月29日,第四届人工智能计算大会(AICC 2023)在北京长安街中央商务区的一家酒店内召开。
今年异常热闹,包括百度、智谱AI、百川智能、网易伏羲、吉利汽车等在内的多家大模型企业和科技企业汇聚一堂,共同探讨AI计算技术风向、AIGC创新成果等。国际数据公司IDC和浪潮信息还在会上联合发布了一份《2023-2024年中国人工智能计算力发展评估报告》。
报告显示,67%的中国企业都已开始探索生成式人工智能在企业内的应用机会或进行相关资金投入。其中,中国企业尤其认可生成式AI对于加速决策、提高效率、优化用户和员工体验等维度带来的价值,并将在未来三年持续提高投入力度,超七成企业增幅在20%-40%之间。
随着越来越多企业对生成式AI及大模型进行探索和投入,通用大模型的能力也在不断被强调。一个共识是,通用大模型犹如大模型产业的地基,地基的深度和强度将决定大厦的高度。
底层的大模型厂商们正为此做出努力。就在这次会议召开前两天,浪潮信息刚刚发布“源2.0”基础大模型,并全面开源1026亿、518亿、21亿三种参数规模的模型。
据悉,这是业界首个完全开源可商用的千亿大模型,也是目前国内尺寸最大的全面开源大模型。而上一个在国内“最大参数开源大模型”记录中留下过名字的是阿里。彼时,阿里巴巴集团CEO吴泳铭在2023年世界互联网大会上宣布,阿里将开源720亿参数大模型。
在通往大模型的未来之路上,持续拓宽行业落地的同时,打好地基,依然是重中之重。
01
大模型在路上,发展路径百家争鸣
大模型虽然今年才真正爆发,但业界对于这块儿的探索,其实已经经过几轮思考沉淀和总结。一位资深业内人士向数智前线描述了大模型发展的几个阶段:
以2018年谷歌发布拥有3亿参数的BERT预训练模型作为起点,AI的大模型时代就已开启,包括OpenAI、谷歌、微软、英伟达等国外玩家,浪潮信息、百度、阿里、腾讯等国内巨头,都纷纷重兵投入,进行相关探索。
起初几年,大家的焦点是拼参数,“每家都是奔着吉尼斯去的,你做千亿,它就做万亿”。尤其是2020年5月OpenAI发布拥有1750亿参数的GPT-3,首次将大模型参数规模提升到千亿级后,各种千亿、万亿大模型层出不穷,看得人眼花缭乱。对外宣传口径上,各家的提法也很统一,都在强调自己的“最大”。
这期间,更大参数量所带来的智能涌现和泛化能力,让不少人感到惊喜,但同时,也暴露出一些问题,比如当大模型要真正落到智算中心做工程化时,往往会遇到算力支撑上的巨大考验。再加上正常的技术商业化路径,大家普遍开始走入第二阶段:探索在什么样的场景里去应用。
“有的面向知识领域去做技能模型,有的面向行业直接去做行业的场景模型。”大模型走向行业、走向领域应用的路径是什么,大家都在思考。
比如百度,在2022年5月一口气发布了十款大模型,其中既包括与产业场景相结合的行业大模型,也包括做了知识增强的任务大模型。
浪潮信息也在2022年年中,推出了基于“源1.0”基础大模型的4个技能大模型——对话模型“源晓问”、问答模型“源晓搜”、翻译模型“源晓译”,以及古文模型“源晓文”。
但这些探索和尝试都还只能算是“小打小闹”的中间态产品,尚未能在外界引起轰动,有人士后来反思,过早地进行领域模型和场景模型的应用,实际是牺牲了部分泛化能力的。直到ChatGPT的横空出世,这场大模型热潮才真正被引爆。业界的各种思潮开始迅速活跃起来。
IDC的报告显示,目前,67%的中国企业都已开始探索生成式AI在企业内的应用机会或进行相关资金投入。具体到应用场景上,知识管理、对话式应用、销售和营销、代码生成等是全球企业应用生成式人工智能的主要场景。
过去几个月里,一些大模型的先行先锋用户们,也已基于自身实践形成了各自独有的路线和方向,大模型还是一个新鲜事物,大家的观点各不相同。
不少企业通过对行业大模型的微调,在某些场景下尝试落地大模型。不过,也有一些企业不认同行业大模型。
航旅领域里,中国航信一位工程师告诉数智前线,他们希望基于基础大模型来做民航智能服务平台,而不是经过剪裁了知识面的行业大模型。这背后的思考是,通用大模型的能力会随着参数扩大而升级,但行业模型是基于某个版本的通用模型,投喂相应的专业数据训练而成。通常,基础大模型会做参数升级,而行业模型很难同步,这不利于模型的智能水平。
有企业则在不断反思,行业落地与基础模型性能提升如何齐头并进的问题。一家大模型产业链企业告诉数智前线,大模型在行业内的落地速度,实际落后于他们年初预期,其中很大一部分原因,是因为国内的基础大模型还不够成熟,性能仍有待提升。
11月初,GPT-4 Turbo的炸街式发布,更加深了业界对大模型基础能力提升的迫切性。“现在最可怕的事情是,OpenAI在开发者大会上展现出来的能力,又把我们跟GPT-4之间的差距拉大了。”浪潮信息高级副总裁刘军表示,如何持续不断地去缩小这种差距,甚至再往后实现超越,是目前国内大模型行业面临的核心问题。
刘军认为,AI产业一定会快速增长,但只有当产业足够壮大时,每个参与者从中切到的蛋糕才会越大。因此,国内大模型从业者首先要做的,是让蛋糕做大。而这其中的一大核心,就是让基础大模型的能力提升上去。这就好比人才的教育过程,绝大多数情况下,首先有了较强的基本能力和素质,才能在不同专业、行业里干得更好。否则,客户体验很差,用不起来,也就难以转动商业模式。这也是浪潮信息选择全面开源“源2.0”基础大模型的原因之一。
02
基础大模型正百花齐放
浪潮信息人工智能软件研发总监吴韶华告诉数智前线,去年11月ChatGPT发布后,其展现出的全新的能力虽然对业界震撼很大,但方法上有迹可循。“通过源1.0+强化学习,我们很快赶上,也做出了类似ChatGPT这样一套系统,在内部持续迭代和改进。”
“GPT-4发布后,我们重新审视了原来的方案,一直在思考一个问题,它到底通过什么样的技术实现了非常强的基础模型能力。”而这些思考都落在了11月27日浪潮信息最新发布的源2.0上。
“源2.0”不仅在数理逻辑、代码生成、知识问答、中英文翻译、理解和生成等方面有显著的能力提升,还针对行业在算法、数据、算力方面的普遍痛点,提出了三项创新。
算法方面,源2.0提出并采用了一种新型的注意力算法结构:局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。
有别于传统 Transformer“捕捉全局信息和长依赖信息能力”,LFA 具备“捕捉局部信息和短依赖信息能力”,使得模型更精准地掌握上下文之间的强语义关联,学习到人类语言范式本质。
比如,“我想吃中国菜”这样一句话输入到模型中时,首先会进行分词——我/想/吃/中国/菜/,而传统Attention对这6个token将同等对待。但在自然语言中,“中国”和“菜”实际是有着更强的关系和局部依赖性的,LFA正是通过先学习相邻词之间的关联性,再计算全局关联性的方法,学到自然语言的这种局部和全局的语言特征,进而提升模型精度。
“我们对大模型结构的有效性进行了消融实验,相比传统注意力结构,LFA模型精度提高了3.53%。”吴韶华表示。在最终的模型训练上,最大参数只有1026亿的源2.0,在LFA算法的加持下,也能比用2457亿参数的源1.0,训练同样大小Token数的Train Loss降低28%。而训练的损失曲线越小,意味着大模型对于训练集的特征学习得越好。
数据是另一个被重点提升的方面。刘军告诉数智前线,原来大家粗放式经营的特征比较明显,"好像给它足够的数据,只要用算力不停去训它,最后就能炼出金子来。”但炼金术其实也是需要有高品质的金矿才能练出纯度更高的金子。
后来,大家都重视起了数据的清洗工作,但想要获得高质量的数据集并不容易。比如源1.0,使用的数据绝大部分都来自于互联网,浪潮信息为此采用了很多手段提纯,才在800多TB数据中清洗出了一个5TB的高质量数据集。
尤其是高质量数学、代码等数据的获得上,难度还要更大。吴韶华透露,为了获取中文数学数据,他们清洗了从2018年至今约12PB的互联网数据,但仅获取到约10GB的数学数据,且质量分析后依然不够高,投入巨大,收益较小。
于是,此次推出的源2.0,在训练数据来源、数据增强和合成方法方面都进行了创新。一方面,通过引入大量中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比;另一方面,用大型语言模型作为训练数据生成器,在每个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。
而在算力方面,源2.0采用非均匀流水并行的方法,综合运用流水线并行+优化器参数并行+数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题,以此降低了大模型对节点内芯片间通信带宽的需求,让其在硬件差异较大的训练环境中也能实现高性能训练。
“相当于给你一条高速公路时,能跑到每公里200公里的时速,但给你一条羊肠小道,也能跑起来,并把最终的结果跑到。”刘军解释说。
浪潮信息在算法、数据、算力上的创新,直接推动了源2.0在代码、数学、事实问答方面的能力提升。据介绍,后续的源2.5、源3.0等,依然还将从算法、数据几个角度入手。
实际是,不仅仅是浪潮信息,其他一些底层大模型厂商们,也都在持续迭代和升级自己的基础大模型能力。
10月,百度发布文心大模型4.0,宣布实现了基础模型的全面升级。而后不久,阿里透露,即将开源 720 亿参数大模型。
这在不少业内人士看来,是一种好的发展趋势。毕竟,产业要健康发展,不能只有一家公司拥有领先的能力,而是需要整个产业能百花齐放。
“对于用户来说,是不是最后就变成只有一家赢呢?其实不是这样的,我们认为,未来的生成式AI,会是一个多元化的生态,每个模型可能都有它最擅长的能力,那么大家加起来就是一个非常棒的能力集合。”刘军告诉数智前线,将来行业用户最终去部署的时候,可能会有不同的模型在后面在做支撑,而这些都是基础大模型的力量。
03
从硬件到更大市场
随着大模型在各行各业的持续渗透和深入,企业对大模型厂商提出的需求,已经不仅仅局限于大模型本身的能力,也在迅速扩展到模型训练经验、优质数据集,以及如何解决算力效率、存储、网络等方方面面的问题。
“我们的算法工程师和实施工程师比我们的服务器还抢手,他们出差去跟各家的交流,都排得非常满。”一位浪潮信息的人士告诉数智前线。作为国内最大的AI服务器提供商,同时也是国内最早进行基础大模型建设的厂商之一,浪潮信息在今年大模型的风潮起来后,接到了大量客户关于模型预训练、数据处理、架构调优等方面的需求。
比如浪潮信息从866TB海量数据中清洗出了5TB的高质量中文共享数据集。刘军透露,据不完全统计,目前国内大模型中,已有超过50家使用了浪潮信息的开源数据集。另外,浪潮信息在模型快速收敛、效率提高上的经验和方法,也受到广泛关注。
模型训练效率的提升则是更大的一个话题,直接关系到巨大的成本问题。尤其是在GPU短缺的大背景下,如何将有效地将算力用好,是每家企业都要面临的挑战。
在今年8月那场集结了20多位国内大模型“顶流”创业者的西溪论道闭门会上,李开复就曾表示,很快大家就会发现,做过大模型 Infra (硬件底层)的人比做大模型的人还要贵、更稀缺,而会做 Scaling Law(扩展定律,模型能力随着训练计算量增加而提升)的人比会做大模型 Infra 的人更稀缺。
客户愈加复杂的需求,正在促使大量的大模型厂商,尤其是实力雄厚的大厂们,开始不断在角色和业务上加速转变和拓展。人工智能产业链上,各种跨界动作也愈发频繁,业界有着“软件企业向下,硬件企业向上”的现象。
可以看到,此前,百度、腾讯、阿里等多家大模型厂商,都向用户提供了大模型相关的工具链。一些大厂,也在加快切入用户更新的一些需求。比如,腾讯云面向大模型时代的新需求,在今年7月发布了AI原生向量库,最近又宣布将向量数据库检索规模从十亿升级至千亿级别。京东云则看到了大模型用户在存储方面遇到的新挑战,正在加大相关的业务投入。
浪潮信息对自己的角色定位也在发生改变。刘军坦言,“我们越来越不认为自己是个硬件厂商,如何把硬件这个生意转化成更大的生产力,我们必须去理解客户的应用需求和痛点,这也要求浪潮信息不仅仅是硬件,在系统、软件、算法上,也都要非常强的团队和能力。”
刘军表示,浪潮信息目前在大模型上的核心思路是,要发挥自身的优势和对产业的理解,建立一个强大的基础大模型,然后通过开源的方式,将做应用、做行业、做专业、做技能的工作,交给生态伙伴、行业客户和开发者去完成,共同推动大模型的创新、使用和落地,而不是和大模型企业、软件厂商去竞争。
为此,8月24日,浪潮信息正式发布了大模型智算软件栈OGAI (Open GenAI Infra) “元脑生智”。这是一套基于浪潮信息过往积累的大模型的工程经验、服务客户的经验等,打造的面向生成式AI开发与应用场景的全栈软件,涉及从集群系统环境部署到算力调度保障再到大模型开发管理。
OGAI一共分为五层,各层对应不同的应用场景,每层间是解耦的,用户需要哪些工具,就可以调用哪些。其中,从 L0 到 L2主要针对的是大模型基础算力环境的效率提升。L3和L4则分别为大模型训练层和多模型纳管层,提供的功能类似互联网企业的工具链,不同的是,OGAI可以为企业提供本地化和私有化部署。
数智前线获悉,目前,浪潮信息在帮助合作伙伴和客户更好地进行大模型的训练和应用上,已经有了不少实践。
比如,某互联网企业在使用AI集群,对面向推荐场景的大模型进行训练时,遇到了模型数据不能及时从存储读取,导致GPU空闲和训练性能低下的问题,企业内的算法团队用了几个月也没能攻克。
浪潮信息的AI团队介入后,发现在其场景中,大模型对数据读取IO的需求远超一般的AI模型训练情况,从而导致针对普通模型训练的服务器配置在推荐场景中出现了不适配的情况。针对这一特殊需求,浪潮信息团队最终基于自身经验,通过对CPU BIOS中的mps等多个选项配置进行对性的的修改优化,解决了这一问题。
网易伏羲则在浪潮信息提供的AI算力服务、高质量共享数据集等助力下,训练出了110亿参数的中文预训练大模型“玉言”,并登顶中文语言理解权威测评基准CLUE分类任务榜单。
“未来,我们将重点围绕开源社区来做建设,通过持续开源基础大模型的形式,尽可能广泛地赋能更多的用户场景,扩展基础模型的能力边界。”吴韶华说。浪潮信息也将通过元脑生态,联合国内众多做大模型的左手伙伴,和面向行业的右手伙伴,一起推进大模型落地行业。