大模型落地,不能光建基础设施。
文|游勇
编|周路平
为了能够让大模型在企业场景中快速落地,云厂商真的是操碎了心。
9月4日,天翼云正式宣布息壤一体化智算服务平台训推服务能力迎来升级。一年前,天翼云就将大模型开发训练过程中的关键流程、技术和实践经验进行总结封装,对外输出帮助AI开发者进行大模型研发。相当于云厂商在解决大模型的训练、推理和部署上的各种难题,而行业客户只需要结合自己的应用场景和行业知识,就能快速实现AI应用及大模型的落地。
这次的息壤一体化智算服务平台训推服务能力升级,天翼云新增了多个模型供给,开放了数据集,以及在全链路故障感知和恢复、全链路日志监控和断点续训等技术层面做了更新,以满足行业客户在大模型研发、训推用各环节的需求。
经过过去一两年时间的演进,大模型服务的重心已经从早期简单地提供算力等基础资源,向提供全栈的智算服务平台化转变,这也是当下大模型实现业务落地和应用闭环的关键。
01
大模型AI应用需求旺,但落地痛点多
大模型技术热潮,一度让AI行业经历了“千模混战”的跑马圈地局面,整个社会对智算资源与服务的需求,也伴随着大模型疯涨起来。IDC分析师告诉数智前线,在算力供给端,今年已出现了不少1000P级别规模的智算中心,但对智算需求仍然处于高速增长阶段。
热潮之下,业内也一直保持着这样的冷思考:国内并不缺大模型,基础模型太多,而具备专业能力、深度适配业务场景应用的行业大模型太少,呈现出“基础丰富,应用不足”的局面。
今年年初,“人工智能+”行动首次被写入了政府工作报告,千行百业都在加速探索如何将人工智能技术与具体业务场景结合,实现降本增效和高质量发展。大模型的研发和行业对智算需求的方向,逐步趋向与实际需求结合落地。
但大模型的研发不是一蹴而就的,整个训推过程需要海量资源支撑,面临很多复杂技术问题:
首先是训练部署的工程化复杂。ChatGPT当时的成功一个很重要的原因在于其强大的工程化能力,而大模型的训练部署工程是一个多阶段的过程,涉及数据清洗、数据标注、模型训练、模型压缩、评测、部署等诸多环节,需要行业专家、AI人才紧密合作,进行大量的模型调优工作。
其次是保障训推的效率和稳定性。在真实的运行环境中,企业往往采用多种架构的混合芯片,但异构环境也带来了兼容性和稳定性的问题。硬件故障更容易使得训练频繁中断,造成很大的算力资源浪费,无形中推高了企业训练或者应用大模型的成本。
再者是高质量数据匮乏、数据调优成本高。业内一位专业人士的观点很有代表性,“中国大模型的发展,需要解决算力资源短缺和高质量中文数据语料库短缺和使用难的问题。”
众所周知,通用大模型存在幻觉和不可解释性的问题,使得其很难在具体业务场景中直接使用。大模型的落地和应用还需要做大量的调优工作,需要高质量数据和行业知识的投喂,同时与企业真实的场景和实时数据接轨,确保大模型反馈的信息及时、准确。如此繁琐的数据的处理、清洗和标注工作,无形中造成高质量数据的获取成本很高。
此外,保证大模型输出内容的安全性和价值观准确,也是重要的考量。大模型的输入数据量庞大,但输出的内容并不完全可控,容易出现内容错误、价值观偏差的情况,因此如何保障内容安全、数据安全、系统安全的也成为大模型研发的一大难点。
02
一站式平台解大模型落地之痛
打造符合行业需求的大模型及应用、降低用户训推用大模型的门槛,一直是云厂商努力的方向。
针对大模型研发的痛点需求,天翼云将开发训练过程中的关键流程、复杂技术和实践经验进行总结和抽取,构建了一个覆盖大模型开发训推全链路的息壤一体化智算服务平台,简化大模型从训练到部署的全流程。
息壤一体化智算服务平台包含了模型广场、模型服务、数据管理、模型开发与训练、模型评估、模型管理、服务部署等模块,就好比大模型生产应用的流水线,能大幅降低大模型训练、微调、部署、推理的门槛,让客户专注于模型升级和应用落地。
息壤一体化智算服务平台预置了丰富的大模型库,包含Llama系列、Qwen系列、智谱系列、书生浦语系列等多达29个主流大模型,涵盖不同参数量级,既有开源模型,也有闭源模型,开发者不需要自己搭建开发环境,一键就可离线复现快速构建自己的AI应用。
本次平台升级,新增了包括商业闭源大语言模型Baichuan4、主流开源大语言模型书生浦语2系列的InternLM2-Chat-7B和InternLM2-Chat-20B、图文多模态大模型Qwen-VL-Chat,以及Qwen2系列、Qwen1.5系列和Llama3系列的等多个重量级模型,满足各类用户的需要。同时,平台新增了体验中心,当前支持9个主流模型的在线互动体验,让用户先看到效果,再来决定调用适合自身业务的模型,降低了决策门槛。
为了更好的为用户提供高质量数据服务,天翼云在息壤一体化智算服务平台内置了专业的大模型数据集,首批推出了超120万对文本和语义识别类通用大模型训练所必须的问答对数据,主要面向客服问答场景,解决了大量中小型企业训练数据不足的难题。
未来,天翼云也将和OpenDataLab合作,接入超7000个中文数据集,为国产大模型提供高质量的开放数据集。
在性能方面,平台打造了全链路故障感知和恢复、全链路日志监控和断点续训等核心技术,让全链路监控训练更稳定。
升级后的息壤一体化智算服务平台,支持全链路故障感知定位,实现1分钟检测、5分钟定位、1分钟内告警;支持全链路日志监控、训推过程可视化,保障训推任务可靠运行,本次版本新增网络I/O监控;支持断点续训,其能力达到行业前沿水平,在Llama2-70b模型万卡规模测试场景下在主机故障、NPU卡故障、进程退出故障、网络超时故障四大类具体场景下,断点续训测试达到秒级故障检测,分钟级故障定位和自动化处理,分钟级训练恢复。
更为重要的是,息壤一体化智算服务平台在万卡规模训练场景下达到业界领先水平。当万卡集群成为大模型训练的“标配”之际,该平台已成功搭载于天翼云在上海、北京建成的两个万卡规模的公共智算中心,成为国内首个单集群万卡国产化全功能预训练云服务平台。
息壤一体化智算服务平台具有超大模型、极致优化、超高性能的优势,面对4000亿参数的开源单体稠密模型Llama3 405B,息壤一体化智算服务平台在万卡规模下顺利拉起并完成训练,MFU达到43%,在业界达到了领先水平,这对国产算力发展很有意义。
在全栈技术能力的支持下,天翼云息壤一体化智算服务平台已经可以满足不同层次客户的需要:
比如有些开发者希望直接调用通用大模型的服务,将智能对话、内容创作等通用能力以API的形式集成到业务中,息壤一体化智算服务平台可以面向这些多样化的应用场景,提供丰富的功能和强大的支持;而有些具备深厚行业背景和场景专业知识、拥有丰富数据资源的行业客户,希望打造自己的垂类大模型,则可以基于息壤一体化智算服务平台提供的工具链和低代码能力,无需深入掌握复杂的算法知识,以拖拉拽的方式,即可完成模型的配置、精调。
中国中医科学院中医药信息研究所也用到了天翼云的大模型学习机,完成文献或者临床数据的治理工作,包括自动抽取、标准化等任务。息壤一体化智算服务平台提供标准镜像、低代码等能力,无需搭建繁杂的IT设施,不用操心软件运行环境,开箱即用。此外,在中医垂类大模型的微调、应用发布方面,平台将提供算法支持和模型优化工具,帮助客户充分挖掘中医药数据的内在价值。
而针对那些有复杂训练需求的大模型厂商,他们的诉求更多是高效稳定地利用计算资源。但现在动辄千卡甚至万卡集群,这些GPU卡不是简单地堆叠一起,超大规模集群的运维管理有很多技术挑战:一是如何发挥集群的并行效率,提高利用率;二是节点发生故障时,如何快速定位和排查。前者提高训练效率,后者影响有效时长。
息壤一体化智算服务平台可以向下纳管智算硬件资源,为大模型厂商提供了专业的开发工具,通过AI加速引擎帮用户最大程度发挥算力价值。
03
没有AI就没有云的未来
云资源的弹性敏捷给AI提供了最坚实的基础,无论是公有云、混合云还是私有云,当下的人工智能训推用基本都依赖云。而人工智能的发展也在反哺云市场。
IDC在最新发布的《全球软件和公有云服务支出指南》中指出,AI的快速发展极大地推动了云计算支出的激增。随着企业越来越多地构建、测试和部署AI平台,AI创新与云基础设施之间日益增强的相互依赖性使云服务成为AI开发和部署的支柱。
没有AI就没有云的未来。云智一体已经成为云厂商对外服务的常态,大模型带来的智算服务也为当下云市场带来新的增长动能。
作为云计算里的国家队,天翼云在AI时代有其独特优势,尤其在智算服务层面。
比如在智算资源供给方面,天翼云在上海、北京建设两个万卡集群,同时广泛布局了区域中心和边缘算力,在全国超过280个地市构建“一城一池”节点以及部署了超过1000余个边缘节点,并按需下沉AI云电脑算力和推理算力,确保算力资源的广泛覆盖和灵活应用。天翼云已经形成了多层次、多维度的智算布局,能满足不同地区、不同行业和场景的智算需求。
如今,天翼云已经围绕智算云打造了完整的能力和全栈工具链,除了上述提到的覆盖全国的算力基础设施和端到端的一体化智算服务平台,天翼云最近正式上线了魔乐(Modelers.cn)开发者社区,提供超过千款的原生模型、极致易用的工具链以及丰富生态资源,持续加速智算云生态的布局和建设,希望借助生态力量,为客户和开发者实现商业模式的闭环。
在方兴未艾的AI时代,天翼云作为云服务国家队,将在AI大模型加速发展之路上,承担起重要的使命,扮演着独特的角色。