今日,腾讯云发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。实测显示,该集群的算力性能较前代提升高达3倍,据称是目前国内性能最强的大模型计算集群。
一个万亿级的算力市场ChatGPT打破了摩尔定律的限制,也引爆了对AI算力的需求。GPT-4的算力消耗远大于GPT-3和3.5,OpenAI也在不断对Plus付费用户调低阈值,将访问限制由第一天的150msg/4hr降至最近的25msg/3hr,简言之,就是减少用户的提问次数,从而降低算力消耗。
具体来看,据GPT-4的公开数据,在32K的上下文长度下,每1000个token的提问成本为0.06美金,回答完成成本为0.12美金。
与GPT-3的成本对比,GPT-4的输入成本增加了50%-200%,输出成本增加200%-500%。由ChatGPT带来的算力恐慌也蔓延到了国内。
可以说,中国是一片巨大的算力蓝海。一方面,人工智能的发展带动数据流量增长,从而使算力规模激增;另一方面,算力深度融入互联网、电信、金融、制造等行业,助推各行业各领域完成数字化转型。
大模型卷起来,没算力只能躺起来一年以前,90%以上的吃瓜群众,听到大模型仨字儿,都是一脸懵逼。可如今,拜“GPT们”所赐,如果你还不知道大模型,就差不多是数字时代的原始人了。
于是你再看,各种大模型,已发布的、蓄势待发的、闷头苦练的,乌泱泱卷成一片…的确,所有人都看到了通用大模型的价值,也看到了AI真正落地的契机,所以此时不卷,更待何时?
可是,想要炼出一个大模型来,却并不怎么简单↓
我们就拿GPT-3来举例,它的参数量是1750亿个,训练一次的总算力消耗是3640 PF-days。这是个什么概念?假如你家的算力系统每秒能计算1000万亿次,那么需要3640天才能训练完。
而新发布的GPT-4又消耗了多少算力呢?不敢想图片所以,大模型虽好,可想想它要消耗的算力,很多人恐怕就要望而却步了。
以前我们都觉得算力是不是已经过剩了,现在回过味来,在大模型时代,算力的有效供给,其实是严重不足的,尤其是那些由GPGPU提供的异构算力。
带来3.2T超高通信带宽据了解,腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。
计算层面,服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单GPU卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。
针对大模型训练场景,腾讯云星星海服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至最强。
网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。
腾讯自研星脉网络,可为新一代集群带来了业界最高的3.2T的超高通信带宽。在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。同时,腾讯自研高性能集合通信库TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。