各位小伙伴们大家好哈,我是老猫。
今天跟大家来聊聊数据中心网络。
提到网络,通常把网络比作高速公路,网卡相当于上下高速公路的闸口,数据包就相当于运送数据的汽车,交通法规就是“传输协议”。
如高速公路也会堵车一样,网络这条数据的高速公路也会遇到拥堵问题,尤其是在人工智能快速发展的今天,这对数据中心网络提出了更高的要求。
今天我们就来聊聊,到底什么样的网络才能满足AI时代的需求?
▉为什么现在的网络不行了?
网络发展了这么多年,为什么最近频频被拿出来说,为什么传统的网络成为了现代数据中心的瓶颈?
毫无疑问,这与AI、机器学习等密集型计算场景脱不了关系。这些场景对算力需求越来越大,据IDC统计,全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。要满足越来越高的算力需求,在算力增加的同时,也需要充分提高算力的利用效率和通信性能,那么作为数据中心三大核心组件之一的数据中心网络就将面临挑战。
这是因为,在传统的在冯·诺依曼架构体系中,网络一般只是起到数据传输的作用,计算都是以CPU或GPU为中心,而当ChatGPT和BERT等大型复杂模型将其工作负载分配到数量众多的GPU进行并行计算时,将产生大量的突发梯度数据传输,从而容易导致网络拥塞。
这是传统冯·诺依曼架构的一个天然弊端,在算力提升的AI时代,无论是提升带宽还是降低延迟都无法解决网络这一问题。
那么如何继续提升数据中心网络的性能呢?
▉有没有提升网络性能的新方式?
要想提升网络性能,传统的方式一般有两种,提升带宽和降低延迟。这两种方式很好理解,就像在高速路上运送货物一样,要么提升道路的宽度,要么提升道路的限速,从而解决网络拥堵的问题。
我们日常生活中遇到网络过慢也会采用这两种方式,要么加钱升级更高的宽带,要么购买性能更好的网络设备。
但这两种方式对网络的提升是有限度的,当带宽升级到一定宽度,当设备达到一定的级别,网络实际性能就很难再往上提升了,这也是当前AI时代网络出现瓶颈的主要原因。
那目前有没有提升网络更好的解决方案呢?
答案当然是肯定的。为了加速模型训练和处理大量数据集,作为全球AI算力霸主,英伟达也早就发现了传统网络的瓶颈。为此,英伟达选择了新的道路:让计算围绕数据来部署。简单来说就是数据在哪儿,计算就在哪儿:当数据在GPU上,计算就在GPU上;当数据在网络中传输时,计算就在网络中。
简而言之,就是让网络不仅保障数据传输的性能,还要承担一些数据处理的计算。
通过这种新的架构方式可以让CPU或GPU专心做自己擅长的计算任务,将一些基础设施操作工作负载分配到网络连接的节点上,从而解决网络传输中多打一的瓶颈问题或丢包问题。据了解,通过这种方式可以使网络延时降低10倍以上。
所以,也让基础设施计算成为我们现在以数据为中心这种核心计算架构的关键技术之一。
▉为什么DPU能带来网络的提升?
提到基础设施计算,就不得不提DPU这个概念,DPU的全称为Data Processing Unit,是数据中心第三颗主力芯片,它的出现主要是为了分担CPU在数据中心中除了通用计算以外的基础设施工作负载的。
NVIDIA是DPU领域的全球先行者。2020 年上半年,NVIDIA以69 亿美元的对价收购以色列网络芯片公司Mellanox Technologies,并于同年推出BlueField-2 DPU,将其定义为继CPU和GPU之后“第三颗主力芯片”,正式拉开DPU大发展的序幕。
那么有人就要问了,这个DPU到底在网络中能起到什么作用呢?
我举个例子来说明一下。
就像经营餐馆一样,以前人手比较少,老板一个人承担采买、洗切、配菜、烹调、传菜和收银等全部工作,就像CPU一样,不仅要进行数学和逻辑运算,还要管理外部设备,在不同的时间执行不同的任务,并进行任务的切换,从而满足业务应用程序执行的需要。
但是随着要服务的就餐客户数量的增多,就需要将不同的任务由不同的人员分担,有多个店员负责采买、洗切、配菜,保障厨师的烹调备料;有多位厨师并行进行烹调,提升菜品制作效率;有多位服务员提供服务和传菜,保证多桌客户的服务质量;而老板就只负责收银和管理。
如此一来,店员和服务员团队像是DPU,对数据进行处理和移动;厨师团队像是GPU,对数据进行并行计算,而老板像是CPU,获取业务应用需求并交付结果。
CPU、GPU和DPU各司其职,通力配合,将擅长处理的工作负载发挥到极致,大幅提升数据中心性能和能效,并获得更好的投资回报。
▉NVIDIA推出了哪些DPU产品?
在2020年推出BlueField-2 DPU后。为了解决AI工作负载的独特需求,NVIDIA马不停蹄,在2021年4月份对外发布了新一代数据处理器-NVIDIA BlueField-3 DPU。
BlueField-3是首款为AI和加速计算而设计的DPU。据了解,BlueField-3 DPU可以很好的实现数据中心基础设施工作负载的卸载、加速和隔离,从而释放宝贵的CPU资源来运行关键业务应用。
现代超大规模云技术推动数据中心从基础上走向了新的架构, 利用一种专门针对数据中心基础架构软件而设计的新型处理器, 来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。可为要求苛刻的工作负载提供软件定义、硬件加速的数据中心基础设施解决方案,加速AI到混合云和高性能计算,再到5G无线网络,BlueField-3 DPU重新定义了各种可能性。
发布了BlueField-3 DPU后,NVIDIA仍然没有停下探索的脚步。NVIDIA发现,随着大模型的出现和流行,如何提升GPU集群的分布式计算性能和效率、提高GPU集群的横向扩展能力、实现在生成式AI云上的业务性能隔离,成为了所有大模型厂商和AI服务供应商共同关注的问题。
为此,在2023年底,NVIDIA推出BlueField-3 SuperNIC,从而面向东西向流量进行性能优化,它源于BlueField DPU,用了DPU相同的架构,但是有别于DPU。DPU专注于对于基础设施操作的卸载,是对南北向流量进行加速和优化。BlueField SuperNIC则借鉴了InfiniBand网络上的动态路由、拥塞控制和性能隔离等技术,又兼容了以太网标准在云上的便利性,从而满足了生成式AI云对于性能、扩展性和多租户的需求。
总结来说,目前NVIDIA BlueField-3网络平台包含两款产品,分别为实现限速处理软件定义、网络、存储和网络安全任务的BlueField-3 DPU和专为强力支持超大规模AI云而设计的BlueField SuperNIC。
▉DOCA对DPU有啥用?
聊到DPU的时候,往往就会聊到DOCA。那么DOCA是什么?它对DPU有啥价值?
通过上文,我们了解到,NVIDIA有了BlueField-3 DPU和BlueField-3 SuperNIC两款产品,能够对当前AI算力激增起到很好的加速作用。
但目前,单纯的靠硬件产品很难满足当前不同的应用场景,那就需要借助软件的力量。
CUDA是GPU在算力市场上无人不知的软件平台,而针对网络平台的需求,英伟达采用了同样的软硬件一体化的加速方式,在3年前也推出了专为DPU量身定制的软件开发平台DOCA,如今也适用于BlueField -3 SuperNIC。
NVIDIA DOCA拥有丰富的库、驱动程序和API,可为DOCA开发者提供 “一站式服务”,同时也是加速云基础设施服务的关键。
NVIDIA DOCA 软件框架
而且作为全栈的组成部分,DOCA是解开AI谜题的关键部分,可将计算、网络、存储和安全联系在一起。借助DOCA, 开发者可以通过创建软件定义、云原生、DPU和SuperNIC 加速的服务,并支持零信任保护,从而满足现代数据中心的性能和安全需求。
目前,经过三年的迭代升级,DOCA 2.7不仅扩展了BlueField DPU在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心,并加速了NVIDIA Spectrum-X网络平台,为 AI 工作负载提供了卓越的性能。
下面我们来看下DOCA对于包含GPU和NVIDIA BlueField-3DPU或 BlueField–3 SuperNIC的关键作用:
总结来说,适用于DPU和SuperNIC的NVIDIA DOCA就像适用于GPU的CUDA一样。DOCA汇集了各种强大的 API、库和驱动,可用于编程和加速现代数据中心基础设施。
▉DOCA开发将成为下一个蓝海赛道?
毫无疑问,随着AI、深度学习、元宇宙等技术场景的出现,越来越多的企业需要有更多的DOCA开发者加入进来让更多的创新和想法落地。大家耳熟能详的云服务提供商对DPU的需求越来越多,需要借助DOCA硬件加速技术来优化数据中心的性能。
DOCA为开发者提供的工具
而且随着企业对高效、安全的数据处理需求的增加,DOCA开发也成为云基础设施工程师、云架构师、网络工程师等岗位获得竞争优势的一项技能。另外,DOCA开发者还能够创建软件定义、云原生和DPU加速的服务,参与DOCA开发不仅可以提升个人技能,还能增强在技术社区中的影响力。
目前来看,DOCA的开发者数量还远远不能够满足市场需求。据官方资料显示,全球共有14000多名DOCA开发者,其中近一半来自中国。虽然看起来人不少,但是相比CUDA在全球有500万开发者来看,DOCA开发者还有很大的增长空间。
但毕竟DOCA才发布仅仅三年多的时间,CUDA已经有将近30年的历史。当然,这也从侧面说明了DOCA还处在发展的初期,潜力还很大。
为了吸引更多的开发者加入到DOCA开发中,NVIDIA这几年也一直积极通过各种活动为开发者提供更多帮助,包括筹备并落地DOCA中国开发者社区,举办DOCA开发者线上线下训练营,举办了DOCA开发者黑客松比赛等等。
不仅如此,在2024年6月份,NVIDIA DPU编程入门课程在澳门科技大学正式开课,公开的课程大纲显示,内容包含了NVIDIA BlueField网络平台和NVIDIA DOCA件框架如何加速AI计算的全面介绍,助力高校学生在AI时代获得竞争优势。
对于想转型的开发者和即将毕业的大学生来说,DOCA开发是一个被很多人看好的方向。
在年初结束的NVIDIA DOCA应用代码分享活动中,就有众多开发者脱颖而出获得奖项,这其中就包括不少在校大学生。在本次活动中获得一等奖的陈勤,是一名计算机科学与技术专业在读硕士研究生,他表示:“通过DOCA的开发,不仅提升了我的能力,还为我带来了潜在的工作机会。我在社区也获得了很多前辈的肯定,让我对自己更有信心。”
如今,NVIDIA DOCA中国开发者社区还在不断壮大,各种丰富的活动与内容也将持续呈现,对于想进入DOCA开发的小伙伴无疑是一个好时机。最近我也在试用DOCA软件开发套件,最近我也在试用DOCA软件开发套件,如果有感兴趣的小伙伴儿,可以一起研究下,通过这个链接通过这个链接(https://developer.nvidia.cn/doca-downloads)就可以免费下载DOCA,有问题可以留言一起讨论。