AI一小步,芯片生产力迈向新高度

玩数据还有点懒 2024-03-14 00:39:03

2023年已经进入尾声,在过去这一年里,AI大模型实实在在地“从年头火到年尾”。自ChatGPT成为AI大模型的第一个“出圈”应用,以聊天机器人的形式展示出AI大模型应用的强大能力后,全球各大科技公司都在加速推动AI大模型的应用,当然也吸引了众多初创公司入局。一时间各种AI大模型涌现,无论是行业专用大模型还是通用认知大模型,都为更多创新的AI应用提供了技术支持。

验证:芯片成功上市的“守门员”

在芯片设计和开发过程中,验证环节扮演着至关重要的角色,它是确保芯片成功投放市场的主要防线。芯片验证(Verification)的任务是贯穿整个设计过程的,其核心目标是确保芯片设计严格符合预定的规格和性能要求。正如一位优秀的守门员对足球队的成功至关重要一样,完善且有效的验证对于芯片产品的成功同样不可或缺。

但是你可能有所不知,芯片验证工程师在整个验证过程中要花费三分之一的时间来调试芯片设计,这被称之为Debugging。设计阶段的调试主要是检测芯片设计逻辑,以确保芯片的功能正确。当下,为了满足很多对性能有苛刻要求的应用需求,芯片变得更加庞大和复杂。“水涨船高”,为了确保其能够按照预期运行,工程师们所付出的调试时间和精力也在呈指数级增长。

芯片调试的过程不仅受到尺寸的影响,还受功能和最终使用目的的影响。比如,我们常常需要模拟数千个同时进行的复杂操作来测试特定状况。在这种情况下,要找出问题所在,必须进行并行检查,找出有问题的分支。对于不同的终端应用,还需要特别关注设计中的某些特定信号。

因此,一个好的调试方案需要理解设计的各个层面,比如RTL(寄存器传输级)和门级设计,才能准确找到问题所在。在某些情况下,最好能同时看到硬件和软件交互的情况,这样调试起来才更有效。

然而,芯片调试最令工程师头疼的是需要大量的手动操作。因为要想对目前复杂的系统,如Multi-Die、Chiplet等进行调试,往往需要运行成千上万次的模拟和测试来验证设计,这会产生大量的数据。而且这些数据通常需要手动分类和整理,以找出和确定是设计本身的问题还是测试平台的问题。为了运行这些模拟并生成报告,许多团队依赖于内部开发的脚本,而这些脚本通常很难扩展或重复使用。

除此之外,还有很多需要手动操作的地方,例如查看分类的报告和日志文件,决定从哪里着手检查信号波形,回溯电路。这些手动操作非常依赖经验,不容易扩展,也不利于提高工作效率。尽管通过一些技术,比如批量处理模式林汀(batch-mode linting),可以帮助团队避免一些错误,但要想做到从设计开始就完全没有错误几乎是不可能的。

由此可见,芯片调试是芯片验证过程中一项艰巨且耗时的任务,因此,提升芯片调试的效率是重中之重。

布局大模型,算力不够用

在席卷全球的AI热潮中,一个不容忽视的潜在阻力是算力的不足。根据今年8月GPU Utils更新的关于英伟达H100显卡供需现状的分析文章显示,保守估计,H100的供给缺口达到43万张。

具体到各家的需求数据,GPUUtils写道:OpenAI可能需要5万张,Inflection要2.2万张,Meta需要2.5万张;大型云厂商例如Azure、Google Cloud、AWS、Oracle等每家可能需要3万张;Lambda 和 CoreWeave 以及其他私有云可能总共需要10万张;Anthropic、Helsing、Mistral、Character,每家可能要1万张;到这里,需求量就已经达到了约43.2万张H100,以每块约3.5万美元计算,GPU的价值约为150亿美元。

而这,还不包括像字节、百度、腾讯这样需要大量H800的中国公司,以及一些需求正盛的金融公司:如Jane Street、JP Morgan、Two Sigma、Citadel等金融巨头,正从数百台A100或H100开始部署,逐步增加至数千张 A100/H100。

如今大模型之战愈演愈烈,大模型公司想更快推出模型和AI应用,就必须大量购入英伟达的芯片。可是英伟达也没有办法在短期内释放出这么多的A100/H100,因为英伟达A100/H100 GPU完全由台积电代工生产,并使用台积电先进CoWoS封装技术。要知道台积电先进CoWoS封装产能是有限的。市场在爆发式增长,倘若英伟达按照上一年计划制定的供给,则远不能满足蓬勃的市场需求,因此抢不到芯片的云厂商、互联网巨头不得不高价抢购。

如此一来。大模型公司尚未赚到钱,英伟达倒是赚得盆满钵满。英伟达对高算力芯片的垄断,也成为硅谷众多大厂的心病。它们一方面离不开英伟达,另一方面又不想永远被英伟达掣肘。因此不少大模型公司都在想办法摆脱英伟达的垄断,有自研能力的纷纷自研,没有自研能力的创造条件。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:0

玩数据还有点懒

简介:感谢大家的关注