AWS代闻:看清变化的技术和不变的需求,积极推进架构演进

数码好在云体验 2024-06-07 09:10:35

过去十多年以来,IT技术产业的诸多创新实践,有很多都来自拥有超大规模数据中心的云厂商。这些云厂商采用重资产运营模式,因此有充足的动力进行技术突破和优化,这些举措推动了从基础设施到应用层的全方位进步。

从技术上看,云厂商引领了分布式计算和存储的潮流,并通过自研芯片、虚拟化技术、容器编排系统和无服务器技术,显著提升了计算性能和资源利用效率。从需求侧来看,企业在云厂商的帮助下,利用大数据和人工智能等技术来产生业务价值,从而从需求侧推动创新。

亚马逊云科技大中华区解决方案架构总经理 代闻

在2024亚马逊云科技中国峰会上,亚马逊云科技大中华区解决方案架构总经理代闻表示,“只有在云计算的环境下,才有机会做这样的从应用到CPU的全栈创新。自建机房和云服务的区别是柴油发电机和电网服务的区别。”

在代闻看来,亚马逊云科技提供的是云计算服务,所以能够在不断提升服务能力的前提下,保持内部全栈创新的灵活性。同时能了解到使用最多的应用及其资源消耗模式,以此来挑选对用户来说收益最高的技术点来优化,快速改进软件和硬件堆栈,甚至CPU设计。

确实如代闻所言,这样的迭代在传统的软件硬件协作割裂的物理机房时代是不可想象的。说白了,云服务提供的本质上是服务,它天生与用户和用户应用的关联度更高,云服务商更懂用户需求,所以能进行更有针对性的创新。

我想,这就是云计算能持续、快速推动技术创新的根本原因吧。

在2024年的亚马逊云科技中国峰会上,代闻发表了题为《架构演进连接未来想象》的主题演讲,详细介绍了技术架构演进的三大主题需求:“基础组件能力”、“架构体系创新”和“多元技术融合”,并呼吁技术人员,要看清变化的技术和不变的需求,积极推进架构演进。

基础组件能力决定了架构设计

所谓“基础组件能力”是指的是云计算的最基础组件,包括计算、存储和网络,其中,又以计算作为最核心的组件。

说到亚马逊云科技的计算,不得不提的有两大创新,一个是Amazon Nitro系统,一个就是自研的Arm处理器Graviton。

Amazon Nitro系统实现了计算资源的高效利用,它将虚拟化管理、网络和存储卸载到专用硬件上,几乎消除了主机性能损耗。这种创新不仅提升了计算性能,还为用户提供了更高的灵活性和安全性。

没有Amazon Nitro之前,亚马逊云科技用11年时间开发了70个EC2主机类型。而有了Amazon Nitro之后的6年时间里,EC2主机SKU就从70个扩张到了750个。可以说,Amazon Nitro大大加速了EC2主机的开发速度。

其实,亚马逊云科技的存储和网络也都从Amazon Nitro中受益。

存储部分,在最新的 Nitro 平台支持下,单个虚拟机的最大 IOPS 可以到 400K,存储带宽可以到 100Gbps。亚马逊云科技重写了闪存转换层(FTL)算法,并且将它是放到 Amazon Nitro 系统的芯片里,将SSD访问延迟降低了60%,抖动减少了75%。

网络部分,Amazon Nitro让主机获得了更高的带宽,从100Gbps、400Gbps,到现在的6.4Tbps。并且,最新Nitro支持的包转发达到了30Mpps(Packets Per Second),即每秒处理三千万个数据包。

除此之外,亚马逊云科技还开发了SRD(Scalable Reliable Datagram)提高了网络的利用率。重新开发了数据中心路由协议SIDR(Scalable Intent Driven Routing)来进一步扩大数据中心网络的规模。

Amazon Nitro配合SRD以及SIDR技术,支持亚马逊云科技建成超大规模数据中心网络 UltraCluster。它支持的GPU实例可以到两万台,如果使用亚马逊自研的机器学习训练Trn1实例,可以支持扩展到三万个Trainium 加速器。

至于Graviton处理器则是业内另外一个传奇。过去5年间,亚马逊云科技发布了四代Graviton处理器,创建了150个EC2 实例种类,使用了超过 200 万个处理器,拥有超过 50000 家客户,这些客户涵盖了 EC2 最大的前 100 个客户。

基于Graviton处理器的实例提供了非常高的性价比,是用户降本增效的有力帮手。而且,其基于单物理核心提供单线程的技术可以提供更稳定的性能表现,配合多核心的优势,具备很高的扩展性。

亚马逊云科技的Graviton处理器是Arm服务器处理器阵营里的一面旗帜,它证明了 Arm服务器的可信性,也带动了Arm技术生态。Graviton之后,如今三大云服务商也全都推出了基于Arm的自研处理器芯片,甚至也有第三方的Arm芯片服务商。

代闻表示,这些创新的基础组件能力决定了架构设计,而架构体系创新可以拓展核心能力。那么,架构体系的创新拓展了哪几个核心能力?又是如何拓展核心能力的呢?

架构体系创新拓展核心能力

在谈到核心能力时,代闻提到了韧性、弹性与效率。那么,要如何提高服务的韧性,提高服务的弹性与效率呢?

亚马逊云科技通过Amazon IAM和单元架构确保其系统的高韧性。Amazon IAM通过将系统设计为控制平面和数据平面两部分,确保即使控制平面故障,各区域的身份验证和授权仍能正常运行,提供高可靠的访问控制服务。

此外,单元架构(Cell-based Architecture)将数据平面细分为多个独立单元,减少单点故障风险,降低“爆炸半径”。这种设计被广泛应用于Amazon EC2、Amazon EBS和Amazon Aurora等服务,进一步提升了系统的整体韧性和可靠性。

在提高弹性和效率方面,亚马逊云科技提到了Firecracker、Amazon Lambda SnapStart和Caspian。

Firecracker是一种轻量级虚拟化技术,可以快速启动和管理容器化工作负载。它基于KVM构建微虚拟机,具备多层隔离和保护,显著提升资源利用效率和安全性。

为了改善Java函数的冷启动问题,亚马逊云科技推出了Amazon Lambda SnapStart。该技术通过Firecracker快照技术,将启动速度提高了10倍,并且,完全无需修改代码。

Caspian技术实现了Serverless数据库的高效内存管理,通过虚拟化和热管理系统,动态调整内存分配和数据库实例迁移,提升弹性和资源利用效率。

这些技术共同提高了云服务的韧性、弹性和效率,为用户提供更高效、安全的解决方案,构建了云服务体系中的核心能力。

多元技术融合驱动架构创新

在更靠近应用的层面上,代闻强调要将多元技术融合来驱动架构创新。

以生成式AI为代表的现代化应用通常需要融合多种技术,如果在企业落地智能聊天机器人,就需要底层技术能够管理所有与AI对话相关的数据。代闻表示,面对这类复杂需求,先要拆解需求,再使用专门构建的服务各个击破,专门构建的服务可以提供最优的性能和成本。

生成式AI对数据架构提出了新的要求。在用户交互侧,要能做到更快的响应。在后端处理环节会涉及数据流的更新和ETL处理,处理的过程要尽可能高效且可靠。在大模型和上下文数据管理方面,数据也要被有效管理,以确保模型能够准确、及时地提供所需的信息。

亚马逊云科技通过RAG工程化手段融合多种数据库。RAG技术需要协调多个数据源和架构组件来实现高效的数据处理和知识提取。不同的应用场景对平台服务有不同的要求,这要求RAG技术能够根据这些需求提供合适的解决方案。

为了解决数据同步问题,亚马逊云科技推出了Zero-ETL技术,它避免了传统ETL过程的复杂性和低效性,通过自动数据流动实现高效的数据同步。目前,亚马逊云科技已提供六项专门构建的Zero-ETL能力,极大地提高了数据同步的效率。

随后,代闻提到了亚马逊云科技的优良架构体系(Well-Architected Framework),它涵盖卓越运营、安全、可靠、性能效率、可持续发展和成本优化六个维度。架构师在设计应用架构时,需要在不同场景下对各种需求进行折中和优化。通过不断演进和优化,帮助企业在云上实现高效、安全和可持续的发展。

结束语

在代闻看来,“基础组件能力”、“架构体系创新”和“多元技术融合”这三大需求是不会变的,会变的只会是具体的技术。他认为,我们应该看清变化的技术和不变的需求,积极推进架构演进,连接未来的想象。

最后,代闻向架构师、工程师,以及任何有技术信仰的构建者发出呼吁:你的每一行代码,你的每一种选择,你的每一个决定,都是写给未来的信。

过去十年,云计算为创新和创业提供了前所未有的便利,未来十年,生成式AI让我们有机会一起重塑各行各业,想想10年后回首现在的自己,在这个特殊的时间点,What Will You Build?”

0 阅读:6

数码好在云体验

简介:感谢大家的关注