Databricks走向无服务器化,简化其数据平台

拥抱科技有未来 2024-06-20 11:39:44

多年来听到的关于Databricks的抱怨之一是,它的设置很复杂,有时很难使用,现在该公司正在使其整个数据平台无服务器化(无服务器是一种云应用开发和执行模型,开发人员可以轻松构建和运行应用代码,而无需置备或管理服务器或后端基础架构),降低操作难度和应用门槛。

Databricks目前为某些功能提供了无服务器选项,这意味着客户不需要负责启动集群或在完成后将集群重新启动。以往大多数平台依赖于底层的计算集群,无论客户是否使用它们,都要花费客户的钱。这种情况正在改变。在上周三举行的数据+人工智能峰会上,Databricks首席执行官兼联合创始人Ali Ghodsi在主题演讲中宣布,从7月1日开始,整个Databricks平台将以无服务器的形式提供。

Ghodsi说:“使用无服务器,你只需为你正在使用的东西付费。事实上,没有集群可以设置为空闲或不空闲。所以我们会在幕后为你处理好这一切。”

Databricks运行在所有主流云上——亚马逊AWS、微软Azure和Google云——并依赖于这些云平台进行存储、计算和网络。存储在云中非常简单,Databricks希望客户数据存储在他们的云对象存储帐户中,无论是AWS上的S3(简单存储服务),Azure上的ALCS (Azure湖云存储),还是GCP上的GCS(谷歌云存储)。

但设置计算则更为复杂。客户可以通过Databricks为他们的ETL、流数据、SQL分析或ML/AI训练工作提供计算,但他们要通过他们在云平台上的帐户为计算收费。无服务器改变了计算公式。

“我们以前拥有的所有这些旋钮都消失了。”Ghodsi说,“集群调优——让人们建立集群。他们应该使用什么类型的机器?实例?我们应该自动缩放吗?这些都不存在了。它就这么消失了。”

Ghodsi说,无服务器还可以帮助客户减少了解过去使用情况的需要,并将其用于容量规划。(在网络方面有一个提醒,因为Databricks目前不收取无服务器工作负载的网络成本,但根据其无服务器文档,保留将来收费的权利。)

Ghodsi说,从安全和数据布局的角度来看,无服务器化也有好处。

“我们还能够以一种不同的方式进行安全保护,因为我们拥有所有的机器,能够以一种不同的方式真正锁定它。如果不是无服务器的话,这是不可能的。”“数据布局——你将如何准确地设置你的数据集?你将如何优化你的数据集?我们只是在幕后优化。因为它是无服务器的,我们只是在后台对你的数据集进行优化,使用机器学习使它变得非常快速和优化。所以这也真的很棒。”

Databricks将从软件版本控制的转变中受益,不会有更多的版本,因为Databricks会自动更新软件,让所有用户同时访问相同的修复和功能。

Ghodsi说,过去三年,Databricks的工程师一直致力于开发无服务器版本的平台。花了这么长时间,因为工程师们基本上要重写所有的产品,这在公司内部是一个有争议的问题。

“两三年前,我和我的联合创始人Matei Zaharia (Databricks的首席技术官)告诉公司,我们必须建立一个简单的无服务器版本。’工程师反驳说,‘嘿,你们错了。我们应该为无服务器时代重新设计它。’我们告诉他们‘不行。我们在公司里做决定。‘结果证明我们错了。技术领导是对的。两年来,他们一直在努力工作,基本上重新设计了许多产品——一切工作——就像我们开了一家新公司一样。”

向无服务器的转变不会在6月30日一夜之间发生。将所有12,000名Databricks客户转换到他们正在使用的产品的无服务器版本需要时间,无论是Spark集群还是结构化流媒体以及MosaicAI。

Databricks正在全球范围内进行投资,以确保其产品的无服务器版本在其运行的每个云数据中心都可用。该公司将强烈鼓励客户尽早转向无服务器。

“请开始使用无服务器。”Ghodsi说,“未来,我们推出的新产品……可能只有在无服务器的情况下才能使用。所以,如果你的组织还没有实现无服务器化,那就赶紧行动起来吧。”

0 阅读:9

拥抱科技有未来

简介:感谢大家的关注