Databricks走向无服务器化，简化其数据平台

多年来听到的关于Databricks的抱怨之一是，它的设置很复杂，有时很难使用，现在该公司正在使其整个数据平台无服务器化（无服务器是一种云应用开发和执行模型，开发人员可以轻松构建和运行应用代码，而无需置备或管理服务器或后端基础架构），降低操作难度和应用门槛。

Databricks目前为某些功能提供了无服务器选项，这意味着客户不需要负责启动集群或在完成后将集群重新启动。以往大多数平台依赖于底层的计算集群，无论客户是否使用它们，都要花费客户的钱。这种情况正在改变。在上周三举行的数据+人工智能峰会上，Databricks首席执行官兼联合创始人Ali Ghodsi在主题演讲中宣布，从7月1日开始，整个Databricks平台将以无服务器的形式提供。

Ghodsi说:“使用无服务器，你只需为你正在使用的东西付费。事实上，没有集群可以设置为空闲或不空闲。所以我们会在幕后为你处理好这一切。”

Databricks运行在所有主流云上——亚马逊AWS、微软Azure和Google云——并依赖于这些云平台进行存储、计算和网络。存储在云中非常简单，Databricks希望客户数据存储在他们的云对象存储帐户中，无论是AWS上的S3(简单存储服务)，Azure上的ALCS (Azure湖云存储)，还是GCP上的GCS(谷歌云存储)。

但设置计算则更为复杂。客户可以通过Databricks为他们的ETL、流数据、SQL分析或ML/AI训练工作提供计算，但他们要通过他们在云平台上的帐户为计算收费。无服务器改变了计算公式。

“我们以前拥有的所有这些旋钮都消失了。”Ghodsi说，“集群调优——让人们建立集群。他们应该使用什么类型的机器?实例?我们应该自动缩放吗?这些都不存在了。它就这么消失了。”

Ghodsi说，无服务器还可以帮助客户减少了解过去使用情况的需要，并将其用于容量规划。(在网络方面有一个提醒，因为Databricks目前不收取无服务器工作负载的网络成本，但根据其无服务器文档，保留将来收费的权利。)

Ghodsi说，从安全和数据布局的角度来看，无服务器化也有好处。

“我们还能够以一种不同的方式进行安全保护，因为我们拥有所有的机器，能够以一种不同的方式真正锁定它。如果不是无服务器的话，这是不可能的。”“数据布局——你将如何准确地设置你的数据集?你将如何优化你的数据集?我们只是在幕后优化。因为它是无服务器的，我们只是在后台对你的数据集进行优化，使用机器学习使它变得非常快速和优化。所以这也真的很棒。”

Databricks将从软件版本控制的转变中受益，不会有更多的版本，因为Databricks会自动更新软件，让所有用户同时访问相同的修复和功能。

Ghodsi说，过去三年，Databricks的工程师一直致力于开发无服务器版本的平台。花了这么长时间，因为工程师们基本上要重写所有的产品，这在公司内部是一个有争议的问题。

“两三年前，我和我的联合创始人Matei Zaharia (Databricks的首席技术官)告诉公司，我们必须建立一个简单的无服务器版本。’工程师反驳说，‘嘿，你们错了。我们应该为无服务器时代重新设计它。’我们告诉他们‘不行。我们在公司里做决定。‘结果证明我们错了。技术领导是对的。两年来，他们一直在努力工作，基本上重新设计了许多产品——一切工作——就像我们开了一家新公司一样。”

向无服务器的转变不会在6月30日一夜之间发生。将所有12,000名Databricks客户转换到他们正在使用的产品的无服务器版本需要时间，无论是Spark集群还是结构化流媒体以及MosaicAI。

Databricks正在全球范围内进行投资，以确保其产品的无服务器版本在其运行的每个云数据中心都可用。该公司将强烈鼓励客户尽早转向无服务器。

“请开始使用无服务器。”Ghodsi说，“未来，我们推出的新产品……可能只有在无服务器的情况下才能使用。所以，如果你的组织还没有实现无服务器化，那就赶紧行动起来吧。”

幸福双城资讯网

拥抱科技有未来