围绕数据目录的势头从未像今天这样高涨。但要理解每家公司的变化和差异,以及每个产品对如何大规模交付(和未能交付),可能从来没有像现在这样令人困惑。Apache Iceberg(冰山)的出现,以及市场对效率和成本节约的持续整合,使得许多CDO(首席数据官)重新考虑他们之前的“制造”还是“购买”决策。
突破数据和组织的竖井,必须解决目录的技术挑战,这些挑战通常需要完整的构建策略。大多数组织都有太多的平台来消费、丰富、服务和交互数据。这个列表很长,期望在商业目录中有足够的工具来跟踪它们的完整血统和起源是不现实的。将数据视为资产需要在其生命周期中跟踪和理解该资产,包括可能无法很好地集成或根本无法集成的跨平台。 Iceberg作为一种标准的出现,包括它在管理数字资产方面的灵活性,大大降低了门槛。但需要注意的是,虽然应用上曙光已经显现,但问题还没有解决,终点线还没有出现。
分解数据目录以创建企业应用
超越基本治理和构建包括目录在内的企业数据策略,可以将数据目录分解为四个不同的功能区域:业务术语和术语表;元数据管理(这里强调业务级元数据是许多技术团队战略中缺失的一部分);集成和消息传递以及发现和遵从性。
通常,业务用户和技术团队在理解数据目录正在解决什么问题方面存在不幸的分歧。对于技术团队来说,他们主要关注元数据管理,只把集成看作是技术元数据的一种定向消耗。业务用户与数据目录的关系以“购买数据”为中心。这种采购是通过术语和词汇表进行的:通过搜索来了解可用的数据、数据的质量、所有权等。这些搜索不是针对列名和表名,而是针对与用户正在处理的问题相关的业务术语和分类法。
发现和遵从性之间有一条虚线,因为这种能力也跨越了各个领域。首先,它涉及到安全团队执行自底向上的注册和表示,以实现跨企业的频谱级数据可见性。其次,数据团队在这些资产注册时对其进行集成。然后,像Atlan这样的平台提出了更多的“主动”元数据,并通过主动发现和成熟过程,努力整合术语和元数据管理的高级功能。团队发现,将这些世界结合起来是一个漫长而昂贵的过程,因为技术方面和业务方面一样困难——尤其是在结果不一致的情况下。公司越接近目标,他们就越快发现扩展也取决于数据和分析工程师的团队规模。
Iceberg如何为传统数据目录挑战降温
那么,“ Iceberg”能帮助解决所有这些问题和挑战吗?Iceberg极大地降低了技术方面的障碍,使方程式更加平衡,并使人员和流程再次成为最大的挑战。如上所述,如果这些平台本身也使用Iceberg格式,那么跨企业发布/订阅数据事件以捕获数据事件的血统/来源的集成部分将变得更加容易。
我们已经看到客户对Apache Polaris(孵化)的支持和承诺的速度,以及技术提供商试图整合和扩展这一成功。因此,围绕元数据管理的数据目录空间允许数据负责人不再被迫对该平台组件进行完整构建。采用开源工具成为了一条通往不可知论和加速扩展的捷径,同时采用和支持生态系统的其余部分构建他们自己的连接器和支持,从而为所有人创造真正的胜利。
下一步是什么?
许多组织要么还处于起步阶段,要么正在寻找重新开始的机会。毕竟,这些新的市场发展已经打乱了以前的可用路径。不管你的组织处于这个过程的哪个阶段,这里有一些建议可以帮助你开始:
寻找真正的开源Apache。一些声称是开源的平台仍然是封闭的,由单个供应商运行,他们会考虑您建议的增强功能,但根据他们自己决定是否接受它们。
为消费者着想,向后看。要确立事实并维持事实,就需要知道这些事实的定义。当用户寻找数据时,他们正在寻找事实,或者尽可能地接近事实,以便他们能够将这些事实发展到他们的用例中。这些事实跨越系统、变化等,而且可能经常同时发生。主数据管理(MDM)的生存规则和类似实践的老挑战对于任何一个系统来说都变得更加复杂,因此拥有一个治理程序是至关重要的。
数据管理和民主化。企业已经认识到它们不能完全整合,因此成熟现在意味着集成和持续管理。在这种情况下,建立关于如何创建、维护和更改事实(即契约)以及如何支持或弃用数据的纪律是至关重要的。拥有明确的数据业务和技术所有者,并将其与服务承诺一起呈现在目录中,可以使购物体验更容易,并澄清创建者和消费者之间的关系。
最后,Iceberg为目录空间带来的光芒是数据领导者很长时间以来第一次看到的。开放规范的承诺、不可知论社区的开源支持,以及Iceberg和Apache Polaris(孵化)等新兴目录背后的技术公司的发展势头,这些都是令人兴奋的,因为这已经等待了很长时间。
也就是说,创建企业目录策略包括这些功能,但它们不交付企业数据目录。导航目录中快速包含授权或访问服务的其余部分是另一个应该谨慎导航的功能。目前,解决这些问题是眼前的机会,但要考虑到互操作性和转换成本风险的相同建议。