今天许多企业和商业是建立在数据之上的。然而,在追求数据驱动的过程中,企业必须保证可信任数据,这在每天生成和收集大量数据的情况下变得具有挑战性。数据的质量是另一个需要考虑的关键因素。根据《2023年数据质量状况调查》,糟糕的数据质量影响了如今31%的组织收入,而从2022年到2023年,这一比例为26%。
随着GenAI在决策或向最终用户提供建议方面不断深入,预计数据质量(或缺乏数据质量)的影响将在未来几年变得更加重要。这就引出了“数据治理”及其在确保数据质量、可靠性和一致性方面的重要作用。数据治理是一种良好方法,用于管理组织中的数据,从数据的获取点开始,贯穿其整个生命周期(在内部和外部共享时),一直到数据存档或永久删除。在大多数企业的数据和分析运营中,越来越多的人认识到数据治理的重要性。数据表明了这一趋势——数据治理市场以接近21%的惊人速度增长,预计到2026年价值约为53亿美元。
数据治理对于帮助企业通过确保数据质量、可靠性和一致性来提高集成分析能力至关重要。它首先促进企业中参与集成分析的利益相关者(如数据分析师、数据科学家、IT专业人员和业务领导)之间的协作和一致性。通过建立清晰的角色、职责和沟通渠道,数据治理促进了跨职能团队合作,并确保集成的分析工作与组织目标和优先级保持一致。对于零售、银行业务的全球专业人士来说,更好的数据治理带来的影响是,可以更快、更容易地获得针对定制需求量身定制的实时和个性化服务,从而使营销团队在推出新产品时的效率提高30%。
数据治理如何平衡数据可访问性和安全性
平衡数据可访问性和安全性需要仔细考虑。虽然允许授权用户访问数据以进行决策至关重要,但保护数据免受未经授权的访问和破坏也同样重要。实现这种平衡具有挑战,但实现访问控制有助于确保敏感数据保持安全,同时仍然可供需要它的人访问。
此外,管理日益增长的数据量和复杂性增加了维护数据安全性的难度。健壮的数据治理框架通过为管理数据访问和使用设置明确的规则来解决这个问题。这包括根据数据的敏感性对其进行分类,并相应地优先考虑安全措施。此外,数据治理通过审计跟踪和日志跟踪可访问性和可用性,从而提高透明度和问责制。这使组织能够监控数据的使用,识别未经授权的活动,并采取必要的措施来降低风险。
作为数据治理过程的一部分,重要的是在组织内建立框架和指导方针,以定义策略和标准、访问控制协议、数据分类指导方针以及总体监视和执行策略。虽然首席数据和分析官(CDAO)经常领导这样的计划,但必须将首席信息安全官(CISO)和风险与合规管理办公室联合起来,以帮助定义不同的策略和指导方针。通常,成功的组织有专门的数据管理员,由每个业务单位分配,以管理和保护各种数据集。
应对数据治理实施中的挑战
实现数据治理的最大挑战是组织内部对变革的抵制和文化障碍。这一点,再加上数据所有权和责任问题,通常会给组织实现有效的数据治理解决方案带来重大挑战。在组织范围内成功实现数据治理的第一步是获得管理层的支持。它总是需要高层的支持,以确保不同的部门和业务单位支持这项工作。关键的第二步是让最终用户群体了解这种方法的好处,并展示这种方法的优势。在这方面,对特定的业务单位或用户组进行概念验证,并使这些单位成为业务拥护者,会非常有帮助。
作为概念验证的一部分,决定在组织内实现数据治理的特定平台或工具集是至关重要的。目前在企业中流行两种方法来实现健壮的数据治理解决方案。
确定一个端到端的商业可用平台,并根据组织的目的对其进行定制。市场上有多种平台可以帮助有效地实现数据治理。数据治理平台的一些提供商包括Collibra、Alation、Informatica、IBM和Ataccama等。
利用当前企业数据体系结构中可用的工具组合来推动有效的数据治理。例如,如果使用Databricks,你可以有效地利用其统一数据和分析平台中的组件来驱动数据治理。如果你正在利用任何一个超大规模平台,那么他们提供了一套本地解决方案,以帮助推动数据治理作为其分析生态系统的一部分:
以AWS为例,可以利用AWS Lake Formation、AWS Glue Data Catalog、AWS Identity and Access Management (IAM)和Amazon Macie的组合来实现这一点。
对于Microsoft Azure,这可以通过Azure权限、Azure数据目录、Azure活动目录(AAD)和Azure信息保护(AIP)的组合来实现。
在谷歌云平台的情况下,需要利用的工具是云数据目录,云身份和访问管理(IAM),云数据丢失预防(DLP)和云安全指挥中心(云SCC)。
一旦选择了一个平台或一组工具,并使用这样的工具集成功地进行了概念验证,以确定它满足你的需求,你将需要计划实际的应用实现。对于迭代和改进来说,跨组织规划一个分阶段的推出是至关重要的。整体数据治理计划的成功通常依赖于包含持续培训和采用驱动的强大的变更管理计划。
最后但并非最不重要的是,在定义边界和设置指导方针时,集中所有权是关键。集中的所有权结构确保数据治理策略和标准在整个组织中得到建立和一致地遵循。这种集中式方法避免了混淆,确保与组织目标保持一致,并维护数据资产的完整性和安全性。
对联合数据治理日益增长的需求
数据源的日益复杂和多渠道进一步推动企业转向联合数据治理。以一家领先的健康保险公司为例,该公司使用联合数据治理来提高患者护理的质量和效率。
这种方法使企业能够在集中式和分散式模型之间取得平衡。在集中级别上明确所有权建立标准,而各个部门监督特定的数据源。这鼓励跨部门进行统一的数据管理,就像在数据网格等现代架构中看到的那样。隐私和安全的集中管理确保遵守法规,而不管数据的来源或在组织内的使用。
利用数据治理在集成分析中的影响
一家领先的保险解决方案提供商的专业风险部门通过推动所有数据资产的数据治理,将生成新分析报告的平均时间从一周缩短到不到三天。此外,这导致所有合规性要求,如GDPR和CCPA,都被提前解决。该计划还通过帮助业务用户轻松找到他们可以信任的数据,改善了组织的数据文化。它通过允许业务用户与数据所有者连接并提供易于理解的数据来源,增强了销售和市场部门与风险部门之间的协作。
加强人工智能时代集成分析中的数据治理
在过去的几年里,生成式人工智能(GenAI)已经成为增强数据治理框架和集成分析能力的变革力量。通过增强数据集、检测异常、保护数据隐私和实现预测分析的能力,GenAI显著增强了数据治理实践,促进了明智的决策过程。其创建合成数据的能力补充了现有数据集,而其异常检测算法有助于保持数据质量。此外,差分隐私等GenAI技术确保了敏感信息的保护,并使组织能够通过预测分析根据数据模式做出前瞻性决策。