窥探非结构化数据深渊

拥抱科技有未来 2024-10-30 10:27:02

你的文件系统和对象存储中潜伏着一些东西,被称为非结构化数据,包括文本、图像、视频、音频、物联网和其他类型的文件。它增长迅速,有可能消耗存储成本,违反安全和隐私法规,并破坏你的人工智能计划。

出于主动性(GenAI应用)和被动性(监管)的原因,处理这些非结构化数据正成为高管的首要任务。但非结构化数据的性质使其难以管理。毕竟,如何对单词和图片进行分类的?如何归档PB级的日志文件?也许最重要的是,您如何在数千个不同的数据孤岛上实施访问控制?

非结构化数据管理的挑战和机遇正在推动IT供应商将其业务范围扩展到非结构化领域。Data Dynamics是一家涉足非结构化领域一段时间的供应商。Piyush Mehta自称是“会计财务人员”,他于2012年创立了这家新泽西州的软件公司,旨在解决他所看到的公司在数据管理方面遇到的一些挑战。

Mehta注意到的第一件事是,每个人似乎对“数据管理”的含义都有自己的定义。

Mehta说:“如果你从首席信息安全官(CISO)的角度来看,那就是‘我如何管理与数据相关的风险?’”。“如果你与CDO(首席数据官)交谈,问题是‘我是否正确理解了分类以及数据如何被引导到正确位置的过程?’然后,如果你从首席信息官(CIO)的角度来看,问题是生命周期管理:我如何确保提供正确的存储资源?我如何提供并确保在数据存储的时间、位置和内容方面保持适当的健康?”

数据管理思维的孤岛化导致了数据管理工具的激增。一个企业拥有15到18个不同的解决方案来解决数据管理挑战的各个方面,从风险、分类到生命周期管理,这种情况并不少见。“这变得非常复杂,”他在最近的一次采访中说。“你可能多次扫描相同的数据,一定有更好的方法。”

大数据浪潮崩盘

在过去(即2010年代),我们都认为文件系统或对象存储上一两PB的数据是一件大事。但这些数据主要驻留在辅助存储上。真正重要的数据,即支持业务应用程序和推动决策的数据,存储在块存储上,存储在支持数据库的SAN上。

但情况已经发生了变化,今天,块和文件存储之间真的没有区别,Mehta说:“你有高性能的应用程序在后端运行对象存储,因为它作为一个单一的平台来分析数据的性能更好。”“拥有速度极快、性能就绪的分层文件系统。”

如今,客户在文件系统和对象存储上拥有数百PB的非结构化数据,其中包含数百亿个文件或对象,这种情况并不罕见。这些数据分布在不同的地理范围和不同的存储阵列中。然后添加云。数据的复杂性和蔓延程度是巨大的,控制和背景取决于它所处的位置、是谁、与之相关的业务线。

管理如此庞大的数据和存储网络已经够困难的了。但是,当你把CIOS、CDO和CIO的不同观点加进去时,它就变成了一团错综复杂的混乱。Data Dynamics的卖点是,它可以帮助管理分散在不同孤岛上的所有非结构化数据,同时为不同的用户和不同的用例提供不同的功能。

例如,大型企业现在特别担心管理不当的数据对隐私和安全的影响(这是合理的担心)。但与此同时,这些海量的非结构化数据是名副其实的数据金矿,正等待着GenAI的挖掘。在获取非结构化黄金的愿望与安全之间取得平衡,才是真正的诀窍。

非结构化数据处理

Mehta说,与非结构化数据相关的最大挑战是,这些数据不是任何漂亮和结构化的数据,它们位于SQL Server或Oracle等数据库中。其中大部分是由各种应用程序生成的。

Data Dynamics的第一个产品名为Storage X,主要目的是将这些数据从一个存储库迁移到另一个。当Mehta意识到客户只是提升和转移他们的数据,他意识到需要更好的分析。

需要基于元数据的分析来更好地了解企业在文件系统和对象存储中存储的数据,包括NFS/SMB和S3可编译对象存储,以及微软SharePoint、VAST data、NetApp、戴尔和Hitachi Vantara等供应商的存储产品。

Mehta说:“我们的大多数企业客户都有数千亿个文件,如果我需要打开每个文件来查看内容,那将需要相当长的时间。”“所以我们最终添加了一个叫做抽样统计的东西,它说‘让我们选择元数据作为过滤器,然后明智地了解我们发现了什么,以及它在这些文件中寻找的内容方面为我们提供了什么准确度。’”

随着公司的成熟,它将重点从存储优化和数据迁移转移到数据民主化。其最新产品名为Zubin,建立在Data Dynamics之前的功能之上,使其300名客户能够集中管理不同非结构化数据孤岛的策略。

上个月公布的Zubin在公司层面对数据进行分类后,由个人应用程序或数据所有者通过基于角色的访问控制(RBAC)定义哪些用户可以访问这些数据。这使客户能够在从本地存储到云存储的各种存储库中集中定义数据管理,同时使更接近用户的管理人员能够做出数据访问决策。

Mehta说:“你如何赋予数据权力?对我们来说,这是一件非常重要的事情,因为我们真的相信每个企业都是他们所持有数据的保管人,无论是他们的员工数据还是他们的客户数据,在这种情况下,我们如何帮助他们成为更好的保管人?”

0 阅读:0

拥抱科技有未来

简介:感谢大家的关注