1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异
1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据
1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据
1.3.1. 分析基础设施是通往详细数据的路线图
1.3.2. 描述性数据会告诉分析人员如何定位所需数据,数据的含义,并指导其组合数据
1.4. 分析人员需要从分析基础设施入手
1.4.1. 描述性数据能为各种分析人员提供帮助,包括数据科学家、业务分析人员、文员,甚至是管理人员
1.4.2. 对任何希望使用基础数据的人来说,描述性数据都是非常有用的
1.5. 数据湖仓的基础数据是非常有价值的
1.5.1. 数据湖仓中最基本的数据是集成到基础数据中的详细数据
1.5.2. 仅有详细数据是不够的,还需要描述性数据,只有将详细数据和描述性数据结合起来,才能使数据湖仓发挥最大的作用
1.5.3. 由于描述性数据描述了基础数据中的详细数据,因此分析人员可以轻松找到所需的详细数据
2. 结构化数据2.1. 数据模型
2.1.1. 数据模型是对基础数据中结构化数据的抽象表示
2.1.2. 在实体关系图层级上,我们会定义组织的主要实体及其之间的关系
2.1.3. 实体关系图的下一层级是数据项集,用于进一步描述实体
2.1.3.1. 每个实体在实体关系图中都有一个对应的数据项集,其中包括键、属性以及实体之间的关系等
2.1.3.2. 对于每一组数据项集,我们都可以找到其物理定义,包括实际定义、键标识、属性的名称、属性的结构以及索引
2.1.4. 数据模型可以被视为对组织内结构化数据的一种抽象
2.1.4.1. 因为数据可能很快变得非常复杂,抽象可以使得设计师和分析人员更好地访问和分析基础数据中的数据
2.2. 元数据
2.2.1. 在对基础数据中的结构化数据进行基础设施分析时,元数据定义也是很重要的一个部分
2.2.2. 元数据类似于数据模型的物理属性
2.2.3. 元数据确实包含一些数据库管理系统(Database Management System,DBMS)特有的物理特征,这些特征并不包含在数据模型的较低层次中
2.2.4. 在物理层面上,元数据包括数据库管理系统所描述数据的实际定义,例如键、属性和索引等要素
2.3. 结构化数据转换
2.3.1. 名称转换
2.3.2. 编码转换
2.3.3. 度量单位转换
2.3.4. 货币类型转换
2.3.5. 计算转换
2.3.6. 数据选择转换
2.4. 结构化数据源
2.4.1. 在对结构化数据进行基础设施分析时,识别出结构化数据的数据源是其中非常重要的一个步骤
2.4.2. 结构化数据的起始来源是事务数据,我们可以从不同的来源收集与事务相关的数据
2.4.3. 事务数据可以来自不同的数据源
2.4.3.1. 银行柜员活动
2.4.3.2. 自动取款机活动
2.4.3.3. 活期存款交易
2.4.3.4. 航空公司订票
2.5. 数据选择标准
2.5.1. 在对结构化数据进行基础设施分析时,确定数据筛选条件是其中最重要的部分之一
2.5.2. 仅仅识别出需要使用的算法是不够的,还必须明确计算中包括和排除了哪些数据
2.5.3. 使用基础数据进行分析的分析人员需要清楚了解参与计算的数据具体有哪些
2.6. 数据定义语言
2.6.1. 数据定义语言(Data Definition Language,DDL)也是一个非常重要的部分
2.6.2. 数据定义语言用于定义与数据库管理系统相关的数据库结构
2.6.3. 数据定义语言始终包含对定义数据库有用的其他信息
2.7. 数据编码
2.7.1. 编码是指保存在数据库中的有意义的值
2.8. 数据关系
2.8.1. 应用程序支撑的关系
2.8.2. 数据库管理系统支持的关系
2.8.3. 隐含关系
2.8.4. 显式关系
2.8.5. 推理关系
2.9. 在结构化环境中,数据的上下文情境非常明确,主要体现在系统的结构中
2.9.1. 对结构化环境来说,数据的上下文情境明确且显式存在于结构化数据的元数据中
2.9.2. 在结构化环境中,数据的上下文情境由描述性数据本身的元数据提供
3. 文本数据3.1. 支持文本数据和文本数据分析的描述性数据是一类重要的描述性数据
3.2. 文本环境并没有体现出明确的上下文情境
3.2.1. 人们不会根据上下文情境说话,也不会根据明确的上下文情境写作
3.2.2. 下文情境会隐式地嵌入语言
3.3. 文本数据中也存在上下文情境,但是文本环境中上下文情境的定义方式与结构化环境中的不同
3.3.1. 要理解文本环境中的上下文情境,有必要先消除文本的歧义
3.3.2. 在文本数据分析中,上下文情境与结构化环境中的上下文情境一样重要
3.4. 上下文情境在分析基础设施中扮演着非常重要的角色,可以帮助我们理解数据湖仓中的基础数据
3.5. 本体
3.5.1. 文本数据的描述性数据的主要组成部分是本体
3.5.2. 本体是由两个或多个相关分类标准的集合构成
3.5.3. 一般来说,本体提供对业务或学科的完整描
3.5.4. 通用本体主要包括通常使用的单词和术语,对通用术语而言,通用本体的主题并不重要
3.5.5. 行业本体则包含特定行业的术语,例如,医疗行业有医疗术语,法律行业有法律术语,会计行业有会计术语等
3.5.6. 定制本体包含企业特定的名称
3.6. 分类标准
3.6.1. 文本数据还需要熟悉分类标准
3.6.2. 分类标准仅仅是一个分类词组
3.6.3. 在分类标准中,每个单词都与其他元素具有相同的类别关
3.6.4. 分类标准是本体的一部分
3.6.5. 本体的内容是异构的,而分类标准的内容是同质的
3.6.6. 一个分类标准仅包含与该分类关系相同的分类数据
3.6.7. 与本体不同,分类标准的内容是同质的
3.6.8. 仅仅依靠本体和分类标准进行文本分析是不够的,文本分析还有很多其他要求
3.7. 关联
3.7.1. 文本消歧需要一个元素,那就是寻找隐含在文本中的业务规则
3.7.1.1. 这种形式的业务规则被称为关联
3.8. 上下文情境
3.8.1. 与业务规则相关的是上下文情境的处理过程,而上下文情境则是文本消歧的本体和分类标准解决方案的必要组成部分
3.8.2. 通过将本体和分类标准作为指南,可以消除许多文本的歧义,但是很多其他形式的文本并没有采用本体和分类标准
3.8.3. 法律合同和实验室报告就是典型的非自由格式文本
3.8.3.1. 单词的含义通常需要通过文本数据的上下文情境进行推导
3.9. 文本数据源
3.9.1. 语音对话
3.9.1.1. 语音对话需要进行转录,并且在此过程中往往会损失一定程度的准确性
3.9.2. 电子邮件
3.9.2.1. 电子邮件则依赖对垃圾邮件的过滤能力,以及清理和删除系统开销数据的能力
3.9.2.2. 如果不对垃圾邮件进行过滤,电子邮件流的大小将不断增长,最终难以处理
3.9.3. 印刷资料
3.9.3.1. 印刷资料需要通过光学字符识别进行转录,而其准确性与油墨打印的清晰度、字体以及纸张的稳定性等多种因素有关
3.9.4. 电子文本
3.9.5. 互联网
3.9.5.1. 互联网取决于互联网数据所在的站点,每个互联网站点都是不同的,并且会经常发生变化
3.9.6. 每一种文本数据来源都有自己的特点
4. 模拟/物联网数据4.1. 尽管大多数机器的监测数据都不重要,但偶尔也会出现引起人们极大兴趣的模拟/物联网数据
4.2. 需要进行数据蒸馏,将乏味的数据与有趣的数据分离开
4.3. 算法
4.3.1. 蒸馏算法是一种特别有趣的算法,这种算法具有智能,可以用于判断模拟/物联网数据是否有用
4.4. 阈值
4.4.1. 除了用于分离模拟/物联网数据的算法以外,将定义的数据阈值作为参数进行进一步分析也很有意义
4.4.2. 算法的阈值决定了将记录写入访问文件的边界
4.4.3. 偶尔会出现超出正常范围的测量值,测量值可能过高或过低
4.4.3.1. 异常的记录将被写入访问概率较高的文件
4.4.3.2. 记录是否被写入则取决于所设置的算法阈值
4.5. 时间排序
4.5.1. 时间排序方法可能会采集到分析人员感兴趣的模拟/物联网数据
4.5.2. 分析人员可以为预期的、感兴趣的活动选择一个时间段,在这个时间段内发生的所有记录都会被采集
4.5.3. 与依靠预先设定阈值不同,分析人员也可以通过使用时间排序方法来监控活动
4.6. 数据源
4.6.1. 某些机器以一种速度收集数据
4.6.2. 其他机器则可能以另一种速度收集数据
4.6.3. 某些机器具有很高的精度
4.6.4. 有些机器的精度则很低
4.6.5. 采用一种测量方法来收集数据
4.6.6. 使用不同的测量方法
5. 数据血缘5.1. 所有不同类型的数据都包含能够反映数据血缘的数据
5.2. 在组织中,数据从一个数据库流向另一个数据库是很常见的现象
5.3. 对使用数据湖仓基础数据进行工作的分析人员来说,数据血缘是非常有用的