1.安全和隐私1.1.安全在数据工程的执行层面至关重要1.1.1.安全需要成为一种思想和行动的习惯1.1.2.安全是隐私
1.机器学习1.1.机器学习正在变得普遍1.1.1.机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并且
1.合作角色1.1.数据分析师1.2.数据科学家1.3.MLOps/机器学习工程师1.4.业务侧1.4.1.数据或非技术
1. 使用场景1.1. 为分析和BI,也就是统计分析、报表和仪表板提供数据服务1.1.1. 是数据服务最为常见的目标1.
1.转换1.1.转换与查询不同1.1.1.查询是根据过滤和连接逻辑从各种来源检索数据1.1.2.转换将结果持久化,供其他
1.数据建模1.1.良好的数据架构必须反映出使用这些数据的组织的业务目标和业务逻辑1.2.数据湖1.0、NoSQL和大数
1.查询1.1.通过理解查询、建模和转换,你会掌握将原始数据转化为下游利益相关者可用数据的工具1.2.被很多人熟知的SQ
1.回头看日更坚持了670天。读《数据湖仓》更新完成读《数据工程之道:设计和构建健壮的数据系统》开更并持续更新2023年
1.基本信息数据湖仓[美]比尔·恩门(BillInmon);[美]戴夫·拉皮恩(DaveRapien);[美]瓦莱丽·特
1.数据库直连1.1.数据可以通过网络连接直接从数据库中通过查询和读取的方式来获取1.2.使用ODBC或JDBC进行的1
1.批量获取的考虑因素1.1.批量获取,通常是获取数据的一种便捷方式1.1.1.通过从源系统中抽取一个数据子集,根据时间
1.有边界与无边界数据1.1.无边界数据是现实中存在的数据,是事件发生时的数据,要么是间断的,要么是连续的、持续的和流动
1.数据获取1.1.数据获取是将数据从一个地方移动到另一个地方的过程1.1.1.数据获取与系统内部获取是不同的1.2.数
1.数据工程存储抽象1.1.数据工程存储抽象是数据组织和查询模式,位于数据工程生命周期的核心,建立在之前讨论的数据存储系
1.对象存储1.1.对象存储包含各种形状和大小的对象1.1.1.Amazon S3、Azure Blob Storage
1.单机存储和分布式存储1.1.存储系统是存在于原材料之上的抽象层次1.2.磁盘是一种原始存储材料,而主要的云对象存储平
1.存储1.1.存储是数据工程生命周期的基石1.1.1.是数据获取、转换和服务主要阶段的基础1.1.1.1.当构建数据管
1.数据共享1.1.云数据共享的核心概念是,多租户系统支持租户之间共享数据的安全策略1.2.任何具有细粒度权限系统的公有
1.数据库1.1.数据库管理系统1.1.1.用于存储和提供数据的数据库系统1.1.2.简称DBMS,它由存储引擎、查询优
1.源系统中的数据生成1.1.数据工程师的工作是从源系统获取数据,对其进行处理,使其有助于为下游用例提供服务1.2.数据
签名:书既能读薄也能读厚,输出才能检验输入,完成才能完善。