【JVS·智能BI】数据集（一）：数据界面化加工整体介绍

数据应用的基本流程大致分为三个步骤，数据的集成接入（多种数据源）、数据的清洗加工（关联、筛选、分组聚合等），最后再是数据的应用（数据报告、趋势图表、大屏展示、统计报表等）。

数据加工是JVS-BI核心模块，主要实现屏蔽所有数据库或者数据类型对数据操作的差异化，采用统一的数据加工方式对数据进行操作，而且构建了数据一体化加工引擎（ELT：抽取、装载、转换），解决数据库之间脚本语法不一致（mysql、mongodb等）、有些数据来源没有脚本语法（excel）等情况。

其中数据清洗是最考验技术能力的过程。JVS-BI提供了可视化数据加工的工具---数据加工引擎，特点：

数仓式统一抽取+存储，流程化任务化加工，屏蔽底层不同数据源的差异，技能门槛降低，不论是excel还是hive 或者mongodb ，用户只需要简单通过流式数据加工配置即可；模拟建模配置，通过拖拉拽的方式，透明化数据建模过程，构建数据处理流程，简单清晰明了界面化管理，提供快速任务管理工具，原始数据、模型化加工、周期化更新，更加简单高效

数仓式存储

数仓（Data Warehouse）是一个用于集中存储和管理企业中各种数据的方式，在JVS-BI中，数仓式存储模式是一种将企业各种数据进行整合、清洗、转换、加载，然后存储在一个中心化的数据仓库中的存储模式，它是独立于各个业务平台的独立数据分析系统，对数据的存储、数据的加工用自有平台的服务能力，数据分析加工是需要消耗大量的计算资源，这种模式不会消耗生产系统的计算性能，从而避免统计分析过程影响生产业务。

分析统计尽量不影响生产系统，特别是大量的分析所需的计算资源一定不能依赖于生产系统。

流程化加工

JVS-BI采用流程式数据加工方式，通过“算子”的形式将数据一步一步的进行加工处理，通过每个算子的界面化配置，如下图所示：

算子是数据加工过程中的核心能力，算子通过内存计算与数据库能力引用相融合的模式，实现了数据加工的配置化，系统提供了各种处理算子，在配置引擎中可以快速实现，数据过滤、多表关联（跨库）、数据拓展（函数计算）、追加合并......各种各样的处理方法，通过简单的拓展，下图展示了一个配置算子的过程示例：

模拟化建模

模拟建模采用任务+流程的思路，每个算子（对数据单一计算处理的方法）提供一些抽象后的基础加工的方式，通过流程连线的方式，将多个算子拼接，实现一系列的对数据加工的过程（建模），并且对该模型任务执行、任务调度进行配置，从而实现自动化的对数据进行抽取、存储、加工的过程。

在配置过程中模拟引入了一部分真实表结构的部分数据，作为加工的模拟数据，通过每一步，系统去构建每个环节的数据模型（类似于零代码开发的模式），无需关注所需要建模的物理表结构，只关注每个环节我们要的业务数据结果，这样大大降低了对操作者的技术门槛，也实现了所见即所得的配置清洗建模的过程

加工后的结果

通过任务加工后的所得到的数据结果我们称为数据集，数据集是数据加工分析得到的中间结果表，他可以来源于单一数据，也可以来源于多个数据（支持跨库、跨数据类型），通过数据集的配置，从而便捷的实现了联通数据孤岛。下图为数据集的输出结果。

数据集的除了输出的结果数据、加工配置的过程，还有任务执行的日志记录与血缘视图，后续相关章节将着重讲解。

在线demo：http://bi.bctools.cngitee地址：https://gitee.com/software-minister/jvs-bi

幸福双城资讯网

【JVS·智能BI】数据集（一）：数据界面化加工整体介绍

科技躬身要践行