【JVS·智能BI】数据集(一):数据界面化加工整体介绍

科技躬身要践行 2024-08-02 17:46:34

数据应用的基本流程大致分为三个步骤,数据的集成接入(多种数据源)、数据的清洗加工(关联、筛选、分组聚合等),最后再是数据的应用(数据报告、趋势图表、大屏展示、统计报表等)。

数据加工是JVS-BI核心模块,主要实现屏蔽所有数据库或者数据类型对数据操作的差异化,采用统一的数据加工方式对数据进行操作,而且构建了数据一体化加工引擎(ELT:抽取、装载、转换),解决数据库之间脚本语法不一致(mysql、mongodb等)、有些数据来源没有脚本语法(excel)等情况。

其中数据清洗是最考验技术能力的过程。JVS-BI提供了可视化数据加工的工具---数据加工引擎,特点:

数仓式统一抽取+存储,流程化任务化加工,屏蔽底层不同数据源的差异,技能门槛降低,不论是excel还是hive 或者mongodb ,用户只需要简单通过流式数据加工配置即可;模拟建模配置,通过拖拉拽的方式,透明化数据建模过程,构建数据处理流程,简单清晰明了界面化管理,提供快速任务管理工具,原始数据、模型化加工、周期化更新,更加简单高效

数仓式存储

数仓(Data Warehouse)是一个用于集中存储和管理企业中各种数据的方式,在JVS-BI中,数仓式存储模式是一种将企业各种数据进行整合、清洗、转换、加载,然后存储在一个中心化的数据仓库中的存储模式,它是独立于各个业务平台的独立数据分析系统,对数据的存储、数据的加工用自有平台的服务能力,数据分析加工是需要消耗大量的计算资源,这种模式不会消耗生产系统的计算性能,从而避免统计分析过程影响生产业务。

分析统计尽量不影响生产系统,特别是大量的分析所需的计算资源一定不能依赖于生产系统。

流程化加工

JVS-BI采用流程式数据加工方式,通过“算子”的形式将数据 一步一步的进行加工处理,通过每个算子的界面化配置,如下图所示:

算子是数据加工过程中的核心能力,算子通过 内存计算与数据库能力引用相融合的模式,实现了数据加工的配置化,系统提供了各种处理算子,在配置引擎中可以快速实现,数据过滤、多表关联(跨库)、数据拓展(函数计算)、追加合并......各种各样的处理方法,通过简单的拓展,下图展示了一个配置算子的过程示例:

模拟化建模

模拟建模采用 任务+流程的思路,每个算子(对数据单一计算处理的方法)提供一些抽象后的基础加工的方式,通过流程连线的方式,将多个算子拼接,实现一系列的对数据加工的过程(建模),并且对该模型任务执行、任务调度进行配置,从而实现自动化的对数据进行 抽取、存储、加工的过程。

在配置过程中模拟引入了一部分真实表结构的部分数据,作为加工的模拟数据,通过每一步,系统去构建每个环节的数据模型(类似于零代码开发的模式),无需关注所需要建模的物理表结构,只关注每个环节我们要的业务数据结果,这样大大降低了 对操作者的技术门槛,也实现了所见即所得的配置清洗建模的过程

加工后的结果

通过任务加工后的所得到的数据结果我们称为数据集,数据集是数据加工分析得到的中间结果表,他可以来源于单一数据,也可以来源于多个数据(支持跨库、跨数据类型),通过数据集的配置,从而便捷的实现了联通数据孤岛。下图为数据集的输出结果。

数据集的除了输出的结果数据、加工配置的过程,还有任务执行的日志记录与血缘视图,后续相关章节将着重讲解。

在线demo:http://bi.bctools.cngitee地址:https://gitee.com/software-minister/jvs-bi
0 阅读:0

科技躬身要践行

简介:感谢大家的关注