看完这篇文章,年薪80万的CIO惊呼:以前的数据加工都白搞了!

数据分析真是个事 2024-10-26 13:26:34

项目周期冗长、牵涉部门繁杂、投入如无底洞、收效却微乎其微…… 最近很多数字圈的朋友都和miao君抱怨:数据加工类项目太难推进了!前几年,“数据加工” 这一概念被炒得很热,掀起了一阵阵热潮,引得众多企业纷纷投入大量资源。然而,当热潮退去,大家才会发现真正能将数据加工转化为显著业务价值,成功跨越数据到实际效益之间那道鸿沟的案例可以说是凤毛麟角。

那大多数企业搞成了什么情况呢?现实就是企业前期耗费大量资金和人力搭建的数据加工体系,实际使用效果差强人意。业务需求与数据加工结果严重脱节,管理决策无法有效基于加工后的数据进行,这时候,企业领导层和CIO就破防了,那些最初的美好愿景就像一个个泡沫碎掉了,留下得就是一系列棘手的问题。不客气地说,在风口上,泡沫可以一个接一个地吹起,但风停了,企业在生存压力下对这些虚幻的泡沫就失去了兴趣。所以此时的问题是:企业连生存都面临挑战,还要不要执着于数据加工?

我的答案是:有必要!非常有必要!如果在这个时候放弃搞数据加工,打个比方,就好比盲人扔掉了拐杖,企业可能会陷入更加被动的局面,很多人都把数据加工归类为数据分析的一部分,其实,说的高级一点,数据加工的实质是企业在数字化时代实现突破和转型的核心驱动力。

对于数据加工,企业态度上要重视,实践上要落实,虽然数据加工的概念很好理解,但其实讲起来却很复杂,今天我就从销售业务人员的视角这一个小切口为大家梳理大数据信息加工的操作步骤,希望带给大家新的启示!

一、数据加工的操作步骤详解

我们都知道,在数据分析的领域中,数据加工处理是至关重要的一环。当管理员准备好数据后,业务人员便可以开启创建分析表,根据业务需求对原数据进行精心的再加工处理。这一过程其实可以拆解成八大步骤,下面我们一起来看一下!

1. 选字段

什么是选字段?选字段就是在创建分析表时,业务人员需要从业务包中精准地选择那些要添加进来进行数据加工处理的字段。这些字段是后续分析的基础,字段虽小,却很重要!选不好,后续的工作就做不了,因为字段的选择直接影响到最终分析结果的准确性和有效性。例如,在销售数据分析中,如果我们关注不同产品的销售情况,那么 “产品名称”“销售数量”“销售额” 等字段就是我们需要重点挑选的对象。字段的选择具有很强的针对性,大家在具体操作时候灵活处理即可。

2. 过滤

选完字段就是过滤,过滤是帮助我们筛选出符合特定条件的数据。根据业务需求,对选择的字段按条件进行筛选过滤,可以让我们聚焦于关键信息,排除无关干扰。比如,在分析某时间段内的销售数据时,我们可能只对销售额大于一定数值的交易记录感兴趣,通过设置过滤条件,就可以快速筛选出这些符合要求的数据,从而更深入地分析高销售额的销售模式和客户群体特征。

3. 分组汇总

分组汇总的作用就是让数据更加清晰有序。对原始数据根据条件进行分组统计能够极大地简化数据,帮助我们发现数据中的规律和趋势。以销售数据为例,我们可以按照不同的地区、产品类别或时间周期进行分组汇总,从而了解各个地区的销售总额、不同产品的销售占比以及不同时间段的销售波动情况,为业务决策提供有力支持。

4. 新增列

新增列就像是创造新的价值。为了获得不直接存在于数据库的数据,业务人员在不影响原数据的情况下,通过对现有数据列进行巧妙的计算而得到一个新的数据列。这个过程可能涉及数据格式的转化,比如:

将日期格式从 “年 - 月 - 日” 转换为 “月 / 日 / 年”,以便更符合特定的分析需求;进行时间差的计算,例如计算两个时间点之间的间隔天数,用于分析业务流程的时效性;通过计算利润率(利润 / 销售额)来新增一列,更直观地了解每个产品或交易的盈利情况。5. 字段设置

字段设置是对已添加到分析表中的字段进行重新设置,包括重新选择、修改字段名等操作,可以让数据的呈现更加符合业务逻辑和分析习惯。前期我们选出字段,这一步可以看作是对我们选出字段的进一步优化。比如:

假设我们在分析一家电商企业的销售数据,原始数据中的字段名可能是一些数据库默认的编码或简洁的英文缩写。有一个字段名为 “pdt_id”,对于业务人员来说,这个字段名的含义并不直观。通过字段设置,我们将其修改为 “产品编号”,这样在进行数据分析时,业务人员能够一眼就明白该字段所代表的内容。“ord_dt” 可能表示订单日期,我们将其修改为 “订单生成日期”。对于一些包含多个单词组合的字段名,如 “cust_pur_amt”(客户购买金额),我们可以改为 “客户采购总金额”,这样不仅更符合中文的表达习惯,也让业务人员在使用分析表时更容易理解每个字段的具体含义,从而提高数据分析的效率和准确性。在分析企业的人力资源数据时,我们可能最初从人力资源管理系统中提取了大量的字段,包括员工的基本信息、工作经历、培训记录、绩效评估等各个方面的信息。然而,在进行特定的分析时,我们可以保留 “员工编号”“绩效评分”“基本工资”“奖金” 等与绩效和薪酬直接相关的字段,而将一些如 “入职日期”“培训课程名称” 等在当前分析中不太关键的字段剔除。6. 排序

排序是为数据排列出一个有序的队列,让我们能够更清晰地看到数据的分布和变化趋势。设置对字段按条件的顺序排列,可以是升序或降序。在销售数据中,按照销售额从高到低排序,可以快速找出销售业绩最好的产品或客户;按照时间顺序排序,则可以观察到销售数据随时间的变化情况,为预测未来销售趋势提供线索。

7. 左右合并

左右合并宛如将两块拼图拼接在一起,形成一幅更完整的画面。它将两张表左右合并在一起形成一张新的表,包括并集合并、交集合并、左合并、右合并等方式。在实际业务中,我们可能有不同来源但相关联的数据集,通过左右合并可以将它们整合起来,获取更全面的信息。例如,将销售数据表和客户信息表进行合并,我们就可以在分析销售数据的同时,了解到购买产品的客户的详细信息,如客户年龄、性别、地域等,从而进一步挖掘客户特征与销售行为之间的关系。

8. 上下合并

上下合并则是将多个类似的数据表数据合并成联合结果集,就像将一摞纸张叠放在一起,形成一个更厚实的文档。这种操作适用于需要整合多个时间段或不同部门的相同类型数据的情况。比如,将每月的销售数据报表进行上下合并,我们可以得到一个年度的销售数据汇总,从而更全面地评估企业在一年中的销售业绩和发展趋势。

二、数据加工在销售分析中的示例应用

既然我说我们今天这篇是从销售业务人员的视角,刚才在将步骤的时候已经给大家慢慢渗透了这一个理念,下面我们借助FineBI工具来给大家进行具体的示例讲解。这里顺便介绍一下FineBI,它是我平时工作常用的一款数据分析工具,自助分析数据的模式对我这种搞数据分析的人简直不要太友好,感兴趣的朋友也可以体验一下,我把FineBI的使用链接给大家附在下面了。

https://s.fanruan.com/xk83k

好了现在回归正题,假设我们要做的是销售额环比趋势分析,在销售分析领域,销售额环比趋势分析是一项至关重要的任务,而数据加工操作在其中发挥着关键作用。

1. 组合图制作中的数据加工(1)选字段与布局在进行销售额环比趋势分析时,首先通过 “添加组件” 操作开启数据加工。我们精准地选择 “日期” 字段,将其拖入横轴,这一操作属于数据加工中的选字段步骤。“日期” 字段的选择为我们构建了时间维度,使我们能够观察销售额随时间的变化情况。例如,在月度销售分析中,通过按月份展示日期,我们可以清晰地看到每个月的销售趋势,为后续分析季节性波动等提供基础。接着,将 “销售额” 字段拖入纵轴,这同样是选字段操作的体现。销售额是衡量销售业绩的核心指标,将其置于纵轴,直观地展示了不同时间点的销售金额大小,让我们对整体销售规模有初步的了解。比如,在分析某季度销售数据时,纵轴上的销售额数值可以快速让我们对比各月销售额的高低差异。

(2)新增列与计算

为了更深入地分析销售额的变化趋势,我们进行了关键的数据加工操作 —— 新增列。通过复制一个 “销售额” 字段,并点击 “下拉 > 快速计算 > 环比增长率”,我们基于原始的销售额数据计算出了环比增长率这一新的数据列。环比增长率能够反映出相邻时间段内销售额的增长或下降幅度,为我们评估销售业绩的动态变化提供了有力的量化指标。例如,若某月份销售额环比增长率为正数,说明该月销售额相比上月有所增长,反之则表示下降。这一新增列的操作使我们能够更全面地理解销售数据的变化特征,而不仅仅局限于销售额的绝对值。

(3)图表类型选择与数据呈现

在图表类型选择方面,我们选取 “自定义图表”,并将销售额环比增长率更改为柱形图。这种选择是基于数据可视化的需求进行的数据加工操作。柱形图能够直观地对比不同时间点的环比增长率大小,使我们更清晰地看到销售额增长或下降的幅度差异。与折线图展示趋势相比,柱形图在突出环比增长率的具体数值方面更具优势。例如,当我们同时观察销售额的折线图和环比增长率的柱形图时,可以快速判断出销售额上升或下降的时间段,以及相应的增长或下降幅度是否显著。

2. 图表美化中的数据加工(1)字段设置与数值格式优化对销售额环比增长率设置为 “右值轴”,这是对数据展示方式的一种精细设置,属于数据加工中的字段设置操作。通过将环比增长率与销售额分别设置在不同的轴上,我们可以更清晰地展示两个指标的数值范围和变化趋势,避免了因数值范围差异过大导致的图表可读性下降问题。例如,如果销售额数值较大,而环比增长率数值较小,将它们放在同一轴上可能会使环比增长率的变化趋势不明显,而设置右值轴后则可以很好地解决这个问题。修改销售额数值格式为 “万”,这也是字段设置的一部分。将销售额以 “万” 为单位显示,使数据更加简洁明了,便于阅读和分析。在处理大规模销售数据时,以万元为单位可以更直观地反映销售规模,同时也减少了数字的冗长感,提高了图表的整体美观度和可读性。比如,当销售额以原数值显示为 10000000 时,改为 “万” 为单位后则显示为 1000,大大简化了数据的呈现形式,让我们能够更快速地把握销售金额的大致量级。

(2)颜色设置与数据可视化增强

根据销售额环比增长率的大小,对销售额环比增长率柱形图设置不同的颜色,这是一种基于数据特征进行的数据加工操作,旨在通过颜色可视化增强数据的表达效果。例如,我们可以将环比增长率为正数的柱形设置为绿色,代表销售额增长,给人以积极的视觉感受;将环比增长率为负数的柱形设置为红色,代表销售额下降,起到警示作用。这样的颜色设置可以让我们在一眼扫过图表时,就能快速区分销售额的增长和下降情况,更直观地捕捉到销售趋势的变化。同时,对于不同幅度的增长或下降,还可以通过颜色的深浅进一步区分,例如增长率较高的绿色柱形颜色更深,增长率较低的则颜色较浅,从而更细致地呈现数据的差异。

(3)警戒线设置与数据分析辅助

设置销售额环比增长率为 0 的警戒线,这是一项具有重要分析意义的数据加工操作。警戒线的设置为我们提供了一个参考标准,帮助我们快速判断销售额的增长或下降是否达到了一个关键节点。当环比增长率超过 0 时,说明销售额在增长,且超过警戒线越多,增长幅度越大;当环比增长率低于 0 时,说明销售额在下降,低于警戒线越多,下降幅度越大。例如,在制定销售策略时,如果连续几个月的环比增长率都低于 0 且接近或低于警戒线,我们就需要深入分析原因,采取相应的措施来扭转销售下滑的趋势,如调整营销策略、优化产品组合等。

(4)标签添加与图表信息完善

添加销售额标签,使图表中的数据更加直观明了。通过在图表上直接显示销售额数值,我们可以在查看图表时无需额外参考数据表格就能准确获取每个时间点的销售额具体数据,进一步增强了图表的可读性和信息传递效果。例如,在向团队成员或管理层汇报销售情况时,销售额标签可以让他们更快速地理解销售数据的含义,减少对数据的解读误差。

(5)组件命名与项目管理规范

最后,修改组件名称为 “销售环比趋势分析”,这看似简单的操作实际上是数据管理和项目规范的一部分。一个明确、有意义的组件名称有助于我们在数据分析项目中更好地组织和管理各种图表和分析组件。当我们处理多个不同的分析任务或与团队成员协作时,清晰的组件名称可以让我们快速识别和找到所需的分析结果,提高工作效率和沟通效果。例如,在一个大型销售数据分析项目中,包含了众多的图表和分析组件,“销售环比趋势分析” 这个名称能够让我们一眼就知道该组件的主要内容和用途,方便我们在后续的分析和报告中快速引用和整合相关信息。

3. 结果展示

总之,在销售额环比趋势分析中,从组合图制作到图表美化的各个环节,数据加工操作贯穿始终,通过选字段、新增列、字段设置、图表类型选择、颜色设置等多种操作,可以看到,我们将原始数据转化为直观、易懂且具有分析价值的图表,为销售决策提供了有力的支持。数据加工处理是数据分析的核心环节之一,业务人员熟练掌握这些操作,就能够从海量的数据中挖掘出有价值的信息,为企业的决策和发展提供坚实的依据。无论是销售分析、市场调研还是其他业务领域,这些数据加工技巧都将发挥着不可或缺的作用。

最后,以一张思维导图结束今天的文章:

通过这张思维导图,大家对于数据加工的步骤会更加清晰,完整内容详见《数据仓库建设方案》,内含数仓的相关内容可以帮助大家更好理解数据加工这一概念!https://s.fanruan.com/xhywj

0 阅读:0

数据分析真是个事

简介:感谢大家的关注