高质量的数据是分析的基础。数据的质量问题可能发生在大数据分析处理流程的每一个阶段。数据采集阶段、数据整合阶段、数据分析阶段,以及在可视化等任何一个环节出现问题,都会对数据的质量产生影响。
影响数据质量的因素(一)数据采集
在数据采集阶段造成数据质量问题的主要因素是数据来源和数据录入。种猪生产数据的来源包括官方和行业协会、猪场管理软件信息平台等。其中,来源于官方和行业协会的数据,一般经过反复核对检验后,数据真实性比较可靠;而来源于猪场管理软件信息平台的数据,是由企业职员录入,可能会出现录入操作错误、对原始数据的曲解及篡改、对未记录的数据进行杜撰等,这些都会影响数据的质量。
(二)数据整合
将多个数据源的数据整合并入一个大的数据集是大数据分析中最常见的操作方法。在数据整合阶段,需要解决不同数据源之间的不一致性或冲突问题,比较容易产生数据错误。例如,在分析母猪终身繁殖性能时,需要将档案信息表、母猪配种信息表、生产信息表、淘汰信息表等整合到一起,如果信息不能匹配或存在数据信息重叠,则需要剔除这些与分析无关的数据记录。
(三)数据分析
数据整合之后,需要进行数据分析。数据分析时要根据数据的类型,即结构化数据、半结构化数据或非结构化数据等进行数据分类整理。特别是非结构化数据需要赋值,如母猪是否分娩,是则赋值为“1”,否则赋值为“0”。但赋值时可能因主观因素而影响数据分析的准确性,如视角差异会对图片数据的分析造成影响。
建立适宜的统计分析模型是养猪生产数据分析的关键。建模的过程就是要根据拟分析的关键性状(因变量)及影响性状关键因素(自变量)的特点,结合数据类型的特征,来建立适宜的数据分析模型。
例如,分析母猪的胎次对产仔性能的影响,可以采用一般线性回归分析。但是针对生产中复杂性状的分析,如分析健仔数的影响因素,就要考虑品种或杂交组合、与配公猪、母猪的胎次、季节、猪舍类型以及妊娠母猪的背膘等的影响,这时就要采用多元线性回归模型分析。
此外,如果因变量是分类变量,如分析影响分娩率的因素,因变量分娩率取值仅有分娩与未分娩两种情况,而自变量(品种、遗传背景)的赋值可能有多个,这时可能就要采用 Logistie回归分析,明确分娩是否发生的概率。
(四)可视化
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户,并可与用户进行交互式处理的过程。这个过程中的质量问题相对较少,但是选择何种展现形式来体现数据分析的价值却是十分关键。主要存在的问题是数据表达的质量不高,展示数据的图表不容易理解。
图表可以将枯燥的信息和数据转化为直观的、给人印象深刻且有意义的图形,以达到数据信息的可视化。例如,国家统计局对每年肉产品产量的统计用柱状图、趋势图以及数据显示相结合的方式呈现(图4-1),可以清楚地了解我国肉类产品近5年的产量和变化。
图4-1
又如在分析淘汰母猪不同胎次的淘汰比例问题时,采用饼图可以清楚地反映各个胎次占比的情况(图4-2)。
图4-2
此外,需要注意一些图表标识可能出现错误,如将单位“周”误写为“天”等,这会引起数据质量问题。
二、评估数据质量的标准数据质量是保证数据应用的基础,其评估标准主要包括五个方面,即真实性、准确性、完整性、一致性和及时性(图4-3)。通过这些标准可以评估数据是否达到预期设定的质量要求。
图4-3
(一)真实性
数据的真实性又称为数据的正确性(rightness),是指数据记录应当以实际为依据,如实反映生产性能的各个指标。为了保证数据的真实性和客观性,需要在数据收集和记录的过程中有明确的规章制度、科学合理的流程、适当的抽查和盘点,明确数据收集的责任人和监督人,并且及时发现和解决问题。数据记录人员必须根据审核无误的原始记录,采用特定的方法进行记录、计算、分析,以保证所提供的数据信息内容完整、真实可靠。
(二)准确性
数据的准确性反映数据记录的信息是否存在异常或错误,也指数据的真实可靠性和可以鉴别的程度,如数据集中指标值与真实值之间的差异是在合理范围之内的。例如,对仔猪初生重的记录值为“5kg”,这就不在合理范围内,数据不准确。
数据的准确性需要通过与一个权威的参考数据源进行比较来体现。比较的方式可以是调查或检验,如仔猪的性别只能是公或母;母猪断奶发情间隔的值不会出现负值。
数据的准确性可能存在于个别记录,也可能存在于整个数量级,如对公猪射精量的记录为“1020mL”,这就偏离正常的数量级范围。这类错误可以使用较大值和最小值的统计量去审核。因此,在有数据源参考的情况下,数据的准确性容易测量,特别是种猪生产中的数据基本都有一个标准。
从种猪生产数据来讲,一般连续性数据如日增重,是符合正态分布的规律,这也可以作为判断数据准确性的依据。对于非连续性数据如公猪射精量、精子密度等指标,经过对数转化为连续性数据后符合正态分布,则可以进行数据统计(表4-1)。
表4-1
如果数据异常并不显著,但依然存在错误,则需要借助一些数据分析工具进行检查。
(三)完整性
数据的完整性反映数据信息是否存在缺失,是数据质量的一项基础评估标准。数据缺失的情况可能是整个数据的记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据其借鉴价值会大大降低。
数据质量的完整性一般可以通过数据统计中的记录数据值进行评估。如,在母猪配种信息数据集中,与配公猪的信息缺乏,导致无法分析与配公猪这条记录,应将其剔除;又如,在记录死胎数据时,如果进一步记录了黑死胎(一般认为是妊娠60~90d死亡的胚胎)和白死胎(一般认为是妊娠90d后和分娩过程中死亡的胚胎)的数据,就可以分析死胎的发生时间和发生原因,但如果只记录了死胎的数据,则无法进行发生原因的分析。
(四)一致性
数据的一致性反映关联数据之间的逻辑关系是否正确和完整。在数据库中,数据的一致性是指数据是否遵循了统一的规范,数据集是否保持了统一的格式,以及数据是否符合逻辑。导致一致性问题的原因可能是数据记录的规则不一,但不一定存在错误;还有就是数值异常,包括异常大或者异常小的数值、不符合有效性要求的数值等。而准确性问题是指数据记录存在错误,如字符型数据的乱码现象。
数据之间关联的逻辑关系对判断数据的一致性十分关键。例如,总产仔数为11~14头,产活仔数为11~12头,且产活仔数≤总产仔数,从准确性来讲是合理的。但如果断奶仔猪数为12头,高于其产活仔数 11头,明显不符合逻辑,不满足一致性的原则,说明这条数据有误。分析原因,可能是这头母猪的产活仔数或断奶仔猪数的记录有误,需要查找原始记录,这样才能保证2个表之间有正确的逻辑关系。
(五)及时性
数据的及时性反映数据从产生到可以查看的时间间隔,也叫数据的延时时长,表示数据世界与客观世界的同步程度。数据的及时性主要与数据的同步和处理效率相关。及时性对于数据分析本身要求并不高,但如果数据分析周期及数据建立的时间过长,就可能导致分析结果失去借鉴意义。在种猪生产中,对数据的及时性没有特殊要求,但由于一般生产性能的改变存在时间效应,如饲料配方的变化、生产模式的改变等需要一定的时间才能出现效果。