规模养猪生产中产生的大量数据,尽管未达到IT行业“大数据”的数量级和广泛度,但随着行业数据获取技术的进步,数据的信息量正在迅速增加。以下主要介绍整体宏观描述的描述性统计分析、适用于连续变量的生产指标的一般线性模型分析、适用于分类变量生产指标的Logistic 回归模型分析,以及适用于具有分层结构的生产数据的多层统计模型、对规模化养猪生产产生的大量数据进行分析的方法。
描述性统计分析
统计学主要包括描述性统计和推理统计。所谓描述性统计,旨在描述数据的基本特征,包括数据分布的特征、数据的平均值及数据变化的基本规律等;
而推理统计学则是采用一种实验性的方法来分析数据,对数据进行测试以及从样本推断总体的属性。描述性统计是数据分析的第一步,是了解和认识数据基本特征和结构的方法。
数据变量类型
统计学中的变量根据数据属性和特征大致可以分为分类变量与数值变量,变量类型特征的不同导致在进行描述性统计时采取的方式不同。其中,数值变量根据取值特点不同可以分为离散型变量(discrete variable)和连续型变量Kcontinuous variable)两类。
分类变量分类变量(categorical variable)是指被测量的量(即被测属性的可能变化状态)是有限数量的不同值或类别的数据。
分类变量的可能状态至少有两类,这些类别是相互区别排斥,并且共同包括所有个体。
当分类变量的状态只包含两类时,称为二分类变量。在母猪生产中,常见到的二分类变量包括母猪分娩(是/否)、仔猪存活(是/否)和仔猪腹泻(是/否)等指标。
当分类变量的可能状态超过两类时,根据这些类别之间是否存在任何大小、高低、前后或强弱关系又分为有序多分类变量和无序多分类变量两类。
在实际生产中,某种药物治疗母猪肢蹄损伤的效果可以分为无效、好转和痊愈,这种类型的指标属于有序多分类变量;
再比如,母猪未分娩的原因一般包括妊娠期空怀,返情、流产和死淘,那么这种类型的变量就属于无序多分类变量。
数值变量1.离散型变量
指变量值可以按一定顺序一一列举,通常以整数位取值的变量。离散变量的数值用计数的方法取得,如职工人数、农场数和生产线等。
在母猪生产中,接触比较多的离散型变量包括产仔和断奶性能等指标,如总产仔数、产活仔数、弱仔数和断奶仔猪数等。
常用的离散变量概率分布有两点分布、二项分布、泊松分布、几何分布和超几何分布等概率分布。
2.连续型变量
指在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值,如身高、体重及血钙水平等。
在母猪生产中,接触比较多的连续型变量包括母猪体重、仔猪初生重、断奶重和哺乳期日增重等指标。
常用的连续型变量概率分布主要包括均匀分布、正态分布和指数分布等。和离散型变量相比,连续型变量有“真零点”的概念,所以可以进行加减乘除的操作。