规模养猪生产中产生的大量数据,尽管未达到IT行业“大数据”的数量级和广泛度,但随着行业数据获取技术的进步,数据的信息量正在迅速增加。以下主要介绍整体宏观描述的描述性统计分析、适用于连续变量的生产指标的一般线性模型分析、适用于分类变量生产指标的Logistic 回归模型分析,以及适用于具有分层结构的生产数据的多层统计模型、对规模化养猪生产产生的大量数据进行分析的方法。
描述性统计分析
统计学主要包括描述性统计和推理统计。所谓描述性统计,旨在描述数据的基本特征,包括数据分布的特征、数据的平均值及数据变化的基本规律等;
而推理统计学则是采用一种实验性的方法来分析数据,对数据进行测试以及从样本推断总体的属性。描述性统计是数据分析的第一步,是了解和认识数据基本特征和结构的方法。
数据分布类型
数学模型的基线取决于数据的质量,数据的好坏取决于研究者对数据的理解。为了能够更好地理解数据,首先需要了解数据的分布。数据分布的不同决定了统计算法的差异,因此以下重点介绍4种常见的数据分布类型:正态分布、二项分布、泊松分布和指数分布,同时对种猪生产数据的变量类型和分布类型进行汇总。
正态分布正态分布又称高斯分布,是自然界中最常见、最重要的一种连续型分布,是各种统计推断方法的理论基础,许多统计检验都是基于正态假设的。
1.正态分布曲线和特征
(1)正态分布曲线
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(图5-1)。
μ和σ为正态分布的两个参数,其中μ为X的总体均数,σ为X的总体方差。
正态分布曲线具有如下特征:①曲线只有一个峰,峰值位于X=μ处;②曲线关于直线X=μ对称,因而平均数=中位数=众数;③曲线以x轴为渐近线向左右无限延伸;④曲线在X=μ±σ处各有一个拐点;⑤曲线由参数μ和σ完全决定,μ决定曲线在x轴上的位置(图5-2A),σ决定曲的形状,σ较大时,曲线矮和宽,较小时,曲线高与窄(图5-2B)。当给定了总体均数和方差,正态分布就被唯一地确定下来,因而一个正态分布可用符号N(μ,σ2)来表示。当一个随机变量X服从正态分布时,可表示为X~N(μ,σ2)。例如,如果已知μ=36,σ=8,可将该正态分布表示为X~N(36,64)。
图5-2 不同总体平均数和不同标准差的正态分布曲线
(2)正态分布特征
如果随机变量X的分布服从概率密度函数和概率分布函数:
则称连续型随机变量X服从正态分布,记为X~N(μ,G)。式中,π和e是两个常数,分别为圆周率(π=3.1415926)和自然对数的底值(e近似等于2.71828)。X的取值范围理论上没有边界(一∞<X<+∞)。x离μ越远,函数广(x)值越接近于0,但不会等于0。
图5-3 正态曲线下面积示意
正态曲线下的面积分布有一定的规律:①曲线下的面积即为概率,可通过公式求得,服从正态分布的随机变量在某区间上的曲线下面积与该随机变量在同一区间上的概率相等(图 5-3);②曲线下的总面积为1或100%,以μ为中心左右两侧而积各占50%,越靠近μ处曲线下面积越大,两边逐渐诚少;③所有正态曲线,在μ左右的任意相同标准差倍数的范围内面积相同,如区间μ±a范围内的面积约为68.3%,区间μ士2G范围内的面积约为95.5%,区间μ士30范围内的面积约为99.7%(图5-4)。
图5-4 正态曲线下面积分布规律示意
2.正态性分析方法
正态性分析主要有统计图法和统计指标法两种方法。
利用统计图可以直观地呈现变量的分布,同时还可以呈现出经验分布和理论布的差距。
统计指标法中峰度和偏度属于两个常用的正态性统计描述指标,通过构建检验统计量能实现正态性检验。检验统计量对样本进行正态性检验的常用方法见表5-1。
表5-1 数值变量正态性检验的常用方法
(1)统计图法
统计图法中既有不基于任何分布假定的一般统计描述方法,也有基于正态分布假定的正态性考察方法。
前者主要是呈现当前样本数据的内部信息,后者则需考虑样本所对应的理论分布是否服从(或近似服从)正态分布。
当样本量很大时,组段可以分得很细,直方图的包络线越来越接近总体的密度函数曲线。如果这时把频率直方图与正态分布的概率密度甬数幽线相化,可以直观地呈现正态通近效果。
茎叶图的用途同直方图,它不仅具备与直方图相同的直观性,同时能精细表达样本数据的取值水平,当样本最小时,以通过茎叶图进行正态性呈现。
箱式图主要用于多组数据平均水平和变异程度的直观比较,每一组数据均可呈现其最小值、四分之一位数、中位数、四分位数、最大值,如果一组数据服从正态分布,其四分之一位数和四分之三个数应关于中位数对称。
下面用实例来说明直方图、茎叶图和箱式图在种猪生数据中的应用。假设现有A和B两个猪场各20头母猪的背数据,如表5-2所示
表5-2 A和B两个猪场母猪背原厚(mm)
通过绘制两个猪场母猪背膘厚的直方图、茎叶图和箱式图来判断其正态性,从图5-5来看,A猪场母猪背膘厚拟合的正态性较好,而B猪场母猪背膘厚呈现左编态。
图5-5A和B两个猪场母猪背膘厚的直方图
图5-6为茎叶图、其中“茎”列为十位数、“叶”列为个位数。“计数”列购为频数。不难发现A猪场母猪背膘厚茎叶图形状较为对称,B集场不对称,且背腰厚为2lmm和22mm的母猪较多。提示A猪场20头母猪背膘厚呈正态分布,B猪场20头母猪背厚不服合正态分布。
图5-6 A和B两个猪场母猪背膘厚的茎叶图
图57为A和B两个猪场母猪样本背膘厚的箱状图,可以看出A猪场母猪背厚围绕中位数线呈对称分布,提示A猪场母猪背原厚星正态分布。
图57A和B两个猪场母猪背膘厚的箱状图
概率纸法是一种经典的数据分布特征考察方法,正态概率纸能使由正态变量的取值x和相应的分布函数F(x)组成的数对(x,F(x))在概率纸上呈一条直线,其线性度是判断正态性的依据。
PP图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地考察样本数据是否服从某概率分布。如果样本数据服从所假定的分布则散点较好地落在原点出发的45线附近。
QQ图的结果与PP图相似,只是QQ图是用概率分的分位数进行正态性考察。从图5-8可以看出,无论是Q-Q图还是P-P图,A猪场母猪1膘厚样本散点均在45度线附近,提示服从正态分布。
图5-8 A和B两个猪场母猪背膘原的QQ图和PP图
(2)统计指标法
利用统计图判定样本数据的正态性很难避免分析者个人的主观性,构造统计指标进行正态性分析的统计描述与推断更为客观。
统计指标法的检验包括但不限于基于偏度系数和峰度系数的正态性检验、Shmmnirnov检验、Shapiro-Wik正态性检验(W检验)、Kolmogorov-Smirnov检验。
这些测试可以很容易地使用统计软件实现,如SAS和SPS。
例如,表5-3为利用SPSS软件对两个猪场母猪背膘厚做正态性检验,Kolmogorov-Smirnov检验和Shapiro-Wik正态性检验均表现出A猪场母猪膘厚呈正态性分布,B猪场母猪背膘厚不符合正态分布。
对Shapiro-Wilk 检验、KolmogorovSmirnov检验、Cramér-Von Mises 检验和Anderson-Darling检验这四种正态性检验方法进行模拟时,如果样本量在2000以下,Shapiro-Wilk检验效率最高,一般建议作为首选方法。其他三种方法以 Anderson-Darling检验效率最高,Kolmogorov-Smirnov检验效率最低。
表5-3利用SPSS软件对A和B两个猪场母猪背膘厚做正态性检验