种猪生产大数据分析之描述性统计量

描述性统计的内容主要分为位置度量和离散度度量两种形式。其中位置量能够反映数据的集中趋势，它描述了中心、中间或大部分数据的位置;算平均数、中位数、众数是常用的位置度量方法。而离散度度量是数据分布或分散的反映，主要包括极差、分位数及方差和标准差

位置度量

位置度量指标主要包括算术平均数、中位数和众数

1.算术平均数

是所有观测值的总和除以观测值个数，即常规使用的平均数。例如，一个企业下属6个公猪站，每个公猪站2021年6月分别生产2000、3000、2500、3500、5000和6000袋猪精产品，那么该企业2021年月总计生产2000+3000十2500+3500+5000+6000=22000袋猪精产品，平均到每个公猪站则是(2000+3000+2500+3500+5000+6000)/6=3666.67猪精产品，3666.67即为该企业各公猪站2021年6月猪精产品的算术平均数

2.中位数

是测量数据的中间值。当n为奇数时，样本中位数可以被导出。例如，有9头公猪，它们的月龄分别为23、23、24、28、30、40、43、44和48月龄，那么这9头公猪的月龄中位数为(9+1)/2=5位的观测值，即30月龄。30月龄以下的观测次数与30月龄以上的观测次数相同;

当n是偶数时，中位数是第(n/2)和(n/2+1)观测值的平均值。例如，在23、23、24、28、30、38、40、43、44、48月共10头公猪月龄的记录数据中，中位数为(10/2)=5和(10/2+1)6观测值的平均值，即(30+38)/2=34。

中位数与算术平均数的区别在于中位数不受极值的影响。例如，3、5、7这3个数字的中位数是5，算术平均数也是5:但3、5、70这3个数的中位数也是5，而算术平均数是39。

3.众数

是样本中所有观测值中出现频率最高的值，不受个别数据的响。还是以上述公猪月龄数据为例，有10头公猪，月龄分别为23、23、2428、28、28、30、40、43和44月龄，那么公猪月龄的这些数据中，28出现的次数最多为3次，故众数为28。

特别对于对称分布的数据，算术平均值、中位数和众数是相同的，并且一个变量可能有多个众数。然而，呈偏态分布的数据，其算术平均值、中位数和众数的数值差异可能很大，在这种情况下，中位数比算术平均值更能代表数据分布的中心。

离散度度量

离散度度量指标主要包括极差、百分位数、方差和标准差。

1.极差

范围是最小值和最大值之间的距离

2.百分位数

若将一组数据从小到大排序，并计算相应的累计百分点,则某百分点所对应数据的值，就称为这百分点的百分位数，以p表示第k百分位数。

百分位数是用来比较个体在群体中的相对地位量数，其中常用的是四分位数(quartile)，所谓四分位数，是指把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。

3.方差和标准差是评估数据变异程度大小的两个重要指标。

其中方差是各个数据与其算术平均数的离差平方和的平均数。标准差又称均方差，一般用σ表示。

例如，在1、2、3、4、5和6的一组值中，平均值是 3.5，方差是3.5，标准差是1.87。