描述性统计的内容主要分为位置度量和离散度度量两种形式。其中位置量能够反映数据的集中趋势,它描述了中心、中间或大部分数据的位置;算平均数、中位数、众数是常用的位置度量方法。而离散度度量是数据分布或分散的反映,主要包括极差、分位数及方差和标准差
位置度量位置度量指标主要包括算术平均数、中位数和众数
1.算术平均数
是所有观测值的总和除以观测值个数,即常规使用的平均数。例如,一个企业下属6个公猪站,每个公猪站2021年6月分别生产2000、3000、2500、3500、5000和6000袋猪精产品,那么该企业2021年月总计生产2000+3000十2500+3500+5000+6000=22000袋猪精产品,平均到每个公猪站则是(2000+3000+2500+3500+5000+6000)/6=3666.67猪精产品,3666.67即为该企业各公猪站2021年6月猪精产品的算术平均数
2.中位数
是测量数据的中间值。当n为奇数时,样本中位数可以被导出。例如,有9头公猪,它们的月龄分别为23、23、24、28、30、40、43、44和48月龄,那么这9头公猪的月龄中位数为(9+1)/2=5位的观测值,即30月龄。30月龄以下的观测次数与30月龄以上的观测次数相同;
当n是偶数时,中位数是第(n/2)和(n/2+1)观测值的平均值。例如,在23、23、24、28、30、38、40、43、44、48月共10头公猪月龄的记录数据中,中位数为(10/2)=5和(10/2+1)6观测值的平均值,即(30+38)/2=34。
中位数与算术平均数的区别在于中位数不受极值的影响。例如,3、5、7这3个数字的中位数是5,算术平均数也是5:但3、5、70这3个数的中位数也是5,而算术平均数是39。
3.众数
是样本中所有观测值中出现频率最高的值,不受个别数据的响。还是以上述公猪月龄数据为例,有10头公猪,月龄分别为23、23、2428、28、28、30、40、43和44月龄,那么公猪月龄的这些数据中,28出现的次数最多为3次,故众数为28。
特别对于对称分布的数据,算术平均值、中位数和众数是相同的,并且一个变量可能有多个众数。然而,呈偏态分布的数据,其算术平均值、中位数和众数的数值差异可能很大,在这种情况下,中位数比算术平均值更能代表数据分布的中心。
离散度度量离散度度量指标主要包括极差、百分位数、方差和标准差。
1.极差
范围是最小值和最大值之间的距离
2.百分位数
若将一组数据从小到大排序,并计算相应的累计百分点,则某百分点所对应数据的值,就称为这百分点的百分位数,以p表示第k百分位数。
百分位数是用来比较个体在群体中的相对地位量数,其中常用的是四分位数(quartile),所谓四分位数,是指把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。
3.方差和标准差是评估数据变异程度大小的两个重要指标。
其中方差是各个数据与其算术平均数的离差平方和的平均数。标准差又称均方差,一般用σ表示。
例如,在1、2、3、4、5和6的一组值中,平均值是 3.5,方差是3.5,标准差是1.87。