本文约1800字,建议阅读8分钟
本文主要辨析z值和假设验证中z值的解析。
好书推荐:《统计学》(第8版)贾俊平,中国人民大学出版社。本次的习题和知识点来源于此。先回复一个小问题,同是z的公式,却用不同的字母表达,这是为什么呢?其实非常简单,这是为了区分总体和样本的数据。
总体:是我们感兴趣的全体对象或观察单元的集合。总体通常用大写字母N表示,总体的某一属性通常用大写字母X表示。例如,总体平均值用μ表示,总体标准差用σ表示。
样本:由于通常不可能获取总体的全部数据,我们使用样本来代表总体。样本是总体中的一个子集,通常用小写字母n表示样本大小。样本的属性通常用小写字母x表示,例如样本均值用x̄表示。
注意:按照这个原则,其实上图样本的z值的表示是错的,应该用小写z。所以,大家就知道本来我们初学统计就被公式、字母搞混,网络上搞混乱的也不少,但是只要记住上面的原则,就很好辨别和区分,看一眼就至少知道是在描述样本还是总体。
例题3:检验统计量z和t
那么先问一个问题,在作为检验统计量时,z应该用大写还是小写?当然是小写啊,因为统计量来源于样本。
z和t都可以作为检验统计量。
这里我们还是用最简单的情况讲解。那我们就先假定总体标准差σ已知,且样本量大,采用z统计量。
μ表示我们要检验的参数,那么μ0表示感兴趣的数值。
例3:由资料得知,1989年某地新生儿的平均体重为3190克,现在从1990年的新生儿中随机抽取100个,测得其平均体重为3120克,请问1990年的新生儿与1989年相比,体重有无显著差异?(已知新生儿体重的标准差为80克)
是不是熟悉的配方和味道,我们来按照流程走一遍。差异20克是否显著,是随机抽样造成还是确实有所增加。
这里我们用μ表示1990年新生儿平均体重3210克(参数),用μ0表示1989年新生儿平均体重3190克(感兴趣的数)。
Step1:提出原假设和备择假设
Step2: 构建合适检验统计量
z=2.5,意味着什么?你还记得1.96吗?上个通用图先。可以看出2.5肯定在1.96的右侧,也就是超出了95%置信区间的范围。
再上一个,更明白的。说更明白一些,z落在了拒绝域里。
Step3: 根据z值,进行统计决策
z值落在拒绝域里,所以拒绝原假设,认为与1989年相比,1990年新生儿体重有显著差异。
至此你理解z值在算什么了吗?
那我们下面分为两步,一步向前,一步后退。
向前一步:算出z值所在位置所代表的精确概率P有多小?
算出z值,只是知道其落入拒绝域,拒绝原假设的风险是0.05,那么0.05是一个通用的风险概率。
通过z值,我们可以知道其背后跟更精确的风险概率即P值。正如之前这篇里讲到的,知道Z背后所代表的“出现在此位置的概率”,才是关键。
那这个概率P值的完整解释是什么?即——如果原假设成立,即1990年新生儿体重的总体均值与1989年新生儿体重的总体均值相同,那么随机抽取n=100的样本,其平均值大于3210克的概率有多大?
P值越小,那么这种情况发生的概率就越小。目前P值都是基于z值用统计软件算出。计算得出,此题P=0.01242,小于事先确定的双侧检验显著水平0.025,所以拒绝原假设。与前面z值结果一致。
后退一步:算下95%的置信区间,看3210是不是在区间内?
根据这个计算公式,上一篇里讲到了哦。可以去翻翻看。
可以得出,95%的置信区间是[3174.32, 3205.68],而1990年的3210并不在此区间内,也可以验证原假设步不成立。
至此,你明白z值是什么了吗?
最后,附一段辨析各种Z,我自己之前有点混淆。
1. 一般正态分布转化为标准正态分布的公式:
2. 标准分数(z-score):标准分数是用来衡量一个数值在数据分布中的位置,并且表示该数值与平均值的偏离程度。它的计算方法是将数据减去平均值,再除以标准差,即样本数据的标准分数。公式为:
3. Z统计量:在假设检验中,Z统计量是用来评估样本统计量与总体参数之间差异的一种方法,通常用于大样本且总体标准差已知的情况。公式为:
z统计量告诉你样本均值与总体均值之间的差异程度,以标准差的单位来衡量。而且此值和样本量有关,所以在标准差项上有n的加入。
联系:三者都涉及Z分布,Z分布是正态分布的一种特殊情况,其均值为0,标准差为1。标准分数和假设检验中的Z统计量都是用来衡量一个值相对于平均值的偏离程度,但应用场景和计算方法略有不同。
不过总感觉我好像有哪里还是不太明白。学霸有发现错误的,麻烦后台留言感谢。
内容有点多,希望大家能够划到此处,感谢到此一游的亲们贡献的完读率。