绕不开的统计：z值、t值都在算什么之习题举例

来源：统计小白浅绿色蜗牛

本文约1800字，建议阅读8分钟

本文主要辨析z值和假设验证中z值的解析。

好书推荐：《统计学》(第8版)贾俊平，中国人民大学出版社。本次的习题和知识点来源于此。

先回复一个小问题，同是z的公式，却用不同的字母表达，这是为什么呢？其实非常简单，这是为了区分总体和样本的数据。

总体：是我们感兴趣的全体对象或观察单元的集合。总体通常用大写字母N表示，总体的某一属性通常用大写字母X表示。例如，总体平均值用μ表示，总体标准差用σ表示。

样本：由于通常不可能获取总体的全部数据，我们使用样本来代表总体。样本是总体中的一个子集，通常用小写字母n表示样本大小。样本的属性通常用小写字母x表示，例如样本均值用x̄表示。

注意：按照这个原则，其实上图样本的z值的表示是错的，应该用小写z。所以，大家就知道本来我们初学统计就被公式、字母搞混，网络上搞混乱的也不少，但是只要记住上面的原则，就很好辨别和区分，看一眼就至少知道是在描述样本还是总体。

例题3：检验统计量z和t

那么先问一个问题，在作为检验统计量时，z应该用大写还是小写？当然是小写啊，因为统计量来源于样本。

z和t都可以作为检验统计量。

这里我们还是用最简单的情况讲解。那我们就先假定总体标准差σ已知，且样本量大，采用z统计量。

μ表示我们要检验的参数，那么μ0表示感兴趣的数值。

例3：由资料得知，1989年某地新生儿的平均体重为3190克，现在从1990年的新生儿中随机抽取100个，测得其平均体重为3120克，请问1990年的新生儿与1989年相比，体重有无显著差异？（已知新生儿体重的标准差为80克）

是不是熟悉的配方和味道，我们来按照流程走一遍。差异20克是否显著，是随机抽样造成还是确实有所增加。

这里我们用μ表示1990年新生儿平均体重3210克（参数），用μ0表示1989年新生儿平均体重3190克（感兴趣的数）。

Step1：提出原假设和备择假设

Step2: 构建合适检验统计量

z=2.5，意味着什么？你还记得1.96吗？上个通用图先。可以看出2.5肯定在1.96的右侧，也就是超出了95%置信区间的范围。

再上一个，更明白的。说更明白一些，z落在了拒绝域里。

Step3: 根据z值，进行统计决策

z值落在拒绝域里，所以拒绝原假设，认为与1989年相比，1990年新生儿体重有显著差异。

至此你理解z值在算什么了吗？

那我们下面分为两步，一步向前，一步后退。

向前一步：算出z值所在位置所代表的精确概率P有多小？

算出z值，只是知道其落入拒绝域，拒绝原假设的风险是0.05，那么0.05是一个通用的风险概率。

通过z值，我们可以知道其背后跟更精确的风险概率即P值。正如之前这篇里讲到的，知道Z背后所代表的“出现在此位置的概率”，才是关键。

那这个概率P值的完整解释是什么？即——如果原假设成立，即1990年新生儿体重的总体均值与1989年新生儿体重的总体均值相同，那么随机抽取n=100的样本，其平均值大于3210克的概率有多大？

P值越小，那么这种情况发生的概率就越小。目前P值都是基于z值用统计软件算出。计算得出，此题P=0.01242，小于事先确定的双侧检验显著水平0.025，所以拒绝原假设。与前面z值结果一致。

后退一步：算下95%的置信区间，看3210是不是在区间内？

根据这个计算公式，上一篇里讲到了哦。可以去翻翻看。

可以得出，95%的置信区间是[3174.32, 3205.68]，而1990年的3210并不在此区间内，也可以验证原假设步不成立。

至此，你明白z值是什么了吗？

最后，附一段辨析各种Z，我自己之前有点混淆。

1. 一般正态分布转化为标准正态分布的公式：

2. 标准分数（z-score）：标准分数是用来衡量一个数值在数据分布中的位置，并且表示该数值与平均值的偏离程度。它的计算方法是将数据减去平均值，再除以标准差，即样本数据的标准分数。公式为：

3. Z统计量：在假设检验中，Z统计量是用来评估样本统计量与总体参数之间差异的一种方法，通常用于大样本且总体标准差已知的情况。公式为：

z统计量告诉你样本均值与总体均值之间的差异程度，以标准差的单位来衡量。而且此值和样本量有关，所以在标准差项上有n的加入。

联系：三者都涉及Z分布，Z分布是正态分布的一种特殊情况，其均值为0，标准差为1。标准分数和假设检验中的Z统计量都是用来衡量一个值相对于平均值的偏离程度，但应用场景和计算方法略有不同。

不过总感觉我好像有哪里还是不太明白。学霸有发现错误的，麻烦后台留言感谢。

内容有点多，希望大家能够划到此处，感谢到此一游的亲们贡献的完读率。