第十二章假设检验 – 李云浩的博客

本文最后更新于120 天前，其中的信息可能已经过时，如有错误请发送邮件至 2641805259@qq.com

一、假设检验概述

1. 定义

假设检验是根据样本信息检验关于总体的某个假设（猜测）是否正确的统计方法。

核心思想是反证法：先假设原假设 $H_0$ 成立，通过样本判断是否出现 “不合理” 现象（小概率事件在一次试验中几乎不会发生），进而决定接受或拒绝原假设。

2. 分类

参数检验：总体分布已知，检验未知参数的假设（如正态总体的均值、方差检验）。
非参数检验：总体分布未知，检验总体分布或两个总体的差异（如分布拟合检验）。

二、假设检验的基本流程

1. 建立假设

定义 1 设来自某个参数分布 $F\{(x, \theta) | \theta \in \Theta \}$ 的样本 $X_1, X_2, \dots, X_n$ ，其中 $\Theta$ 是参数空间，设 $\Theta_0 \subset \Theta$ ，且 $\Theta_0 \neq \varnothing$ ，则命题 $H_0 : \theta \in \Theta_0$ 称为原假设或零假设。若有另一个 $\Theta_1 (\Theta_1 \subset \Theta, \Theta_0\Theta_1 = \varnothing)$ ，则命题 $H_1 : \theta \in \Theta_1$ 称为对立假设或备选假设。记为

H_0 : \theta \in \Theta_0 \quad v.s. \quad H_1 : \theta \in \Theta_1

原假设（ $H_0$ ）：待检验的假设，通常是 “无差异”、“独立” 等保守假设，形式为 $H_0: \theta \in \Theta_0$ （ $\Theta_0$ 为参数空间的子集）。
对立假设（ $H_1$ ）：与原假设对立的假设，形式为 $H_1: \theta \in \Theta_1$ （ $\Theta_1$ 与 $\Theta_0$ 互不相交）。
假设类型：

双边检验： $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$
单边（右边）检验： $H_0: \mu \leq \mu_0$ vs $H_1: \mu > \mu_0$
单边（左边）检验： $H_0: \mu \geq \mu_0$ vs $H_1: \mu < \mu_0$

2. 选择检验统计量

由样本对原假设进行检验通常可以通过一个统计量完成，该统计量称为检验统计量。

总体均值检验：样本均值 $\bar{X}$ （Z 检验、t 检验）
总体方差检验：无偏样本方差 $S^2$ （ $\chi^2$ 检验、F 检验）
频率检验：事件发生的频率

3. 确定显著水平 $\alpha$

定义：小概率事件的概率阈值，通常取 $\alpha = 0.1, 0.05, 0.01$ 。

在假定 $H_0$ 成立下，根据样本提供的信息判断出不合理的现象（即概率小于 $\alpha$ 的事件发生了），则认为假设 $H_0$ 不显著， $\alpha$ 被称为显著水平

但是不否定假设 $H_0$ 并不代表假设 $H_0$ 一定成立，而只能说试验结果与假设 $H_0$ 之间的差异不够显著，没达到否定的程度。

4. 给出拒绝域并判断

拒绝域 $W$ ：由显著水平 $\alpha$ 确定的临界区域，若检验统计量落入 $W$ ，则拒绝 $H_0$ ；否则接受 $H_0$ 。
判断规则：
- 若 $T(X_1,X_2,...,X_n) \in W$ ，拒绝 $H_0$
- 若 $T(X_1,X_2,...,X_n) \in \bar{W}$ ，接受 $H_0$

三、检验的两类错误

错误类型	定义	概率表示
第 I 类错误（弃真）	$H_0$ 为真时拒绝 $H_0$	$\alpha = Pr[\text{拒绝}H_0 \| H_0为真]$
第 II 类错误（存伪）	$H_0$ 为假时接受 $H_0$	$\beta = Pr[\text{接受}H_0 \| H_0\text{为假}]$

关系：样本容量固定时， $\alpha$ 减小则 $\beta$ 增大，反之亦然。
原则（Neymam-Pearson）：控制 $\alpha$ 的前提下，尽可能减小 $\beta$ ，因此将不宜轻易拒绝的假设作为 $H_0$ 。

四、常见假设检验方法

1. 单个正态总体检验（ $X \sim N(\mu, \sigma^2)$ ）

（1）均值 $\mu$ 的检验

条件	假设形式	检验统计量	拒绝域
$\sigma$ 已知	$H_0: \mu \leq \mu_0$ vs $H_1: \mu > \mu_0$	$Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0,1)$	$Z \geq \mu_\alpha$
	$H_0: \mu \geq \mu_0$ vs $H_1: \mu < \mu_0$		$Z \leq -\mu_\alpha$
	$H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$		$\|Z\| \geq \mu_{\alpha/2}$
$\sigma$ 未知	$H_0: \mu \leq \mu_0$ vs $H_1: \mu > \mu_0$	$t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)$	$t \geq t_\alpha(n-1)$
	$H_0: \mu \geq \mu_0$ vs $H_1: \mu < \mu_0$		$t \leq -t_\alpha(n-1)$
	$H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$		$\|t\| \geq t_{\alpha/2}(n-1)$

（2）方差 $\sigma^2$ 的检验（ $\mu$ 未知）

假设形式	检验统计量	拒绝域
$H_0: \sigma^2 \leq \sigma_0^2$ vs $H_1: \sigma^2 > \sigma_0^2$	$\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)$	$\chi^2 \geq \chi_\alpha^2(n-1)$
$H_0: \sigma^2 \geq \sigma_0^2$ vs $H_1: \sigma^2 < \sigma_0^2$		$\chi^2 \leq \chi_{1-\alpha}^2(n-1)$
$H_0: \sigma^2 = \sigma_0^2$ vs $H_1: \sigma^2 \neq \sigma_0^2$		$\chi^2 \geq \chi_{\alpha/2}^2(n-1)$ 或 $\chi^2 \leq \chi_{1-\alpha/2}^2(n-1)$

2. 两个正态总体检验（ $X \sim N(\mu_1, \sigma_1^2)$ ， $Y \sim N(\mu_2, \sigma_2^2)$ ）

（1）均值差 $\mu_1 - \mu_2$ 的检验

条件	假设形式	检验统计量	拒绝域
$\sigma_1, \sigma_2$ 已知	$H_0: \mu_1 - \mu_2 \leq 0$ vs $H_1: \mu_1 - \mu_2 > 0$	$U = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\sigma_1^2/n + \sigma_2^2/m}} \sim N(0,1)$	$U \geq \mu_\alpha$
	$H_0: \mu_1 - \mu_2 \geq 0$ vs $H_1: \mu_1 - \mu_2 < 0$		$U \leq -\mu_\alpha$
	$H_0: \mu_1 - \mu_2 = 0$ vs $H_1: \mu_1 - \mu_2 \neq 0$		$\|U\| \geq \mu_{\alpha/2}$
$\sigma_1^2 = \sigma_2^2 = \sigma^2$ 未知	$H_0: \mu_1 - \mu_2 \leq 0$ vs $H_1: \mu_1 - \mu_2 > 0$	$t = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_W\sqrt{1/n + 1/m}} \sim t(n+m-2)$ ，其中 $S_W = \sqrt{\frac{(n-1)S_1^2 + (m-1)S_2^2}{n+m-2}}$	$t \geq t_\alpha(n+m-2)$
	$H_0: \mu_1 - \mu_2 \geq 0$ vs $H_1: \mu_1 - \mu_2 < 0$		$t \leq -t_\alpha(n+m-2)$
	$H_0: \mu_1 - \mu_2 = 0$ vs $H_1: \mu_1 - \mu_2 \neq 0$		$\|t\| \geq t_{\alpha/2}(n+m-2)$

（2）方差比 $\sigma_1^2/\sigma_2^2$ 的检验（ $\mu_1, \mu_2$ 未知）

假设形式	检验统计量	拒绝域
$H_0: \sigma_1^2 \leq \sigma_2^2$ vs $H_1: \sigma_1^2 > \sigma_2^2$	$F = \frac{S_1^2}{S_2^2} \sim F(n-1, m-1)$	$F \geq F_{1-\alpha}(n-1, m-1)$
$H_0: \sigma_1^2 \geq \sigma_2^2$ vs $H_1: \sigma_1^2 < \sigma_2^2$		$F \leq F_\alpha(n-1, m-1)$
$H_0: \sigma_1^2 = \sigma_2^2$ vs $H_1: \sigma_1^2 \neq \sigma_2^2$		$F \geq F_{1-\alpha/2}(n-1, m-1)$ 或 $F \leq F_{\alpha/2}(n-1, m-1)$

3. 成对数据检验

在实际的应用中，为了比较两个总体之间的差异，往往会得到一批成对的数据，然后基于观察的数据分析判断两个总体之间是否有显著的区别，这种方法称为成对比较法。

假设观察到 $n$ 对相互独立的随机变量 $(X_1, Y_1), (X_2, Y_2), \cdots, (X_n, Y_n)$ ，其中 $X_1, X_2, \dots, X_n$ 和 $Y_1, Y_2, \dots, Y_n$ 分别是总体 $X$ 和 $Y$ 的两个样本，检验这两种方法是否性能相同，即检验总体 $X$ 和 $Y$ 的期望是否相同。因为对相同数据集 $i$ 而言， $X_i$ 和 $Y_i$ 不能被认为相互独立。由此假设

Z = X - Y \sim \mathcal{N}(\mu, \sigma^2)

并建立假设 $H_0: \mu = 0 \quad vs \quad H_1 : \mu \neq 0$ ，方差 $\sigma^2$ 未知，考虑 $t$ 检验量

t = \frac{\bar{Z}}{S / \sqrt{n}} \sim t(n - 1)

在显著性水平 $\alpha$ 下得到拒绝域为： $|t| > t_{\alpha / 2}(n - 1)$ .

4. 非参数检验：分布拟合 $\chi^2$ 检验

（1）适用场景

总体分布未知，检验 $H_0: F(x) = F_0(x)$ （ $F_0(x)$ 为已知形式的分布，可含未知参数）。

若总体 $X$ 为离散随机变量： $H_0 : Pr[X = X_i] = p_i, (i = 1, 2, \dots)$
若总体 $X$ 为连续随机变量： $H_0 : X$ 的密度函数 $p(x) = p_0(x)$
若 $p_i$ 或 $p_0(x)$ 包含位置参数，应先用最大似然估计/矩估计方法估计参数

（2）步骤

将样本分为 $k$ 组，每组频数 $n_i \geq 5$ ；
估计 $F_0(x)$ 中的未知参数（如最大似然估计）；
计算各组理论概率 $\hat{p}_i = Pr(X \in A_i | H_0)$ ；
构造检验统计量： $W = \sum_{i=1}^k \frac{(n_i - n\hat{p}_i)^2}{n\hat{p}_i} \sim \chi^2(k - r - 1)$ （ $r$ 为未知参数个数）；
拒绝域： $W > \chi_\alpha^2(k - r - 1)$ 。

例题： 某试验有四种不同的结果{A,B,C,D}. 现进行如下实验: 独立重复实验直到结果A发生为止. 试验200次,记录抛掷的次数结果如下表,试问该试验是否为均匀分布?

重复次数	1	2	3	4	$\geq 5$
频数	56	48	32	28	36

理论概率：
$P(X = 1) = \frac{1}{4}, \quad P(X = 2) = \frac{3}{4}\frac{1}{4} = \frac{3}{16}$ $P(X = 3) = \frac{3}{4}\frac{3}{4}\frac{1}{4} = \frac{9}{64}, \quad P(X = 4) = \left(\frac{3}{4}\right)^3\frac{1}{4} = \frac{27}{256}, \quad P(X \geq 5) = 1 - \sum_{i = 1}^{4} P(X = i) = \frac{81}{256}$
因此有
$W = \sum_{i = 1}^5 \frac{(n_i - 200P(X = i))^2}{200 P(x = i)} = 18.21$
由于
$W = 18.21 > \chi^2_{0.05}(4) = 9.488$
因此拒绝 $H_0$ ，不服从均匀分布

5. 列联表独立性检验

（1）适用场景

检验两个分类变量 $X$ 与 $Y$ 是否独立（二维列联表 $r \times s$ ）。

（2）步骤

建立假设： $H_0: X$ 与 $Y$ 独立（即 $p_{ij} = p_{i.}p_{.j}$ ）；
计算行和 $n_{i.}$ 、列和 $n_{.j}$ ，估计 $\hat{p}_{i.} = \frac{n_{i.}}{n}$ ， $\hat{p}_{.j} = \frac{n_{.j}}{n}$ ；
构造检验统计量： $W = n\sum_{i=1}^r\sum_{j=1}^s \frac{n_{ij}^2}{n_{i.}n_{.j}} - n \sim \chi^2((r-1)(s-1))$ ；
拒绝域： $W > \chi_\alpha^2((r-1)(s-1))$ 。

五、假设检验的应用

1. 机器学习模型评估

（1）二分类器比较：McNemar 检验

适用：两个分类器在同一测试集上的配对预测结果（正确 / 错误）。
假设： $H_0: P(Aæ£ç¡®,Béè¯¯) = P(Aéè¯¯,Bæ£ç¡®)$ （无显著差异）。
检验统计量（连续性校正）： $\chi_{MC}^2 = \frac{(|n_{01} - n_{10}| - 1)^2}{n_{01} + n_{10}} \sim \chi^2(1)$ 。
结论： $p < \alpha$ 时拒绝 $H_0$ ，认为性能差异显著。

（2）模型性能比较：配对 t 检验

适用：k 折交叉验证中两个模型的性能（如准确率）比较。
假设： $H_0: \mu_d = 0$ （差值均值为 0，无显著差异）。
步骤：

计算每折性能差值 $d_i = a_i^{(1)} - a_i^{(2)}$ ；
构造统计量： $t = \frac{\bar{d}}{s_d/\sqrt{k}} \sim t(k-1)$ ；
拒绝域： $|t| > t_{k-1, 1-\alpha/2}$ 。

2. 实际案例

产品质检：检验次品率、重量 / 寿命是否符合标准（如例 0.1、例 0.5）；
科学实验：验证新方法 / 新材料的效果（如例 0.7 镍合金耐磨性检验）；
数据分布验证：检验数据是否服从正态分布、泊松分布（如例 0.12、例 0.13）；
相关性分析：检验两个分类变量的关联（如例 0.14 营养与智商的关系）。

六、假设检验与置信区间的关系

维度	假设检验	置信区间
目的	判断假设是否成立	估计未知参数的取值范围
输出	$p$ -value、拒绝 / 接受结论	区间 $[L, U]$
核心关系	等价性： $0 \notin CI_{1-\alpha} \iff$ 拒绝 $H_0$ （水平 $\alpha$ ）
机器学习意义	回答 “性能差异是否显著”	回答 “性能提升的范围是什么”

（注：文档部分内容可能由 AI 生成）

一、假设检验概述

1. 定义

2. 分类

二、假设检验的基本流程

1. 建立假设

2. 选择检验统计量

3. 确定显著水平\alpha

4. 给出拒绝域并判断

三、检验的两类错误

四、常见假设检验方法

1. 单个正态总体检验（X \sim N(\mu, \sigma^2)）

（1）均值\mu的检验

（2）方差\sigma^2的检验（\mu未知）

2. 两个正态总体检验（X \sim N(\mu_1, \sigma_1^2)，Y \sim N(\mu_2, \sigma_2^2)）

（1）均值差\mu_1 - \mu_2的检验

（2）方差比\sigma_1^2/\sigma_2^2的检验（\mu_1, \mu_2未知）

3. 成对数据检验

4. 非参数检验：分布拟合\chi^2检验

（1）适用场景

（2）步骤

5. 列联表独立性检验

（1）适用场景

（2）步骤

五、假设检验的应用

1. 机器学习模型评估

（1）二分类器比较：McNemar 检验

（2）模型性能比较：配对 t 检验

2. 实际案例

六、假设检验与置信区间的关系

发送评论 编辑评论

推荐文章

3. 确定显著水平 $\alpha$

1. 单个正态总体检验（ $X \sim N(\mu, \sigma^2)$ ）

（1）均值 $\mu$ 的检验

（2）方差 $\sigma^2$ 的检验（ $\mu$ 未知）

2. 两个正态总体检验（ $X \sim N(\mu_1, \sigma_1^2)$ ， $Y \sim N(\mu_2, \sigma_2^2)$ ）

（1）均值差 $\mu_1 - \mu_2$ 的检验

（2）方差比 $\sigma_1^2/\sigma_2^2$ 的检验（ $\mu_1, \mu_2$ 未知）

4. 非参数检验：分布拟合 $\chi^2$ 检验

发送评论编辑评论