本文最后更新于120 天前,其中的信息可能已经过时,如有错误请发送邮件至 2641805259@qq.com
一、假设检验概述
1. 定义
假设检验是根据样本信息检验关于总体的某个假设(猜测)是否正确的统计方法。
核心思想是反证法:先假设原假设成立,通过样本判断是否出现 “不合理” 现象(小概率事件在一次试验中几乎不会发生),进而决定接受或拒绝原假设。
2. 分类
- 参数检验:总体分布已知,检验未知参数的假设(如正态总体的均值、方差检验)。
- 非参数检验:总体分布未知,检验总体分布或两个总体的差异(如分布拟合检验)。
二、假设检验的基本流程
1. 建立假设
定义 1 设来自某个参数分布的样本,其中是参数空间,设,且,则命题称为原假设或零假设。若有另一个,则命题称为对立假设或备选假设。记为
- 原假设( ):待检验的假设,通常是 “无差异”、“独立” 等保守假设,形式为(为参数空间的子集)。
- 对立假设( ):与原假设对立的假设,形式为(与互不相交)。
- 假设类型:
- 双边检验: vs
- 单边(右边)检验: vs
- 单边(左边)检验: vs
2. 选择检验统计量
由样本对原假设进行检验通常可以通过一个统计量完成,该统计量称为检验统计量。
- 总体均值检验:样本均值(Z 检验、t 检验)
- 总体方差检验:无偏样本方差(检验、F 检验)
- 频率检验:事件发生的频率
3. 确定显著水平
定义:小概率事件的概率阈值,通常取。
- 在假定成立下,根据样本提供的信息判断出不合理的现象(即概率小于的事件发生了),则认为假设不显著,被称为显著水平
- 但是不否定假设并不代表假设一定成立,而只能说试验结果与假设之间的差异不够显著,没达到否定的程度。
4. 给出拒绝域并判断
拒绝域:由显著水平确定的临界区域,若检验统计量落入,则拒绝;否则接受。
判断规则:
- 若,拒绝
- 若,接受
三、检验的两类错误
| 错误类型 | 定义 | 概率表示 |
|---|---|---|
| 第 I 类错误(弃真) | 为真时拒绝 | |
| 第 II 类错误(存伪) | 为假时接受 |
- 关系:样本容量固定时,减小则增大,反之亦然。
- 原则(Neymam-Pearson):控制的前提下,尽可能减小,因此将不宜轻易拒绝的假设作为。
四、常见假设检验方法
1. 单个正态总体检验()
(1)均值的检验
| 条件 | 假设形式 | 检验统计量 | 拒绝域 |
|---|---|---|---|
| 已知 | vs | ||
| vs | |||
| vs | |||
| 未知 | vs | ||
| vs | |||
| vs |
(2)方差的检验(未知)
| 假设形式 | 检验统计量 | 拒绝域 |
|---|---|---|
| vs | ||
| vs | ||
| vs | 或 |
2. 两个正态总体检验(,)
(1)均值差的检验
| 条件 | 假设形式 | 检验统计量 | 拒绝域 |
|---|---|---|---|
| 已知 | vs | ||
| vs | |||
| vs | |||
| 未知 | vs | ,其中 | |
| vs | |||
| vs |
(2)方差比的检验(未知)
| 假设形式 | 检验统计量 | 拒绝域 |
|---|---|---|
| vs | ||
| vs | ||
| vs | 或 |
3. 成对数据检验
在实际的应用中,为了比较两个总体之间的差异,往往会得到一批成对的数据,然后基于观察的数据分析判断两个总体之间是否有显著的区别,这种方法称为成对比较法。
假设观察到对相互独立的随机变量,其中和分别是总体和的两个样本,检验这两种方法是否性能相同,即检验总体和的期望是否相同。因为对相同数据集而言,和不能被认为相互独立。由此假设
并建立假设,方差未知,考虑检验量
在显著性水平下得到拒绝域为:.
4. 非参数检验:分布拟合检验
(1)适用场景
总体分布未知,检验(为已知形式的分布,可含未知参数)。
- 若总体为离散随机变量:
- 若总体为连续随机变量:的密度函数
- 若或包含位置参数,应先用最大似然估计/矩估计方法估计参数
(2)步骤
- 将样本分为组,每组频数;
- 估计中的未知参数(如最大似然估计);
- 计算各组理论概率;
- 构造检验统计量:(为未知参数个数);
- 拒绝域:。
例题: 某试验有四种不同的结果{A,B,C,D}. 现进行如下实验: 独立重复实验直到结果A发生为止. 试验200次,记录抛掷的次数结果如下表,试问该试验是否为均匀分布?
| 重复次数 | 1 | 2 | 3 | 4 | |
|---|---|---|---|---|---|
| 频数 | 56 | 48 | 32 | 28 | 36 |
理论概率:
因此有
由于
因此拒绝,不服从均匀分布
5. 列联表独立性检验
(1)适用场景
检验两个分类变量与是否独立(二维列联表)。
(2)步骤
- 建立假设:与独立(即);
- 计算行和、列和,估计,;
- 构造检验统计量:;
- 拒绝域:。
五、假设检验的应用
1. 机器学习模型评估
(1)二分类器比较:McNemar 检验
- 适用:两个分类器在同一测试集上的配对预测结果(正确 / 错误)。
- 假设:(无显著差异)。
- 检验统计量(连续性校正):。
- 结论:时拒绝,认为性能差异显著。
(2)模型性能比较:配对 t 检验
- 适用:k 折交叉验证中两个模型的性能(如准确率)比较。
- 假设:(差值均值为 0,无显著差异)。
- 步骤:
- 计算每折性能差值;
- 构造统计量:;
- 拒绝域:。
2. 实际案例
- 产品质检:检验次品率、重量 / 寿命是否符合标准(如例 0.1、例 0.5);
- 科学实验:验证新方法 / 新材料的效果(如例 0.7 镍合金耐磨性检验);
- 数据分布验证:检验数据是否服从正态分布、泊松分布(如例 0.12、例 0.13);
- 相关性分析:检验两个分类变量的关联(如例 0.14 营养与智商的关系)。
六、假设检验与置信区间的关系
| 维度 | 假设检验 | 置信区间 |
|---|---|---|
| 目的 | 判断假设是否成立 | 估计未知参数的取值范围 |
| 输出 | -value、拒绝 / 接受结论 | 区间 |
| 核心关系 | 等价性: 拒绝(水平) | |
| 机器学习意义 | 回答 “性能差异是否显著” | 回答 “性能提升的范围是什么” |
(注:文档部分内容可能由 AI 生成)