第十二章 假设检验
本文最后更新于120 天前,其中的信息可能已经过时,如有错误请发送邮件至 2641805259@qq.com

一、假设检验概述

1. 定义

假设检验是根据样本信息检验关于总体的某个假设(猜测)是否正确的统计方法

核心思想是反证法:先假设原假设成立,通过样本判断是否出现 “不合理” 现象(小概率事件在一次试验中几乎不会发生),进而决定接受或拒绝原假设。

2. 分类

  • 参数检验:总体分布已知,检验未知参数的假设(如正态总体的均值、方差检验)。
  • 非参数检验:总体分布未知,检验总体分布或两个总体的差异(如分布拟合检验)。

二、假设检验的基本流程

1. 建立假设

定义 1 设来自某个参数分布的样本,其中是参数空间,设,且,则命题称为原假设或零假设。若有另一个,则命题称为对立假设或备选假设。记为

  • 原假设( :待检验的假设,通常是 “无差异”、“独立” 等保守假设,形式为为参数空间的子集)。
  • 对立假设( :与原假设对立的假设,形式为互不相交)。
  • 假设类型
  • 双边检验: vs
  • 单边(右边)检验: vs
  • 单边(左边)检验: vs

2. 选择检验统计量

由样本对原假设进行检验通常可以通过一个统计量完成,该统计量称为检验统计量

  • 总体均值检验:样本均值(Z 检验、t 检验)
  • 总体方差检验:无偏样本方差检验、F 检验)
  • 频率检验:事件发生的频率

3. 确定显著水平

定义:小概率事件的概率阈值,通常取

  • 在假定成立下,根据样本提供的信息判断出不合理的现象(即概率小于的事件发生了),则认为假设不显著,被称为显著水平
  • 但是不否定假设并不代表假设一定成立,而只能说试验结果与假设之间的差异不够显著,没达到否定的程度。

4. 给出拒绝域并判断

  • 拒绝域:由显著水平确定的临界区域,若检验统计量落入,则拒绝;否则接受

  • 判断规则:

    • ,拒绝
    • ,接受

三、检验的两类错误

错误类型定义概率表示
第 I 类错误(弃真)为真时拒绝
第 II 类错误(存伪)为假时接受
  • 关系:样本容量固定时,减小则增大,反之亦然。
  • 原则(Neymam-Pearson):控制的前提下,尽可能减小,因此将不宜轻易拒绝的假设作为

四、常见假设检验方法

1. 单个正态总体检验(

(1)均值的检验

条件假设形式检验统计量拒绝域
已知 vs
  vs  
  vs  
未知 vs
  vs  
  vs  

(2)方差的检验(未知)

假设形式检验统计量拒绝域
vs
vs  
vs  

2. 两个正态总体检验(

(1)均值差的检验

条件假设形式检验统计量拒绝域
已知 vs
  vs  
  vs  
未知 vs ,其中
  vs  
  vs  

(2)方差比的检验(未知)

假设形式检验统计量拒绝域
vs
vs  
vs  

3. 成对数据检验

在实际的应用中,为了比较两个总体之间的差异,往往会得到一批成对的数据,然后基于观察的数据分析判断两个总体之间是否有显著的区别,这种方法称为成对比较法

假设观察到对相互独立的随机变量,其中分别是总体的两个样本,检验这两种方法是否性能相同,即检验总体的期望是否相同。因为对相同数据集而言,不能被认为相互独立。由此假设

并建立假设,方差未知,考虑检验量

在显著性水平下得到拒绝域为:.

4. 非参数检验:分布拟合检验

(1)适用场景

总体分布未知,检验为已知形式的分布,可含未知参数)。

  • 若总体为离散随机变量:
  • 若总体为连续随机变量:的密度函数
  • 包含位置参数,应先用最大似然估计/矩估计方法估计参数

(2)步骤

  1. 将样本分为组,每组频数
  2. 估计中的未知参数(如最大似然估计);
  3. 计算各组理论概率
  4. 构造检验统计量:为未知参数个数);
  5. 拒绝域:

例题: 某试验有四种不同的结果{A,B,C,D}. 现进行如下实验: 独立重复实验直到结果A发生为止. 试验200次,记录抛掷的次数结果如下表,试问该试验是否为均匀分布?

重复次数1234
频数5648322836

理论概率:

因此有

由于

因此拒绝,不服从均匀分布

5. 列联表独立性检验

(1)适用场景

检验两个分类变量是否独立(二维列联表)。

(2)步骤

  1. 建立假设:独立(即);
  2. 计算行和、列和,估计
  3. 构造检验统计量:
  4. 拒绝域:

五、假设检验的应用

1. 机器学习模型评估

(1)二分类器比较:McNemar 检验

 

  • 适用:两个分类器在同一测试集上的配对预测结果(正确 / 错误)。
  • 假设:æ­£ç¡é”™èé”™èæ­£ç¡(无显著差异)。
  • 检验统计量(连续性校正):
  • 结论:时拒绝,认为性能差异显著。

(2)模型性能比较:配对 t 检验

 

  • 适用:k 折交叉验证中两个模型的性能(如准确率)比较。
  • 假设:(差值均值为 0,无显著差异)。
  • 步骤:
  1. 计算每折性能差值
  2. 构造统计量:
  3. 拒绝域:

2. 实际案例

 

  • 产品质检:检验次品率、重量 / 寿命是否符合标准(如例 0.1、例 0.5);
  • 科学实验:验证新方法 / 新材料的效果(如例 0.7 镍合金耐磨性检验);
  • 数据分布验证:检验数据是否服从正态分布、泊松分布(如例 0.12、例 0.13);
  • 相关性分析:检验两个分类变量的关联(如例 0.14 营养与智商的关系)。

六、假设检验与置信区间的关系

 

维度假设检验置信区间
目的判断假设是否成立估计未知参数的取值范围
输出-value、拒绝 / 接受结论区间
核心关系等价性: 拒绝(水平 
机器学习意义回答 “性能差异是否显著”回答 “性能提升的范围是什么”

(注:文档部分内容可能由 AI 生成)

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇