已知总体分布形式,用样本统计量估计总体参数的问题,称为参数估计问题,是统计推断的核心问题之一。
参数估计可分为两种类型:
- 点估计:用样本统计量直接作为总体参数的估计值
- 区间估计:未知
一、点估计
1. 定义
设是来自总体的样本,用于估计未知参数的统计量,称为的估计量或称为的点估计。
Remark: 点估计本质就是用样本统计量直接作为总体参数的估计值
- 参数是总体的属性,而统计量是针对样本的计算
- 点估计流程:样本 → 样本统计量 → 总体参数
(一)矩估计法
1. 核心原理:替换原理
- 用样本矩替换总体矩(矩包括原点矩和中心矩)
- 用样本矩的函数替换总体矩的函数
2. 矩的分类与计算公式
| 矩类型 | 总体矩(定义) | 样本矩(计算公式) |
|---|---|---|
| k 阶原点矩 | (期望形式) | |
| k 阶中心矩 | (围绕期望的矩) | (为样本均值) |
3. 适用场景
即使总体分布形式未知,仍可估计参数
常见应用:
- 样本均值 → 总体均值
- 样本无偏方差 → 总体方差(无特殊说明时,样本方差默认无偏)
- 事件 A 的频率 → 事件 A 的概率
4. 计算步骤
- 确定总体分布中含有的 m 个未知参数
- 计算总体的 k 阶矩(k=1,2,…,m)
- 计算样本的 k 阶矩
- 建立方程:令,形成 m 个关于未知参数的方程组
- 求解方程组,得到估计量
(二)最大似然估计法
1. 核心原理:极大似然原理
已获得样本时,推断 “使该样本出现概率最大的参数” 为总体参数的估计值。
2. 定义
设总体概率函数为,,其中是一个未知参数或几个未知参数组成的参数变量,是参数空间。是来自总体的样本,将样本的联合概率密度函数看成是的函数,用表示,简记,
称为样本的似然函数。若某个统计量满足。
则称是的最大似然估计,简记为.
3. 计算步骤(常规情况)
- 构造似然函数
- 取对数似然函数(简化求导):
- 对求一阶偏导,令导数为 0,建立方程组
- 求解方程组,得到(特殊情况需结合似然函数单调性分析)
4. 不可变性
定理 0.1 如果是参数的最大似然估计,那么对于任意函数,也是的最大似然估计。
五、估计量的评价标准
1. 无偏性
(1)定义
设是的估计量,若对任意,有,则为的无偏估计;否则为有偏估计。
(2)关键结论
原点距:样本阶原点距为总体阶原点距的无偏估计
中心距:
- 是的有偏估计
- 是的无偏估计
无偏性不满足 “函数传递”:若是的无偏估计,不一定是的无偏估计。
2. 有效性(基于无偏性)
参数可能存在多个无偏估计,通过有效性对无偏估计进行进一步筛选
(1)定义
设和均为的无偏估计,若对任意,有
,且至少存在一个使不等式严格成立,则比 有效。
(2)核心逻辑
无偏估计中,围绕参数真值的方差越小,估计量越优。
3. Rao-Crammer 不等式(方差下界)
(1)作用
给出无偏估计量方差的下界,判断估计量是否 “最优”。
(2)核心公式
设总体概率密度或分布函数为 或 ,则无偏估计量的方差下界为:
对任意的无偏估计量有
(3)有效估计量
若,则为达到方差下界的无偏估计量(简称有效估计量),是最优无偏估计。
4. 一致性(基本要求)
(1)定义
设是的估计量,当时,若(依概率收敛),即对任意,
则称为的一致估计量。
(2)关键结论
- 一致性是估计量的基本要求:样本量增大时,若估计量无法逼近参数真值,则不考虑。
(3)相关定理
充分条件: 设是的一个估计量,若满足以下两个条件:
则为的一致估计量。
函数不变形:设分别是的一致性估计,是的连续函数,则
是的一致性估计。
六、点估计与机器学习的关联
机器学习模型训练的本质是 “用数据估计模型参数”,即参数的点估计过程,核心方法多基于最大似然估计:
| 机器学习模型 | 点估计应用 |
|---|---|
| 线性回归 | 用最小二乘法估计参数(最大似然估计的特例),目标函数为最小化 |
| 逻辑回归 | 用最大似然估计参数,通过梯度上升法(或最小化负对数似然)求解 |
| 神经网络 | 通过梯度下降最小化损失(等价于某种似然下的点估计),如单隐藏层网络中,优化参数 |
(注:文档部分内容可能由 AI 生成)