第十一章参数估计——点估计

本文最后更新于120 天前，其中的信息可能已经过时，如有错误请发送邮件至 2641805259@qq.com

已知总体分布形式，用样本统计量估计总体参数的问题，称为参数估计问题，是统计推断的核心问题之一。

参数估计可分为两种类型：

点估计：用样本统计量直接作为总体参数的估计值
区间估计：未知

一、点估计

1. 定义

设 $X_{1}, X_{2}, ..., X_{n}$ 是来自总体的样本，用于估计未知参数 $\theta$ 的统计量 $\hat{\theta}=\hat{\theta}(X_{1}, X_{2}, ..., X_{n})$ ，称为 $\theta$ 的估计量或称为 $\theta$ 的点估计。

Remark： 点估计本质就是用样本统计量直接作为总体参数的估计值

参数是总体的属性，而统计量是针对样本的计算

点估计流程：样本 → 样本统计量 $\hat{\theta}$ → 总体参数

（一）矩估计法

1. 核心原理：替换原理

用样本矩替换总体矩（矩包括原点矩和中心矩）
用样本矩的函数替换总体矩的函数

2. 矩的分类与计算公式

矩类型	总体矩（定义）	样本矩（计算公式）
k 阶原点矩	$a_{k}=\mathbb{E}[X^{k}]$ （期望形式）	$A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}$
k 阶中心矩	$b_{k}=\mathbb{E}[(X-\mathbb{E}(X))^{k}]$ （围绕期望的矩）	$B_{k}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}-\bar{X})^{k}$ （ $\bar{X}$ 为样本均值）

3. 适用场景

即使总体分布形式未知，仍可估计参数
常见应用：
- 样本均值 $\bar{X}$ → 总体均值 $\mathbb{E}(X)$
- 样本无偏方差 $S^{2}$ → 总体方差 $\text{VAR}(X)$ （无特殊说明时，样本方差默认无偏）
- 事件 A 的频率 → 事件 A 的概率

4. 计算步骤

确定总体分布中含有的 m 个未知参数 $\theta_{1}, \theta_{2}, ..., \theta_{m}$
计算总体的 k 阶矩 $a_{k}=a_{k}(\theta_{1}, ..., \theta_{m})=\mathbb{E}[X^{k}]$ （k=1,2,…,m）
计算样本的 k 阶矩 $A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}$
建立方程：令 $A_{k}=a_{k}$ ，形成 m 个关于未知参数的方程组
求解方程组，得到估计量 $\hat{\theta_{1}}, \hat{\theta_{2}}, ..., \hat{\theta_{m}}$

（二）最大似然估计法

1. 核心原理：极大似然原理

已获得样本时，推断 “使该样本出现概率最大的参数” 为总体参数的估计值。

2. 定义

设总体概率函数为 $p(X;\theta)$ ， $\theta\in\Theta$ ，其中 $\theta$ 是一个未知参数或几个未知参数组成的参数变量， $\Theta$ 是参数空间。 $X_1, X_2, \dots, X_n$ 是来自总体的样本，将样本的联合概率密度函数看成是 $\theta$ 的函数，用 $L(\theta, X_1, X_2, \dots, X_n)$ 表示，简记 $L(\theta)$ ，

L(\theta) = L(\theta, X_1, X_2, \dots, X_n) = p(X_1; \theta)p(X_2, \theta)\dots p(X_n;\theta),

$L(\theta )$ 称为样本的似然函数。若某个统计量 $\hat{\theta} = \hat{\theta}(X_1, X_2, \dots, X_n)$ 满足。

L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta),

则称 $\hat{\theta}$ 是 $\theta$ 的最大似然估计，简记为 $MLE$ .

3. 计算步骤（常规情况）

构造似然函数 $L(\theta)=\prod_{i=1}^{n}p(X_{i};\theta)$
取对数似然函数（简化求导）： $\ln L(\theta)=\sum_{i=1}^{n}\ln p(X_{i};\theta)$
对 $\theta$ 求一阶偏导，令导数为 0，建立方程组
求解方程组，得到 $\hat{\theta}$ （特殊情况需结合似然函数单调性分析）

4. 不可变性

定理 0.1 如果 $\hat{\theta}$ 是参数 $\theta$ 的最大似然估计，那么对于任意函数 $g(\cdot)$ ， $g(\hat{\theta})$ 也是 $g(\theta)$ 的最大似然估计。

五、估计量的评价标准

1. 无偏性

（1）定义

设 $\hat{\theta}$ 是 $\theta$ 的估计量，若对任意 $\theta\in\Theta$ ，有 $\mathbb{E}_{\theta}(\hat{\theta})=\theta$ ，则 $\hat{\theta}$ 为 $\theta$ 的无偏估计；否则为有偏估计。

（2）关键结论

原点距：样本 $k$ 阶原点距为总体 $k$ 阶原点距的无偏估计
中心距：
- $S_{0}^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 是 $\sigma^2$ 的有偏估计
- $S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 是 $\sigma^2$ 的无偏估计
无偏性不满足 “函数传递”：若 $\hat{\theta}$ 是 $\theta$ 的无偏估计， $g(\hat{\theta})$ 不一定是 $g(\theta)$ 的无偏估计。

2. 有效性（基于无偏性）

参数可能存在多个无偏估计，通过有效性对无偏估计进行进一步筛选

（1）定义

设 $\hat{\theta_{1}}$ 和 $\hat{\theta_{2}}$ 均为 $\theta$ 的无偏估计，若对任意 $\theta\in\Theta$ ，有

\text{VAR}(\hat{\theta_{1}})\leq\text{VAR}(\hat{\theta_{2}})

，且至少存在一个 $\theta$ 使不等式严格成立，则 $\hat{\theta_{1}}$ 比 $\hat{\theta_{2}}$ 有效。

（2）核心逻辑

无偏估计中，围绕参数真值的方差越小，估计量越优。

3. Rao-Crammer 不等式（方差下界）

（1）作用

给出无偏估计量方差的下界，判断估计量是否 “最优”。

（2）核心公式

设总体概率密度或分布函数为 $f(X;\theta)$ 或 $F(X;\theta)$ ，则无偏估计量 $\hat{\theta}$ 的方差下界为：

\mathbb{VAR}_{0}(\theta)=\frac{1}{n\mathbb{E}\left[\left(\frac{\partial\ln f(X;\theta)}{\partial\theta}\right)^{2}\right]} \quad \text{或} \quad \mathbb{VAR}_0(\theta) \frac{1}{n\mathbb{E}\left[\left(\frac{\partial\ln F(X;\theta)}{\partial\theta}\right)^{2}\right]}

对任意的无偏估计量 $\hat{\theta}$ 有

\mathbb{VAR}(\hat{\theta}) \geq \mathbb{VAR}_0(\theta)

（3）有效估计量

若 $\text{VAR}(\hat{\theta})=\text{VAR}_{0}(\theta)$ ，则 $\hat{\theta}$ 为达到方差下界的无偏估计量（简称有效估计量），是最优无偏估计。

4. 一致性（基本要求）

（1）定义

设 $\hat{\theta}$ 是 $\theta$ 的估计量，当 $n\to\infty$ 时，若 $\hat{\theta}\stackrel{P}{\to}\theta$ （依概率收敛），即对任意 $\epsilon>0$ ，

\lim_{n\to\infty}P(|\hat{\theta}-\theta|>\epsilon)=0

则称 $\hat{\theta}$ 为 $\theta$ 的一致估计量。

（2）关键结论

一致性是估计量的基本要求：样本量增大时，若估计量无法逼近参数真值，则不考虑。

（3）相关定理

充分条件： 设 $\hat{\theta}$ 是 $\theta$ 的一个估计量，若满足以下两个条件：

\lim_{n\to\infty}\mathbb{E}[\hat{\theta}_n]=\theta, \quad \lim_{n\to\infty}\text{VAR}[\hat{\theta}_n]=0

则 $\hat{\theta}$ 为 $\theta$ 的一致估计量。

函数不变形：设 $\hat{\theta}_{n1}, \hat{\theta}_{n2}, \dots, \hat{\theta}_{nk}$ 分别是 $\theta_1, \theta_2, \dots, \theta_k$ 的一致性估计， $G = g(\theta_1, \theta_2, \dots , \theta_k)$ 是 $\theta_1, \theta_2, \dots, \theta_k$ 的连续函数，则

\hat{G} = g(\hat{\theta}_{n1}, \hat{\theta}_{n2}, \dots ,\hat{\theta}_{nk})

是 $G$ 的一致性估计。

六、点估计与机器学习的关联

机器学习模型训练的本质是 “用数据估计模型参数”，即参数的点估计过程，核心方法多基于最大似然估计：

机器学习模型	点估计应用
线性回归	用最小二乘法估计参数（最大似然估计的特例），目标函数为最小化 $\sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1}x_{i})^{2}$
逻辑回归	用最大似然估计参数，通过梯度上升法（或最小化负对数似然）求解 $\hat{w},\hat{b}$
神经网络	通过梯度下降最小化损失（等价于某种似然下的点估计），如单隐藏层网络中，优化参数 $\Theta=\{W_{1},b_{1},W_{2},b_{2}\}$

（注：文档部分内容可能由 AI 生成）

一、点估计

1. 定义

（一）矩估计法

1. 核心原理：替换原理

2. 矩的分类与计算公式

3. 适用场景

4. 计算步骤

（二）最大似然估计法

1. 核心原理：极大似然原理

2. 定义

3. 计算步骤（常规情况）

4. 不可变性

五、估计量的评价标准

1. 无偏性

（1）定义

（2）关键结论

2. 有效性（基于无偏性）

（1）定义

（2）核心逻辑

3. Rao-Crammer 不等式（方差下界）

（1）作用

（2）核心公式

（3）有效估计量

4. 一致性（基本要求）

（1）定义

（2）关键结论

（3）相关定理

六、点估计与机器学习的关联

发送评论 编辑评论

推荐文章

发送评论编辑评论