第十一章参数估计——区间估计

本文最后更新于120 天前，其中的信息可能已经过时，如有错误请发送邮件至 2641805259@qq.com

一、核心概念

1. 区间估计定义

点估计的局限性：用样本统计量直接作为总体参数估计值，存在以偏概全问题。
区间估计核心：推断总体参数落在某一区间范围内，区间对应预估准确度（置信度）。

置信区间与置信度：

定义 0.1 设 $X_{1}, X_{2}, ..., X_{n}$ 是来自总体 $X$ 的样本，总体分布含未知参数 $\theta$ ，若统计量 $\hat{\theta}_{1}=\hat{\theta}_{1}(X_{1},...,X_{n})$ 和 $\hat{\theta}_{2}=\hat{\theta}_{2}(X_{1},...,X_{n})$ ，使得

Pr\left[\hat{\theta}_{1}<\theta<\hat{\theta}_{2}\right] \geq 1-\alpha

成立，则称 $1-\alpha$ 为置信度， $[\hat{\theta}_{1}, \hat{\theta}_{2}]$ 为 $\theta$ 的置信度为 $1-\alpha$ 的置信区间。

Remarks：

置信区间长度 $\hat{\theta}_{2}-\hat{\theta}_{1}$ 反映估计精度，长度越小，精度越高；

置信度 $\alpha$ 反映估计可靠度， $\alpha$ 越小，可靠度越高；
给定 $\alpha$ 时，置信区间不唯一，通常选择长度最小的区间。

2. 枢轴变量法（构造置信区间核心方法）

构造枢轴变量 $W=W(X_{1},...,X_{n};\theta)$ ，其分布含待估参数 $\theta$ 但不依赖其他参数，且分布已知；
给定置信度 $1-\alpha$ ，根据 $W$ 的分布确定临界值 $a$ 和 $b$ ，使得 $Pr[a<W<b]=1-\alpha$ ；
由 $a<W<b$ ，解出 $\hat{\theta}_{1}<\theta<\hat{\theta}_{2}$ ，即得置信区间 $[\hat{\theta}_{1}, \hat{\theta}_{2}]$ 。

二、单个正态总体参数的置信区间

1. $\sigma$ 已知时， $\mu$ 的置信区间

枢轴变量：
$W=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$

其中（ $\bar{X}$ 为样本均值）；

临界值：由正态分布对称性， $a=-\mu_{\alpha / 2}$ ， $b=\mu_{\alpha / 2}$ ，其中 $Pr[W \geq \mu_{1-\alpha / 2}]=1-\alpha / 2$ ；
因此
$Pr[-\mu_{\alpha / 2} < W < \mu_{\alpha / 2}] = Pr\left[ \bar{X} - \frac{\sigma}{\sqrt{n}} \mu_{\alpha / 2} < \mu < \bar{X} + \frac{\sigma}{\sqrt{n}} \mu_{\alpha / 2} \right] = 1 - \alpha$
置信区间： $[\bar{X} - \frac{\sigma}{\sqrt{n}} \mu_{\alpha / 2} , \bar{X} + \frac{\sigma}{\sqrt{n}} \mu_{\alpha / 2}]$

2. $\sigma$ 未知时， $\mu$ 的置信区间

由于 $\sigma^2$ 未知，因此用样本方差 $S^{2}=\frac{1}{n - 1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ 估计，枢轴变量选为
$W = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$
临界值： $a=-t_{\alpha /2}(n-1)$ ， $b=t_{\alpha /2}(n-1)$ ；
置信区间： $\overline{X} \pm \frac{S}{\sqrt{n}}t_{\alpha /2}(n-1)$ ；

Q：在 $\sigma$ 已知的时候，判断 $\mu$ 的置信区间是通过 $\frac{\bar{x} - \mu }{(\sigma / \sqrt{n})}$ 是正态分布去预估的。但是为什么 $\sigma$ 未知的时候，用 $S$ 去预估 $\sigma$ 后， $\frac{\bar{x} - \mu}{(S / \sqrt{n})}$ 是 $t$ 分布去预估的？

A：在 $\sigma$ 已知的时候，它是一个常量，因此运算后是一个正态分布。而 $\sigma$ 未知时，虽然用 $S$ 去预估，但是 $S$ 仍然是一个 $n - 1$ 自由度的随机变量，并且 $S^2 \sim \chi^2$ ，因此需要用到 $t$ 分布。

3. $\sigma^{2}$ 的置信区间（ $\mu$ 未知，实际常用场景）

由于 $\sigma^2$ 未知，因此可用 $S^2 = \frac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X})^2$ 来估计，枢轴变量选为：
$W=\frac{(n-1)S^{2}}{\sigma ^{2}}\sim \chi ^{2}(n-1)$

临界值：因 $\chi^2$ 分布不对称，取 $P[W\le a]=P[W\ge b]=\frac{\alpha}{2}$ ，得 $a=\chi_{1-\alpha /2}^{2}(n-1)$ ， $b=\chi_{\alpha /2}^{2}(n-1)$ ；
置信区间： $\left[\frac{(n-1) S^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)}, \frac{(n-1) S^{2}}{\chi_{\alpha / 2}^{2}(n-1)}\right]$ ；

三、两个正态总体参数的置信区间

设 $X_{1},...,X_{n}$ 来自 $N(\mu_{1}, \sigma_{1}^{2})$ ， $Y_{1},...,Y_{m}$ 来自 $N(\mu_{2}, \sigma_{2}^{2})$ ，样本独立，定义

\bar{x}=\frac{1}{n}\sum_{i=1}^{n}X_{i}, \quad \bar{y}=\frac{1}{m}\sum_{i=1}^{m}Y_{i}, \quad S_{1}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}, \quad S_{2}^{2}=\frac{1}{m-1}\sum_{i=1}^{m}(Y_{i}-\overline{Y})^{2}

1. 均值之差 $\mu_{1}-\mu_{2}$ 的置信区间

（1） $\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 已知

有
$\bar{x} - \bar{y} \sim \mathcal{N}\left(\mu_1 - \mu_2, \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right)$

取枢轴变量为：
$W=\frac{\overline{X}-\overline{Y}-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma_{1}^{2}}{n}+\frac{\sigma_{2}^{2}}{m}}}\sim N(0,1)$
置信区间： $\overline{X}-\overline{Y}\pm \mu_{\frac{\alpha}{2}} \sqrt{\frac{\sigma_{1}^{2}}{n}+\frac{\sigma_{2}^{2}}{m}}$ ；

（2） $\sigma_{1}^{2}=\sigma_{2}^{2}=\sigma^{2}$ 未知

有
$\bar{x} - \bar{y} \sim \mathcal{N}\left(\mu_1 - \mu_2, \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right), \quad \frac{(n - 1)S^2_1 + (m - 1)S^2_2}{\sigma^2} \sim \chi^2(m + n - 2)$
故可以构造如下服用 $t$ 分布的枢轴变量
$W=\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{S_{W} \sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(n+m-2),$
其中 $S_w^2 = \frac{(n - 1)S^2_1 + (m - 1)S^2_2}{n + m - 2}$ .

置信区间： $\overline{X}-\overline{Y}\pm t_{\alpha / 2}(n+m-2)\cdot S_{W} \sqrt{\frac{1}{n}+\frac{1}{m}}$ ；

2. 方差之比 $\sigma_{1}^{2}/\sigma_{2}^{2}$ 的置信区间

由于 $\frac{(n - 1)S^2_1}{\sigma_1^2} \sim \chi^2(n - 1), \frac{(m - 1)S^2_2}{\sigma_2^2} \sim \chi^2(m - 1)$ ，故可构造服从 $F$ 分布的枢轴变量
$W=\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}}\sim F(n-1,m-1),$
根据 $F$ 分布的不对称性，采用概率对称的区间 $P[W\le a]=P[W\ge b]=\alpha /2$ ，得 $a=F_{1-\alpha /2}(n-1,m-1)$ ， $b=F_{\alpha /2}(n-1,m-1)$ ；

置信区间： $\left[\frac{S_{1}^{2}/S_{2}^{2}}{F_{\alpha /2}(n-1,m-1)}, \frac{S_{1}^{2}/S_{2}^{2}}{F_{1-\alpha /2}(n-1,m-1)}\right]$ ；

四、非正态分布的区间估计

若总体 $X$ 的分布未知或非正态分布，可以利用集中不等式和中心极限定理给出总体期望 $\mu = \mathbb{E}[X]$ 的区间估计。

1. 基于集中不等式（总体 $X\in[a,b]$ ）

若 $X \in [a, b]$ ，设 $\bar{X} = \sum_{i = 1}^n \frac{X_i}{n}$ ，根据集中不等式有

Pr\left[ |\mu -\overline{X}|\geq \epsilon \right] \leq 2exp (-2n\epsilon ^{2}/(b-a)^{2})

令

\alpha =2exp (-2n\epsilon ^{2}/(b-a)^{2})

求解

\epsilon =\sqrt{(b-a)^{2}ln(2/\alpha)/n},

于是有置信区间： $\overline{X}\pm \sqrt{(b-a)^{2}ln(2/\alpha)/n}$

2. 基于中心极限定理（总体期望 $\mu$ ，方差 $\sigma^{2}$ ）

利用中心极限定理求枢轴量的近似分布，设总体 $X$ 的期望 $\mathbb{E}[x] = \mu$ ，方差 $\mathbb{VAR}(X) = \sigma^2$ ，有

W=\frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \stackrel{d}{\to} N(0,1)

当 $\sigma^{2}$ 已知时，有置信区间：
$\overline{X}\pm \mu_{\alpha / 2}\cdot \frac{\sigma}{\sqrt{n}}$
当 $\sigma^{2}$ 未知时，用样本方差 $S^{2}$ 替代 $\sigma^{2}$ ，有置信区间：
$\overline{X}\pm \mu_{\alpha / 2}\cdot \frac{S}{\sqrt{n}}$

五、单侧置信区间

定义 0.2 给定 $\alpha \in(0,1)$ ，若统计量 $\hat{\theta}_{1}=\hat{\theta}_{1}(X_{1},...,X_{n})$ 满足

Pr[\theta>\hat{\theta}_{1}]\geq 1-\alpha

则 $(\hat{\theta}_{1},+\infty)$ 为 $\theta$ 的置信度为 $1-\alpha$ 的单侧置信区间， $\hat{\theta}_{1}$ 为单侧置信下限；

2. 正态总体单侧置信区间

若 $X_1, X_2, \dots ,X_n$ 是来自 $\mathcal{N}(\mu, \sigma^2)$ 的样本，若 $\sigma^2$ 已知，则构建枢轴量为

W = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathbb{N}(0, 1),

若 $\sigma^2$ 未知，构建枢轴量为

W=\frac{\overline{X}-\mu}{S / \sqrt{n}} \sim t(n-1)

六、区间估计与机器学习

1. 核心价值

为机器学习模型的参数或预测结果提供不确定性量化，提升决策可靠性，应用场景包括风险控制（如房价预测区间）、医学诊断（如病人指标预测区间）、置信学习等。

2. 典型模型的区间估计

（1）线性回归

模型： $y=\beta_{0}+\beta_{1}x+\varepsilon$ ， $\varepsilon \sim N(0,\sigma^{2})$ ；
预测值： $\hat{y}^{*}=\hat{\beta}_{0}+\hat{\beta}_{1}x^{*}$ ；
预测标准误： $SE(\hat{y}^{*})=\sqrt{\hat{\sigma}^{2}\left(1+\frac{1}{n}+\frac{(x^{*}-\overline{x})^{2}}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}}\right)}$ （ $\hat{\sigma}^{2}$ 为残差均方）；
预测区间： $\hat{y}^{*} \pm t_{n-2,1-\alpha /2}\cdot SE(\hat{y}^{*})$ ；
均值响应置信区间（不含噪声）： $\hat{y}^{*} \pm t_{n-2,1-\alpha /2}\cdot \sqrt{\hat{\sigma}^{2}\left(\frac{1}{n}+\frac{(x^{*}-\overline{x})^{2}}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}}\right)}$ 。

（2）逻辑回归

模型： $P(y=1|x;\beta)=\sigma(\beta_{0}+\beta_{1}x)$ ， $\sigma(z)=\frac{1}{1+e^{-z}}$ ；
参数置信区间： $CI_{1-\alpha}(\beta_{j})=\hat{\beta}_{j}\pm z_{1-\alpha /2}\cdot \sqrt{\hat{\sum}_{jj}}$ （ $\hat{\sum}$ 为参数估计协方差矩阵， $z_{1-\alpha /2}$ 为标准正态临界值）；
预测概率区间：通过 delta 方法得标准误 $SE(\hat{p}^{*})\approx \sqrt{\nabla_{\beta}\sigma(\hat{\beta}_{0}+\hat{\beta}_{1}x^{*})^{\top}\hat{\sum}\nabla_{\beta}\sigma(\hat{\beta}_{0}+\hat{\beta}_{1}x^{*})}$ ，区间为 $\hat{p}^{*} \pm z_{1-\alpha /2}\cdot SE(\hat{p}^{*})$ 。

（3）神经网络

模型假设：单隐藏层回归，输出 $y_{i} \sim N(\hat{y}_{i}, \sigma^{2})$ ；
预测不确定性估计：通过蒙特卡洛 dropout（MC dropout）或贝叶斯近似获得标准误 $SE(\hat{y}^{*})$ ；
MC dropout 实现：对新输入 $x^{*}$ 进行 $T$ 次前向传播，得预测样本 $\hat{y}_{1},...,\hat{y}_{T}$ ，则 $SE(\hat{y}^{*}) \approx \sqrt{\frac{1}{T}\sum_{t=1}^{T}(\hat{y}_{t}-\overline{\hat{y}})^{2}}$ （ $\overline{\hat{y}}=\frac{1}{T}\sum_{t=1}^{T}\hat{y}_{t}$ ）；
预测区间： $\hat{y}^{*} \pm z_{1-\alpha /2}\cdot SE(\hat{y}^{*})$ （或基于 $t$ 分布）。

3. 小结

模型	区间构造方法
线性回归	利用残差和 $t$ 分布直接构造预测区间
逻辑回归	基于参数协方差矩阵和 delta 方法近似获得概率预测区间
神经网络	通过蒙特卡洛 dropout 或贝叶斯神经网络获得预测分布，进而计算预测区间

一、核心概念

1. 区间估计定义

置信区间与置信度：

2. 枢轴变量法（构造置信区间核心方法）

二、单个正态总体参数的置信区间

1. $\sigma$ 已知时， $\mu$ 的置信区间

2. $\sigma$ 未知时， $\mu$ 的置信区间

3. $\sigma^{2}$ 的置信区间（ $\mu$ 未知，实际常用场景）

三、两个正态总体参数的置信区间

1. 均值之差 $\mu_{1}-\mu_{2}$ 的置信区间

（1） $\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 已知

（2） $\sigma_{1}^{2}=\sigma_{2}^{2}=\sigma^{2}$ 未知

2. 方差之比 $\sigma_{1}^{2}/\sigma_{2}^{2}$ 的置信区间

四、非正态分布的区间估计

1. 基于集中不等式（总体 $X\in[a,b]$ ）

2. 基于中心极限定理（总体期望 $\mu$ ，方差 $\sigma^{2}$ ）

五、单侧置信区间

2. 正态总体单侧置信区间

六、区间估计与机器学习

1. 核心价值

2. 典型模型的区间估计

（1）线性回归

（2）逻辑回归

（3）神经网络

3. 小结

评论

发送评论编辑评论

一、核心概念

1. 区间估计定义

置信区间与置信度：

2. 枢轴变量法（构造置信区间核心方法）

二、单个正态总体参数的置信区间

1. \sigma已知时，\mu的置信区间

2. \sigma未知时，\mu的置信区间

3. \sigma^{2}的置信区间（\mu未知，实际常用场景）

三、两个正态总体参数的置信区间

1. 均值之差\mu_{1}-\mu_{2}的置信区间

（1）\sigma_{1}^{2}和\sigma_{2}^{2}已知

（2）\sigma_{1}^{2}=\sigma_{2}^{2}=\sigma^{2}未知

2. 方差之比\sigma_{1}^{2}/\sigma_{2}^{2}的置信区间

四、非正态分布的区间估计

1. 基于集中不等式（总体X\in[a,b]）

2. 基于中心极限定理（总体期望\mu，方差\sigma^{2}）

五、单侧置信区间

2. 正态总体单侧置信区间

六、区间估计与机器学习

1. 核心价值

2. 典型模型的区间估计

（1）线性回归

（2）逻辑回归

（3）神经网络

3. 小结

评论

发送评论 编辑评论

推荐文章

1. $\sigma$ 已知时， $\mu$ 的置信区间

2. $\sigma$ 未知时， $\mu$ 的置信区间

3. $\sigma^{2}$ 的置信区间（ $\mu$ 未知，实际常用场景）

1. 均值之差 $\mu_{1}-\mu_{2}$ 的置信区间

（1） $\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 已知

（2） $\sigma_{1}^{2}=\sigma_{2}^{2}=\sigma^{2}$ 未知

2. 方差之比 $\sigma_{1}^{2}/\sigma_{2}^{2}$ 的置信区间

1. 基于集中不等式（总体 $X\in[a,b]$ ）

2. 基于中心极限定理（总体期望 $\mu$ ，方差 $\sigma^{2}$ ）

发送评论编辑评论