第九章统计的基本概念 – 李云浩的博客

本文最后更新于120 天前，其中的信息可能已经过时，如有错误请发送邮件至 2641805259@qq.com

一、核心基本概念

1. 总体与样本

总体：研究对象的全体，用随机变量 $X$ 表示（分布未知）。
样本：从总体中随机抽取的个体 $X_1, X_2, ..., X_n$ ，样本容量为 $n$ 。
样本值：观察样本得到的确定数值 $x_1, x_2, ..., x_n$ 。
样本的二重性：一次观察中为确定数值，不同抽样下为随机变量。

简单随机样本：

定义 0.1 如果样本 $X_1, X_2, ..., X_n$ 满足

代表性：（ $X_i$ 与 $X$ 同分布）
独立性： $X_1, X_2, ..., X_n$ 之间独立分布

则成为总体 $X$ 的简单随机样本，简称样本。

样本的分布：

定理 0.2 设总体 $X$ 的联合分布函数为 $F(x)$ ， $x_1, x_2, \ldots, x_n$ 为取自该总体的容量为 $n$ 的样本，则样本的联合分布函数为：

F(x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} F(x_i)

若总体 $X$ 的概率密度为 $f(x)$ ，则样本 $x_1, x_2, \ldots, x_n$ 的联合概率密度为：

f(x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} f(x_i)

若总体 $X$ 的分布列为 $P(X = x_i)$ ，则样本 $x_1, x_2, \ldots, x_n$ 的联合分布列为：

P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = \prod_{i=1}^{n} P(X_i = x_i)

根据简单随机样本的独立性，结论显然。

2. 统计量

定义：设 $X_1, X_2, ..., X_n$ 为样本，若 $T = g(X_1, X_2, ..., X_n)$ 是连续且不含任意参数的函数，则 $T$ 为统计量。
性质：统计量是随机变量，其观察值为 $g(x_1, x_2, ..., x_n)$ 。

二、常用统计量

1. 样本均值与样本方差

样本均值： $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
样本方差（含偏）： $S_n^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2$ ，样本标准差 $S_n = \sqrt{S_n^2}$
无偏方差（常用）： $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 = \frac{1}{n-1} \left( \sum_{i=1}^{n} X_i^2 - n\overline{X}^2 \right)$

核心性质

设总体 $E[X] = \mu$ ， $VAR(X) = \sigma^2$ ，则有：

E[\overline{X}] = \mu, \quad VAR(\overline{X}) = \sigma^2/n, \quad \overline{X} \overset{d}{\to} \mathcal{N}(\mu, \sigma^2/n)

样本方差 $S_n^2$ 与总体方差 $\sigma^2$ 之间存在偏差，即

\mathbb{E}[S_n^2] = \frac{n - 1}{n} \sigma^2

无偏方差 $S^2$ 与总体方差 $\sigma^2$ 相等

\mathbb{E}[S^2] = \sigma^2

证明：
$\begin{aligned} \mathbb{E}[S_n^2] &= \mathbb{E}\left[\frac{1}{n} \sum_{i = 1}^n(X_i - \bar{X})^2\right]\\ &= \frac{1}{n} \mathbb{E}\left[\sum_{i = 1}^n (X_i^2 - 2 X_i \bar{X} + \bar{X}^2)\right]\\ &= \frac{1}{n} \mathbb{E}\left[\sum_{i = 1}^n X_i^2 - 2 \bar{X} \sum_{i = 1}^n X_i + \sum_{i = 1}^n \bar{X}^2\right]\\ &= \frac{1}{n} \mathbb{E}\left[\sum_{i = 1}^n X_i^2\right] - \frac{2}{n^2}\mathbb{E}\left[\bar{X}^2\right] \end{aligned}$

2. 样本矩

样本 $k$ 阶原点矩： $A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k$ （一阶原点矩即样本均值）
样本 $k$ 阶中心矩： $B_k = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^k$ （二阶中心矩即样本方差 $S_n^2$ ）

3. 次序统计量

定义：将样本观测值排序后得到的第 $i$ 个观测值 $X_{(i)}$ 。
关键形式：最小次序统计量 $X_{(1)} = \min\{X_1, X_2, ..., X_n\}$ ，最大次序统计量 $X_{(n)} = \max\{X_1, X_2, ..., X_n\}$ ，样本极差 $R_n = X_{(n)} - X_{(1)}$ 。

单个次序统计量的分布

定理 0.3 设总体 $X$ 的密度函数为 $f(x)$ ，分布函数为 $F(x)$ ，则第 $k$ 个次序统计量的分布函数和密度函数分别为

F_k(x) = \sum_{r=k}^{n} \binom{n}{r} [F(x)]^r [1-F(x)]^{n-r}, \\ f_k(x) = \frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1} [1-F(x)]^{n-k} f(x)

证明

Remarks：

次序统计量 $X_{(k)}$ 表示 $X_1, X_2, \dots, X_n$ 中有 $k$ 个变量小于等于 $X_{(k)}$
$f_k$ 理解为 $X_{(k)}$ 在 $x$ 附近的小区间 $(x, x + dx)$ 内的事件

$f_k$ 描述的是假设你抽出 $n$ 个样本，其中排序后的第 $k$ 个分布在不同区间的概率密度。
令 $k = 1$ 和 $k = n$ ，分别得到最小次序统计量和最大次序统计量的分布函数和密度函数

三、常用统计分布

1. Beta 分布

定义 0.7 （Beta 函数）对任意给定的 $\alpha_1 > 0$ 和 $\alpha_2 > 0$ ，定义Beta 函数为

B(\alpha_1, \alpha_2) = \int_{0}^{1} x^{\alpha_1-1}(1-x)^{\alpha_2-1} dx = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)},

简记为 $B(\alpha_1, \alpha_2)$ ，被称为第一类欧拉积分函数。

定义 0.8 给定的 $\alpha_1 > 0$ 和 $\alpha_2 > 0$ ，若随机变量 $X$ 的概率密度函数为

f(x) = \begin{cases} \frac{1}{B(\alpha_1, \alpha_2)} x^{\alpha_1-1}(1-x)^{\alpha_2-1}, & x \in (0,1) \\ 0, & 其他 \end{cases}

称 $X$ 服从参数为 $\alpha_1$ 和 $\alpha_2$ 的 Beta分布，记为 $X \sim B(\alpha_1, \alpha_2)$ 。

定理 0.2 若随机变量 $X \sim B(\alpha_1, \alpha_2)$ ，则有

E[X] = \frac{\alpha_1}{\alpha_1+\alpha_2}, \quad VAR(X) = \frac{\alpha_1\alpha_2}{(\alpha_1+\alpha_2)^2(\alpha_1+\alpha_2+1)}

证明

2. Dirichlet 分布

定义 0.9 给定 $\alpha_1, \dots ,\alpha_k \in (0, +\infty)$ ，若多元随机向量 $X = (X_1, \dots, X_k)$ 的概率密度函数为

f(x_1,...,x_k) = \begin{cases} \frac{x_1^{\alpha_1-1}...x_k^{\alpha_k-1}}{B(\alpha_1,...,\alpha_k)}, & \sum_{i=1}^k x_i=1 且 x_i>0 \\ 0, & 其他 \end{cases}

称 $X$ 服从参数为 $\alpha_1 , \dots, \alpha_k$ 的 Dirichlet 分布，记为 $X \sim Dir(\alpha_1, \dots , \alpha_k)$ .

Dirichlet 分布是 Beta分布的一种高维推广。当 $k = 2$ 时，Dirichlet 分布退化为beta 分布。

证明

定理 0.3 若随机变量 $X \sim Dir(\alpha_1, \alpha_2, \dots, \alpha_k)$ ，设 $\tilde{\alpha} = \sum_{i = 1}^k \alpha_k$ 和 $\tilde{\alpha_i} = \frac{\alpha_i}{\tilde{\alpha}}$ 则有

E[X_i] = \tilde{\alpha}_i, \quad COV(X_i, X_j) = \begin{cases} \frac{\tilde{\alpha}_i(1-\tilde{\alpha}_i)}{\tilde{\alpha}+1}, & i = j\\ -\frac{\tilde{\alpha}_i\tilde{\alpha}_j}{\tilde{\alpha}+1}, & i \neq j \end{cases}

证明

3. Gamma 分布

定义 0.10 （ $\Gamma$ 函数）对任意给定的 $\alpha > 0$ ，定义 $\Gamma$ 函数为

\Gamma(\alpha) = \int_{0}^{+\infty} x^{\alpha-1} e^{-x} dx,

被称为第二类欧拉积分函数。

定义 0.11 若随机变量 $X$ 的密度函数为

f(x) = \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x>0 \\ 0, & x \leq 0 \end{cases}

其中 $\alpha>0,\lambda>0$ ，称 $X$ 服从参数为 $\alpha$ 和 $\lambda$ 的 $\Gamma$ 分布，记为 $X \sim \Gamma(\alpha, \lambda)$ .

证明

定理 0.4 若随机变量 $X \sim \Gamma(\alpha, \lambda)$ ，则有

E[X] = \alpha/\lambda, \quad VAR(X) = \alpha/\lambda^2

证明

定理 0.5 ( $\Gamma$ 分布的可加性) 若随机变量 $X \sim \Gamma(\alpha_1, \lambda)$ 和 $Y \sim \Gamma(\alpha_2, \lambda)$ ，且 $X$ 和 $Y$ 相互独立，则有 $X + Y \sim \Gamma(\alpha_1 + \alpha_2, \lambda)$ .

另外，对比指数分布和伽马分布的密度函数形式，易知 $\Gamma(1, \lambda) = e(\lambda)$

4. 三大抽样分布

（1） $\chi^2$ 分布

定义 0.12 若 $X_1, X_2, \dots, X_n$ 是来自总体 $X \sim \mathcal{N}(0, 1)$ 的一个样本，称 $Y = \sum_{i=1}^n X_i^2$ 为服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $Y \sim \chi^2(n)$ .

随机变量 $Y$ 的概率密度函数为：

f_Y(y) = \begin{cases} \frac{(\frac{1}{2})^{\frac{n}{2}}}{\Gamma(n/2)} y^{\frac{n}{2}-1} e^{-\frac{y}{2}}, & y>0 \\ 0, & y \leq 0 \end{cases}

证明

性质

若随机变量 $X \sim \chi^2(n)$ ，则 $\mathbb{E}[X] = n$ 和 $\mathbb{VAR}(x) = 2n$
若随机变量 $X \sim \chi^2(m)$ 和 $Y\sim \chi^2(n)$ 相互独立，则 $X + Y \sim \chi^2(m + n)$
推广命题：若随机变量 $X \sim \mathcal{N}(0, 1)$ ，则
$\mathbb{E}[X^k] = \begin{cases} (k - 1)!!, & k \text{为偶数}\\ 0, & k \text{为奇数} \end{cases}$

（2）t 分布

定义 0.13 随机变量 $X \sim \mathcal{N}(0, 1)$ 和 $Y \sim \chi^2(n)$ 相互独立，则随机变量

T = \frac{X}{\sqrt{Y / n}}

服从自由度为 $n$ 的 $t$ 分布，记 $T \sim t(n)$ .

随机变量 $T \sim t(n)$ 的概率密度为（具有对称性）

f(x) = \frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}} \left(1+\frac{x^2}{n}\right)^{-\frac{n+1}{2}}, \quad x \in (-\infty, +\infty)

当 $n \to \infty$ 时，随机变量 $T \sim t(n)$ 的概率密度为

f(x) \rightarrow \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}.

因此当 $n$ 足够大时， $f(x)$ 可被近似为 $\mathcal{N}(0, 1)$ 的密度函数。

性质

当 $n>1$ 时， $\mathbb{}[T] = 0$ ；
当 $n>2$ 时， $\mathbb{VAR}(T) = \frac{n}{n-2}$ .

（3）F 分布

定义 0.14 随机变量 $X \sim \chi^2(m)$ 和 $Y \sim \chi^2(n)$ 相互独立，则随机变量

Z = \frac{X/m}{Y/n}

服从自由度为 $(m, n)$ 的 $F$ 分布，记 $Z \sim F(m, n)$ .

随机变量 $Z \sim F(m, n)$ 的概率密度为

f(z) = \begin{cases} \frac{\Gamma(\frac{m+n}{2})(\frac{m}{n})^{\frac{m}{2}} z^{\frac{m}{2}-1}}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})(1+\frac{mz}{n})^{\frac{m+n}{2}}}, & z>0 \\ 0, & z \leq 0 \end{cases}

若随机变量 $Z \sim F(m, n)$ ，则 $\frac{1}{Z} \sim F(n, m)$ .

四、关键定理与性质

1. 无偏方差修正原理

样本方差 $S_n^2$ 的期望 $E[S_n^2] = \frac{n-1}{n}\sigma^2$ ，存在系统性低估。
修正逻辑：偏差满足 $\sum_{i=1}^n (X_i - \overline{X}) = 0$ ，有效自由度为 $n-1$ ，故除以 $n-1$ 得到无偏方差 $S^2$ 。

2. 分布可加性汇总

正态分布：独立的 $N(\mu_1,\sigma_1^2)$ 与 $N(\mu_2,\sigma_2^2)$ 之和 / 差服从 $N(\mu_1\pm\mu_2, \sigma_1^2+\sigma_2^2)$ 。
二项分布：独立的 $B(n_1,p)$ 与 $B(n_2,p)$ 之和服从 $B(n_1+n_2,p)$ 。
泊松分布：独立的 $P(\lambda_1)$ 与 $P(\lambda_2)$ 之和服从 $P(\lambda_1+\lambda_2)$ 。
Gamma 分布：独立且同尺度参数的 $\Gamma(\alpha_1,\lambda)$ 与 $\Gamma(\alpha_2,\lambda)$ 之和服从 $\Gamma(\alpha_1+\alpha_2,\lambda)$ 。
$\chi^2$ 分布：独立的 $\chi^2(m)$ 与 $\chi^2(n)$ 之和服从 $\chi^2(m+n)$ 。

3. 重要特例

标准正态变量平方：若 $X \sim N(0,1)$ ，则 $X^2 \sim \Gamma(1/2, 1/2)$ （即 $\chi^2(1)$ ）。
均匀分布次序统计量：总体 $U(0,1)$ 的第 $k$ 个次序统计量服从 $B(k, n-k+1)$ 。