一、核心基本概念
1. 总体与样本
- 总体:研究对象的全体,用随机变量 表示(分布未知)。
- 样本:从总体中随机抽取的个体 ,样本容量为 。
- 样本值:观察样本得到的确定数值 。
- 样本的二重性:一次观察中为确定数值,不同抽样下为随机变量。
简单随机样本:
定义 0.1 如果样本 满足
- 代表性:( 与 同分布)
- 独立性: 之间独立分布
则成为总体的简单随机样本,简称样本。
样本的分布:
定理 0.2 设总体 的联合分布函数为 , 为取自该总体的容量为 的样本,则样本的联合分布函数为:
若总体 的概率密度为 ,则样本 的联合概率密度为:
若总体 的分布列为 ,则样本 的联合分布列为:
根据简单随机样本的独立性,结论显然。
2. 统计量
- 定义:设 为样本,若 是连续且不含任意参数的函数,则 为统计量。
- 性质:统计量是随机变量,其观察值为 。
二、常用统计量
1. 样本均值与样本方差
- 样本均值:
- 样本方差(含偏):,样本标准差
- 无偏方差(常用):
核心性质
设总体 ,,则有:
样本方差与总体方差之间存在偏差,即
无偏方差与总体方差相等
证明:
2. 样本矩
- 样本 阶原点矩:(一阶原点矩即样本均值)
- 样本 阶中心矩:(二阶中心矩即样本方差 )
3. 次序统计量
- 定义:将样本观测值排序后得到的第 个观测值 。
- 关键形式:最小次序统计量 ,最大次序统计量 ,样本极差 。
单个次序统计量的分布
定理 0.3 设总体的密度函数为 ,分布函数为 ,则第 个次序统计量的分布函数和密度函数分别为
证明
Remarks:
次序统计量表示中有个变量小于等于
理解为在附近的小区间内的事件
描述的是假设你抽出个样本,其中排序后的第个分布在不同区间的概率密度。
令和,分别得到最小次序统计量和最大次序统计量的分布函数和密度函数
三、常用统计分布
1. Beta 分布
定义 0.7 (Beta 函数)对任意给定的和,定义Beta 函数为
简记为,被称为第一类欧拉积分函数。
定义 0.8 给定的和,若随机变量的概率密度函数为
称服从参数为和的 Beta分布,记为 。
定理 0.2 若随机变量,则有
证明
2. Dirichlet 分布
定义 0.9 给定,若多元随机向量的概率密度函数为
称服从参数为的 Dirichlet 分布,记为.
Dirichlet 分布是 Beta分布的一种高维推广。当时,Dirichlet 分布退化为beta 分布。
证明
定理 0.3 若随机变量,设 和则有
证明
3. Gamma 分布
定义 0.10 ( 函数)对任意给定的,定义函数为
被称为第二类欧拉积分函数。
定义 0.11 若随机变量 的密度函数为
其中,称服从参数为和的分布,记为.
证明
定理 0.4 若随机变量,则有
证明
定理 0.5 (分布的可加性) 若随机变量 和,且和相互独立,则有.
另外,对比指数分布和伽马分布的密度函数形式,易知
4. 三大抽样分布
(1) 分布
定义 0.12 若是来自总体的一个样本,称为服从自由度为的分布,记为.
随机变量的概率密度函数为:
证明
性质
若随机变量,则和
若随机变量和相互独立,则
推广命题:若随机变量,则
(2)t 分布
定义 0.13 随机变量和相互独立,则随机变量
服从自由度为的分布,记.
随机变量的概率密度为 (具有对称性)
当 时,随机变量的概率密度为
因此当足够大时,可被近似为的密度函数。
性质
- 当 时, ;
- 当 时, .
(3)F 分布
定义 0.14 随机变量和相互独立,则随机变量
服从自由度为的分布,记.
随机变量的概率密度为
若随机变量,则.
四、关键定理与性质
1. 无偏方差修正原理
- 样本方差 的期望 ,存在系统性低估。
- 修正逻辑:偏差满足 ,有效自由度为 ,故除以 得到无偏方差 。
2. 分布可加性汇总
- 正态分布:独立的 与 之和 / 差服从 。
- 二项分布:独立的 与 之和服从 。
- 泊松分布:独立的 与 之和服从 。
- Gamma 分布:独立且同尺度参数的 与 之和服从 。
- 分布:独立的 与 之和服从 。
3. 重要特例
- 标准正态变量平方:若 ,则 (即 )。
- 均匀分布次序统计量:总体 的第 个次序统计量服从 。