简介
χ2 分布是一种常用的连续概率分布,广泛应用于统计推断中,尤其是在方差分析、假设检验和置信区间估计中。χ2 分布由 k 个独立标准正态分布的平方和构成,其中 k 是自由度。
定义
如果 N1,N2,…,Nk 是 k 个独立的标准正态随机变量,即 Ni∼N(0,1),则这些变量平方和的分布称为 χ2 分布,具有 k 个自由度:
X=i=1∑kNi2∼χ2(k)
其中,X 表示具有 k 个自由度的 χ2 分布随机变量。
性质
- 自由度 (Degrees of Freedom):
- 自由度 k 是 χ2 分布的参数,决定了其形状。自由度越大,分布越接近正态分布。
- 期望值 (Mean) 和 方差 (Variance):
- 期望值:E(X)=k
- 方差:Var(X)=2k
- 形状:
- χ2 分布是右偏的,尤其是当自由度较小时。然而,随着自由度的增加,χ2 分布逐渐接近正态分布。
- 非负性:
- χ2 分布的值非负,因为它是若干正态分布变量的平方和。
应用
- 方差分析 (ANOVA):
- χ2 分布在方差分析中用于检验组间方差是否显著不同。
- 假设检验:
- χ2 检验用于独立性检验和适合度检验。例如,卡方独立性检验用于检验两个分类变量是否独立。
- 置信区间:
- χ2 分布用于构建总体方差和标准差的置信区间。
示例
卡方检验 (Chi-Squared Test)
卡方检验是基于 χ2 分布的一种常用假设检验方法,常用于独立性检验和适合度检验。
独立性检验
用于检验两个分类变量是否独立。假设我们有一个 2×2 的列联表:
| 事件A发生 | 事件A不发生 | 合计 |
---|
事件B发生 | O11 | O12 | R1 |
事件B不发生 | O21 | O22 | R2 |
合计 | C1 | C2 | N |
我们计算期望频数 Eij: | | | |
Eij=NRi⋅Cj
然后计算 χ2 统计量:
χ2=i=1∑2j=1∑2Eij(Oij−Eij)2