总体与样本分布
在区间推定中,存在总体和样本两种不同的分布情况。
- 总体通常服从正态分布(或假定服从正态分布)
- 样本统计量的分布,尤其是样本均值的分布,在总体标准差未知且样本量较小时,服从t分布。
总体分布是描述整个总体的概率分布。在很多情况下,我们假设总体服从正态分布。这是因为根据中心极限定理,当样本量足够大时,即使总体分布不是正态分布,样本均值的分布也会接近正态分布。
样本分布是从总体中抽取的样本的分布情况。当样本量较小时,我们通常无法确切知道总体标准差,因此我们使用样本标准差来估计总体标准差。在这种情况下,样本均值的分布遵循t分布,而不是正态分布。
当我们不知道总体标准差 σ 时,用样本标准差 s 来估计总体标准差。这种估计增加了不确定性,因此样本均值的分布不是标准正态分布,而是t分布。t分布考虑了这种额外的不确定性,具有比正态分布更宽的尾部。t分布的形状由自由度决定,自由度通常为 n−1,其中 n 是样本量。
t分布:t分布是由样本标准差估计总体标准差引入的不确定性导致的。t分布的自由度为 n−1,其中 n 是样本量。随着样本量的增加,t分布逐渐接近正态分布。
- 总体均值的置信区间:
- 当总体标准差已知时,使用正态分布:
xˉ±zα/2(nσ)
其中 xˉ 是样本均值,σ 是总体标准差,n 是样本量,zα/2 是标准正态分布的临界值。 - 当总体标准差未知时,使用t分布:
xˉ±tα/2,n−1(ns)
其中 xˉ 是样本均值,s 是样本标准差,n 是样本量,tα/2,n−1 是t分布的临界值,自由度为 n−1。
假设我们有一个样本数据,其样本均值 xˉ=50,样本标准差 s=10,样本容量 n=16,要计算95%的置信区间。
- 确定置信水平:95%的置信水平对应 α=0.05,所以查找t分布表得 tα/2,15=2.131(自由度为15)。
- 计算置信区间:
xˉ±tα/2,15(ns)=50±2.131(1610)=50±2.131×2.5=50±5.33
即95%的置信区间为 (44.67,55.33)。