总体与样本分布
大约 2 分钟
总体与样本分布
在区间推定中,存在总体和样本两种不同的分布情况。
- 总体通常服从正态分布(或假定服从正态分布)
- 样本统计量的分布,尤其是样本均值的分布,在总体标准差未知且样本量较小时,服从t分布。
总体分布
总体分布是描述整个总体的概率分布。在很多情况下,我们假设总体服从正态分布。这是因为根据中心极限定理,当样本量足够大时,即使总体分布不是正态分布,样本均值的分布也会接近正态分布。
样本分布
样本分布是从总体中抽取的样本的分布情况。当样本量较小时,我们通常无法确切知道总体标准差,因此我们使用样本标准差来估计总体标准差。在这种情况下,样本均值的分布遵循t分布,而不是正态分布。
为什么样本服从t分布?
当我们不知道总体标准差 时,用样本标准差 来估计总体标准差。这种估计增加了不确定性,因此样本均值的分布不是标准正态分布,而是t分布。t分布考虑了这种额外的不确定性,具有比正态分布更宽的尾部。t分布的形状由自由度决定,自由度通常为 ,其中 是样本量。
t分布:t分布是由样本标准差估计总体标准差引入的不确定性导致的。t分布的自由度为 ,其中 是样本量。随着样本量的增加,t分布逐渐接近正态分布。
计算置信区间
- 总体均值的置信区间:
- 当总体标准差已知时,使用正态分布:
其中 是样本均值, 是总体标准差, 是样本量, 是标准正态分布的临界值。
- 当总体标准差未知时,使用t分布:
其中 是样本均值, 是样本标准差, 是样本量, 是t分布的临界值,自由度为 。
- 当总体标准差已知时,使用正态分布:
示例
假设我们有一个样本数据,其样本均值 ,样本标准差 ,样本容量 ,要计算95%的置信区间。
- 确定置信水平:95%的置信水平对应 ,所以查找t分布表得 (自由度为15)。
- 计算置信区间:
即95%的置信区间为 。