跳至主要內容

总体与样本分布

CyletixGPT-4大约 2 分钟

总体与样本分布

在区间推定中,存在总体和样本两种不同的分布情况。

  1. 总体通常服从正态分布(或假定服从正态分布)
  2. 样本统计量的分布,尤其是样本均值的分布,在总体标准差未知且样本量较小时,服从t分布。

总体分布

总体分布是描述整个总体的概率分布。在很多情况下,我们假设总体服从正态分布。这是因为根据中心极限定理,当样本量足够大时,即使总体分布不是正态分布,样本均值的分布也会接近正态分布。

样本分布

样本分布是从总体中抽取的样本的分布情况。当样本量较小时,我们通常无法确切知道总体标准差,因此我们使用样本标准差来估计总体标准差。在这种情况下,样本均值的分布遵循t分布,而不是正态分布。

为什么样本服从t分布?

当我们不知道总体标准差 σ\sigma 时,用样本标准差 ss 来估计总体标准差。这种估计增加了不确定性,因此样本均值的分布不是标准正态分布,而是t分布。t分布考虑了这种额外的不确定性,具有比正态分布更宽的尾部。t分布的形状由自由度决定,自由度通常为 n1n-1,其中 nn 是样本量。

t分布:t分布是由样本标准差估计总体标准差引入的不确定性导致的。t分布的自由度为 n1n-1,其中 nn 是样本量。随着样本量的增加,t分布逐渐接近正态分布。

计算置信区间

  • 总体均值的置信区间
    • 当总体标准差已知时,使用正态分布:

      xˉ±zα/2(σn) \bar{x} \pm z_{\alpha/2} \left(\frac{\sigma}{\sqrt{n}}\right)

      其中 xˉ\bar{x} 是样本均值,σ\sigma 是总体标准差,nn 是样本量,zα/2z_{\alpha/2} 是标准正态分布的临界值。
    • 当总体标准差未知时,使用t分布:

      xˉ±tα/2,n1(sn) \bar{x} \pm t_{\alpha/2, n-1} \left(\frac{s}{\sqrt{n}}\right)

      其中 xˉ\bar{x} 是样本均值,ss 是样本标准差,nn 是样本量,tα/2,n1t_{\alpha/2, n-1} 是t分布的临界值,自由度为 n1n-1

示例

假设我们有一个样本数据,其样本均值 xˉ=50\bar{x} = 50,样本标准差 s=10s = 10,样本容量 n=16n = 16,要计算95%的置信区间。

  1. 确定置信水平:95%的置信水平对应 α=0.05\alpha = 0.05,所以查找t分布表得 tα/2,15=2.131t_{\alpha/2, 15} = 2.131(自由度为15)。
  2. 计算置信区间:

    xˉ±tα/2,15(sn)=50±2.131(1016)=50±2.131×2.5=50±5.33 \bar{x} \pm t_{\alpha/2, 15} \left(\frac{s}{\sqrt{n}}\right) = 50 \pm 2.131 \left(\frac{10}{\sqrt{16}}\right) = 50 \pm 2.131 \times 2.5 = 50 \pm 5.33

    即95%的置信区间为 (44.67,55.33)(44.67, 55.33)