总体与样本分布

CyletixGPT-4

在区间推定中，存在总体和样本两种不同的分布情况。

总体分布是描述整个总体的概率分布。在很多情况下，我们假设总体服从正态分布。这是因为根据中心极限定理，当样本量足够大时，即使总体分布不是正态分布，样本均值的分布也会接近正态分布。

样本分布是从总体中抽取的样本的分布情况。当样本量较小时，我们通常无法确切知道总体标准差，因此我们使用样本标准差来估计总体标准差。在这种情况下，样本均值的分布遵循t分布，而不是正态分布。

当我们不知道总体标准差 $\sigma$ 时，用样本标准差 $s$ 来估计总体标准差。这种估计增加了不确定性，因此样本均值的分布不是标准正态分布，而是t分布。t分布考虑了这种额外的不确定性，具有比正态分布更宽的尾部。t分布的形状由自由度决定，自由度通常为 $n-1$ ，其中 $n$ 是样本量。

t分布：t分布是由样本标准差估计总体标准差引入的不确定性导致的。t分布的自由度为 $n-1$ ，其中 $n$ 是样本量。随着样本量的增加，t分布逐渐接近正态分布。

计算置信区间

总体均值的置信区间：
- 当总体标准差已知时，使用正态分布： $\bar{x} \pm z_{\alpha/2} \left(\frac{\sigma}{\sqrt{n}}\right)$ 其中 $\bar{x}$ 是样本均值， $\sigma$ 是总体标准差， $n$ 是样本量， $z_{\alpha/2}$ 是标准正态分布的临界值。
- 当总体标准差未知时，使用t分布： $\bar{x} \pm t_{\alpha/2, n-1} \left(\frac{s}{\sqrt{n}}\right)$ 其中 $\bar{x}$ 是样本均值， $s$ 是样本标准差， $n$ 是样本量， $t_{\alpha/2, n-1}$ 是t分布的临界值，自由度为 $n-1$ 。

假设我们有一个样本数据，其样本均值 $\bar{x} = 50$ ，样本标准差 $s = 10$ ，样本容量 $n = 16$ ，要计算95%的置信区间。

确定置信水平：95%的置信水平对应 $\alpha = 0.05$ ，所以查找t分布表得 $t_{\alpha/2, 15} = 2.131$ （自由度为15）。
计算置信区间： $\bar{x} \pm t_{\alpha/2, 15} \left(\frac{s}{\sqrt{n}}\right) = 50 \pm 2.131 \left(\frac{10}{\sqrt{16}}\right) = 50 \pm 2.131 \times 2.5 = 50 \pm 5.33$ 即95%的置信区间为 $(44.67, 55.33)$ 。

链接到当前文件 0

没有文件链接到当前文件