定义
贝叶斯定理描述了如何利用现有证据更新某一事件的概率。
对于一个构成样本空间划分的事件集合 {A1,A2,…,An} 和任意事件 B,贝叶斯定理的表达式为:
P(Ai∣B)=P(B)P(B∣Ai)P(Ai)
其中:
- P(Ai∣B) (后验概率 Posterior):在观测到证据 B 后,假设 Ai 成立的概率。这是通过计算想要得到的结果。
- P(B∣Ai) (尤度 Likelihood):在假设 Ai 成立的前提下,观测到证据 B 的概率。它描述了假设与证据的匹配程度。
- P(Ai) (先验概率 Prior):在没有任何证据支持的情况下,认为假设 Ai 成立的初始概率。
- P(B) (边缘似然 Marginal Likelihood / Evidence):在所有可能性下,观测到证据 B 的总概率。它是一个归一化常数,确保所有后验概率之和为1。
图形表示
1. 全集划分
A为红色区域, B为蓝色区域, 全集为Ω
2. 分解图形
3. 图示关系
推导
贝叶斯定理的推导基于条件概率的定义。对于任意事件 Ai 和 B:
P(Ai∣B)=P(B)P(Ai∩B)
以及
P(B∣Ai)=P(Ai)P(B∩Ai)⟹P(B∩Ai)=P(B∣Ai)P(Ai)
将第二个式子代入第一个式子的分子,即可得到贝叶斯定理的基本形式:
P(Ai∣B)=P(B)P(B∣Ai)P(Ai)
通常,分母 P(B) 的值是未知的,但可以利用全概率公式将其展开。如果 {A1,A2,…,An} 是样本空间的一个划分,则:
P(B)=j=1∑nP(B∣Aj)P(Aj)
代入后得到贝叶斯定理的完全形式:
P(Ai∣B)=∑j=1nP(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
贝叶斯定理不要求各事件相互独立。如果事件A和B相互独立,则P(A∣B)=P(A),定理将失去其“更新”意义。
示例
1. 医学诊断
这是一个经典例子,能清晰地展示贝叶斯定理如何“颠覆”我们的直觉。
假设有一种罕见疾病,在总人口中的发病率(先验概率)为 0.1%。现在有一种检测方法,其准确率如下:
- 如果一个人真的有病,检测结果为阳性的概率是 99%(灵敏度)。
- 如果一个人其实没病,但检测结果仍为阳性的概率是 2%(假阳性率)。
现在,小明去检测,结果为阳性。请问小明真的患有这种疾病的概率是多少?
定义事件:
- A1: 小明患有该疾病。 P(A1)=0.001
- A2: 小明没有该疾病。 P(A2)=1−0.001=0.999
- B: 检测结果为阳性。
已知的信息:
- P(B∣A1)=0.99 (真阳性率)
- P(B∣A2)=0.02 (假阳性率)
想求的是: P(A1∣B),即在检测结果为阳性的条件下,小明真的有病的概率。
应用贝叶斯定理:
P(A1∣B)=P(B)P(B∣A1)P(A1)
首先,用全概率公式计算分母 P(B),即一个随机的人检测结果为阳性的总概率:
P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=(0.99⋅0.001)+(0.02⋅0.999)=0.00099+0.01998=0.02097
现在,可以计算后验概率 P(A1∣B):
P(A1∣B)=0.020970.99⋅0.001=0.020970.00099≈0.0472
结论:
即使小明的检测结果为阳性,他真正患病的概率也只有约 4.72%。这个结果与直觉中“检测很准,阳性了肯定有病”的想法大相径庭,也完美地展示了贝叶斯定理在结合先验概率(极低的发病率)和证据(阳性检测结果)后,是如何得出一个更真实的后验判断的。
2. 开车戴表
这是一个极端的例子, 统计了10个人开车,戴表和是否有钱的信息
序号 | 开豪车 | 带名表 | 有钱人 |
---|
1 | 1 | 1 | 1 |
2 | 1 | 1 | 1 |
3 | 1 | 1 | 1 |
4 | 1 | 1 | 1 |
5 | 1 | 1 | 1 |
6 | 1 | 1 | 1 |
7 | 1 | 1 | 1 |
8 | 0 | 1 | 0 |
9 | 0 | 1 | 0 |
10 | 0 | 0 | 0 |
计算 P(有钱人∣开豪车∩带名表),即在已知某人同时开豪车和带名表的情况下,这个人是有钱人的概率。
首先,可以从数据中统计出相关事件的频次:
- 开豪车且带名表的人数 (开豪车∩带名表):观察数据中“开豪车”和“带名表”两列同时为 1 的情况。
- 开豪车且带名表且是有钱人的人数 (开豪车∩带名表∩有钱人):观察数据中“开豪车”、“带名表”和“有钱人”三列同时为 1 的情况。
从表中统计:
- 开豪车且带名表 (开豪车=1 且 带名表=1):一共 7 人(序号 1 到 7)。
- 开豪车且带名表且是有钱人 (开豪车=1 且 带名表=1 且 有钱人=1):也是 7 人(序号 1 到 7)。
现在,可以计算条件概率 P(有钱人∣开豪车∩带名表):
P(有钱人∣开豪车∩带名表)=P(开豪车∩带名表)P(开豪车∩带名表∩有钱人)
由于看到这两个事件的人数完全一致,因此:
P(有钱人∣开豪车∩带名表)=77=1
这意味着在开豪车且带名表的个体中,他们是有钱人的概率是 100%。