《趣学贝叶斯统计》以生动案例讲解贝叶斯定理的原理与应用,帮助读者理解概率推理的力量。
原文标题:贝叶斯定理为什么这么强大?这篇关于它的原理与应用的书终于讲清楚了!
原文作者:图灵编辑部
冷月清谈:
怜星夜思:
2、贝叶斯定理在人工智能中的应用有哪些?
3、如何更好地理解贝叶斯定理的实际应用?
原文内容
相信很多人都或多或少的听过贝叶斯定理,但它到底怎么用?又怎么学?许多的书都无法讲清楚。但《趣学贝叶斯统计》却独辟蹊径,用一个个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。
在书中你可以评估UFO出现在自家后院中的可能性、《星球大战》中汉•索罗穿越小行星带幸存下来的可能性、抓鸭子中大奖游戏的公平性,并学会用乐高积木理解贝叶斯定理。
简直是最好的贝叶斯入门书!今天我们就研究如何将贝叶斯定理当作一种概率工具,对不确定性进行逻辑推理。将利用贝叶斯定理来计算和量化在给定数据的情况下,信念有多大的可能性为真。为此,需要使用该定理的三要素——后验概率、似然和先验概率。这3个要素将在这场贝叶斯统计和概率探险之旅中频繁出现。
1 贝叶斯定理三要素
贝叶斯定理可以准确地量化所观察到的数据改变我们信念的概率。这也就是。简单来说,我们想量化的是:在所观察到的数据下,自己对信念的坚信程度。在贝叶斯公式中,这个要素的术语是后验概率(posterior probability,简称为“后验”),也就是将通过贝叶斯定理所求出的解。
为了得到后验概率,还需要用到下一个要素:似然(likelihood)。它表示在给定信念的情况下,观察到某一数据的概率,也就是(数据|信念)。
最后,需要量化初始信念的概率,即 (信念)。这一要素在贝叶斯定理中被称为先验概率(prior probability,简称为“先验”),它表示我们在看到数据之前的信念强度。似然和先验结合在一起就会形成后验。通常情况下,我们需要使用数据的概率 (数据)对后验归一化,从而使其值介于0和1之间。然而在实践中并不总是需要 (数据),所以这个值没有特殊的名字。
你已经知道,我们将信念称为假设 ,并用变量 来表示数据。图8-1展示了贝叶斯定理的各个要素。
图8-1 贝叶斯定理的要素
在下文中,我们将调查一起犯罪案件,并结合这些要素进行推理。
2 调查犯罪现场
假设,一天你下班回家后,发现家里的窗户玻璃碎了,前门开着,你的笔记本计算机也不见了。你的第一反应可能是:“家里被盗了!”但你是如何得出这个结论的?更重要的是,你如何量化这个信念呢?
你的第一反应是家里被盗了,所以这里 被盗。我们需要一个概率来描述家里被盗的可能性有多大,所以根据现有的数据,想要求解的后验是:
(被盗 | 窗户玻璃碎了, 前门开着, 笔记本计算机不见了)
为了解决这个问题,我们需要补充贝叶斯定理中缺失的部分。
1 求解似然
首先,需要求解似然,具体到这个例子也就是,如果家里真的被盗了,同样的数据会被观察到的概率。换句话说,也就是数据与假设的吻合程度:
(窗户玻璃碎了, 前门开着, 笔记本计算机不见了 | 被盗)
这里,我们问的是:“如果发生了盗窃,那么你看到当前这些数据的概率有多大?”你可以想象一下,被盗时以上所有数据并非都存在的任何场景。例如,聪明的小偷可能撬开了你家的锁,偷走笔记本计算机之后再把门锁上,这不需要打破窗户玻璃。或者他可能只打破了窗户玻璃,拿走笔记本计算机之后再通过窗户爬出来。从直觉上来说,我们看到的场景在盗窃现场很常见,所以我们假定,如果家里被盗,你回家后有 的概率会发现这些数据。
值得注意的是,尽管在这个例子中,我们只是猜测有哪些数据,但其实也可以通过一些调查来获得更好的判断。比如,我们可以去当地警察局询问盗窃案件犯罪现场的统计数据,或者浏览最近关于盗窃案的新闻报道。这样就可以得到更准确的似然估计:如果被盗,你看到这些数据的概率。
贝叶斯定理的不可思议之处在于,我们既可以用它来衡量信念,也可以用它来处理具有精确概率的大数据集。即使认为 不是一个好的估值,你也可以随时返回去重新计算,像我们将要做的那样,看看在不同的假设下这个值是如何变化的。如果认为发生盗窃时看到这些数据的概率只有 ,你可以将这个值重新代入进行计算。贝叶斯统计让人们以一种可度量的方式产生不同的信念。因为是以量化的方式处理信念的,所以你可以重做本章所做的一切计算,看看不同的概率是否会对最终的结果产生实质性影响。
2 计算先验概率
接下来,我们需要确定家里被盗的概率。这也是本例的先验概率。先验概率非常重要,因为它允许我们使用背景信息对似然进行调整。假设前面描述的场景发生在一个荒岛上,而你是岛上唯一的居民,那么你家几乎不可能被盗(至少是被人类)。换一个场景,如果你家位于犯罪率很高的街区,那么盗窃事件就可能会经常发生。为简单起见,我们将被盗的先验概率设定为:
被盗
请记住,如果有不同的或额外的数据,随时可以调整这个概率。
现在,我们几乎有了计算后验概率的所有条件,只差对数据进行归一化处理。在继续之前,先来看看未归一化的后验概率:
被盗窗户玻璃碎了, 前门开着, 笔记本计算机不见了 | 被盗
这个值非常小,太令人惊讶了!这是因为直觉告诉我们,根据观察到的数据,家里被盗的概率看起来非常大。这里,我们还没有分析观察到这些数据的概率。
3 归一化数据
我们的公式中还缺少所观察到的这些数据发生的概率 ,无论家里是否被盗。在这个例子中,这是指无论出于什么原因,同时观察到“家里窗户玻璃碎了,前门开着,并且笔记本计算机不见了”的概率。现在的公式是这样的:
被盗 | 窗户玻璃碎了, 前门开着, 笔记本计算机不见了
分子中的概率相当小,因为没有对它进行归一化处理。
我们可以在表8-1中看到当 改变时,后验概率的变化情况。
表8-1 对后验概率的影响
后验概率 |
|
---|---|
0.050 |
0.006 |
0.010 |
0.030 |
0.005 |
0.060 |
0.001 |
0.300 |
可以发现,当 减小时,后验概率就会增大。这是因为,随着观察到这些数据的概率越来越小,整个事件发生的概率在增大(见图8-2)。
图8-2 随着数据发生概率的减小,后验概率会增大
思考下面这个极端的例子:你朋友成为百万富翁的“唯二”途径是中彩票或者从某个连他自己都不知道的家族成员那里继承遗产。因此,你朋友成为百万富翁的概率非常小。然而,你发现这位朋友确实成了百万富翁。那么,他中彩票的概率就变大了,因为这是他成为百万富翁仅有的两种方式之一。
当然,被盗只是你所见数据的一种可能解释,还有其他更多可能的解释。然而,如果不知道所见数据的概率,我们就无法将所有其他概率归一化。那么 是多少呢?这才是最棘手的问题。
与 相关的最常见的问题是,在很多现实情况下,它很难精确计算。对于公式中的其他值(虽然对这个例子来说只是猜测了一个值),我们都可以通过收集真实的数据来提供更准确的概率。对先验概率 (被盗),似乎只能通过查看历史犯罪数据来确定你家所在的街道上,某一特定人家在某一天被盗的概率。同样,理论上我们可以调查过去的盗窃案件,得到针对所观察到的数据的一个更准确的似然。但又怎么得到 (窗户玻璃碎了, 前门开着, 笔记本计算机不见了)的实际值呢?
与其研究所看到的数据发生的概率,不如试着计算所有其他能够解释所看到数据的可能事件的概率。由于它们的和必须等于1,因此我们可以倒过来计算 。只是对这份特殊的数据来说,几乎有无限的可能性。
没有 的值,我们似乎卡住了。在第6章和第7章中,我们分别计算了客服代表是男性的概率和选择不同颜色乐高凸粒的概率,当时有大量关于 的信息。这使我们可以根据观察到的情况,得出我们相信自己假设的准确概率。如果没有 ,就无法求出 (被盗 | 窗户玻璃碎了, 前门开着, 笔记本计算机不见了)的值。然而,我们并不是完全没办法。
好消息是,在某些情况下,并不需要明确知道 的值,因为我们通常只是想对假设进行比较。具体到这个例子,我们将用另一种可能的解释与家里被盗的概率进行比较。我们可以通过观察非归一化后验分布的比值做到这一点。因为 是一个常数,所以去掉它,分析结果也不会改变。
因此,在本章剩余的内容里,我们不再计算 ,而是提出一个备择假设,计算它的后验概率,然后将其与原始假设的后验概率进行比较。虽然这意味着我们不能给出被盗(作为所观察到的数据的唯一可能解释)的确切概率,但我们仍然可以利用贝叶斯定理来进行推理,并分析其他的可能性。
3 考虑备择假设
现在提出另外一个假设,并将它与原来的假设进行比较。新假设包括以下3个事件。
(1) 邻居家孩子把棒球打到了窗户上。
(2) 你离开家时忘了锁门。
(3) 你忘了自己带笔记本计算机去上班并把它落在了办公室。
我们用事件前面的编号来指代这些事件,并将它们统称为 ,所以 。现在求解这些数据的似然和先验概率。
1 备择假设的似然
对似然,我们想计算的是在给定假设下所观察到的事件的概率,或者说是 。有趣的是,这个假设的似然是1:。
如果假设中的所有事件都发生了,那么你肯定会观察到窗户玻璃碎了、前门开着以及笔记本计算机不见了。
2 备择假设的先验概率
先验概率表示的是这3个事件都发生的可能性,这也意味着需要先计算出其中每个事件的概率,然后通过乘法法则来确定先验概率。在这个例子中,我们假设每个可能的结果都是条件独立的。
备择假设的第一项内容是,邻居家孩子打棒球时不小心打碎了窗户玻璃。虽然这在电影中很常见,但现实中我从未听说过这种情况,更多的情况是发生了盗窃,所以我们假设棒球打碎窗户玻璃的概率是被盗概率的一半:
备择假设的第二项内容是你忘了锁门。这种情况相当普遍,所以假设它每月发生一次:
最后,让我们来看看将笔记本计算机落在办公室的概率。虽然带着笔记本计算机去上班并将它落在办公室可能很常见,但完全忘记带着它去上班的情况不太常见。假设这种情况每年会发生一次:
既然已经给假设 中的每一个事件都赋予了概率,那么可以用乘法法则来计算先验概率了:
正如你看到的,这3个事件同时发生的先验概率很小。现在我们需要计算出这两个假设的后验概率以进行比较。
3 备择假设的后验概率
我们知道似然 等于1,所以如果第二个假设是真的,那么我们就一定会看到这些数据。如果没有先验概率,看起来这个新假设的后验概率要比原假设(家里被盗了)恰当得多,因为即使被盗了,我们也不太可能看到这些数据。现在我们可以看到,先验概率是如何从根本上改变非归一化的后验概率的:
现在我们想用一个比值来比较后验信念以及假设的强度。你会发现,做这件事并不需要 。
4 比较非归一化的后验概率
首先,我们需要求出两个后验概率的比值。比值能够告诉我们一个假设的可能性是另一个假设的多少倍。将原假设定义为 ,这两个假设为真的概率之比如下:
接下来,用贝叶斯定理将其中的每一项都展开。这里将贝叶斯定理写为 ,以使下面这个公式更易于阅读:
请注意,分子和分母中都有 ,这意味着可以直接消去它,比值保持不变。这就是在比较假设时 并不重要的原因。现在我们得到了未归一化的后验概率的比值。后验概率表示信念的坚定程度,所以这个后验概率比值告诉我们,在不知道 的情况下, 对数据的解释比 好多少倍。消去 并将实际数值代入:
这意味着 对所观察数据的解释能力是 的6570倍。换句话说,我们的分析表明,原始假设()比备择假设()更能解释所观察的数据。这也符合我们的直觉:根据观察到的场景,盗窃看上去更可能是事情的真相。
我们想用数学方式表达非归一化后验概率的这一性质,以便于进行比较。为此,需要使用如下版本的贝叶斯定理,其中符号 的意思是“成正比”:
这个公式可以理解为“后验概率,即给定数据下假设的概率,与 的先验概率和在假设 下数据概率的乘积成正比”。
当想比较两个假设的概率,但 的值又不容易计算时,贝叶斯定理的这种形式就非常有用。虽然这无法单独得出一个有意义的假设概率值,但我们仍然能够使用贝叶斯定理的这一形式来比较假设。对假设进行比较,就意味着我们可以确切地知道一种假设对观察内容的解释要比另外一种假设的可信度强多少。
《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
本书用十余个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。你将从直觉出发,自然而然地习得数学思维。读完本书,你会发现自己开始从概率角度思考每一个问题,并能坦然面对不确定性,做出更好的决策。
02
《贝叶斯的博弈:数学、思维与人工智能》
作者:黄黎原
译者:方弦
法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。
贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。
《概率论沉思录》
作者:埃德温·汤普森·杰恩斯
译者:廖海仁
著名数学物理学家,圣路易斯华盛顿大学和斯坦福大学教授,统计力学和概率统计推断方面权谋埃德温·汤普森·杰恩斯,40年思想著作;
无数读者苦等15年的概率论神作,英文版豆瓣评分9.4高分;
概率论作为逻辑的延伸,是所有科学推断的基础。本书收集了概率统计的各种线索,将概率和统计推断融合在一起,用新的观点生动地描述了概率论在物理学、数学、经济学、化学和生物学等领域中的广泛应用,尤其是阐述了贝叶斯理论的丰富应用,弥补了传统概率论和统计学的不足,并揭开了众多悖论背后的玄机。