附录 概率论的基本原则

A.1 概率的概念

本书大部分内容所探讨的都是对选择的可能性、概率及其结果进行评估,所有此类未来的结果都会被看作是不确定的。此外,有实验证据表明,即便我们相信未来是具有不确定性的,也会低估这种不确定性。因此,理性决策的关键在于要建设性地处理这种不确定性。非理性是没有建设性的,至少由非理性得出的结论并不是对世界的真实反映。因此,概而言之,必须理性地对可能性和概率进行评估。

不确定性常常用概率(probability)或几率(odds)这样的形式来表达。一个事件发生的几率等于这个事件的概率除以1与这个概率之差,比如,某事件发生的概率为2/3,1减去2/3等于1/3,因此2/3的概率就等于2比1的几率,即(2/3)/(1/3)。当且仅当一组概率(或几率)满足四条广义代数法则时,这组概率才是相容的,否则就是不相容的。这些极为简单的法则称为概率原则或概率论(probability theory)。附录将会解读每一条原则,我们会先在等概率结果的背景下(通常用抛硬币和掷骰子来说明)探讨与每条原则相关的概率,然后同时用代数和文字形式来呈现这些原则,最后则会在更广义的背景中来讨论。

因为我们是用概率的方式来评估和讨论不确定性,这就意味着当且仅当我们为可能事件所赋的概率满足这四条法则时,我们看待不确定性的方式才是理性的。只有满足了这些法则,我们对于不确定性的看法才能说是相容或一致的(coherent),否则就是不相容的(incoherent)(字面上理解为“非理性”)。

不过在继续之前,我们还要先澄清四点认识。第一,我们对概率的讨论会限制在对未来事件的数字(或模糊数字)判断。对决策者来说,过去的事件要么是已经发生的(因而不是不确定的),要么就是没有发生,在这种情况下不能给它们赋予概率。当然,我们在提到过去事件的时候,常常会不太严谨地用到概率的说法,比如,我们也许会说到奥斯瓦尔德刺杀(或者单独刺杀)肯尼迪的可能性有多大,一个被告“真的”犯了罪的可能性,或者某一枚假想中的硬币在桌子上转停后正面朝上的概率。然而,出于本书的考虑,这些关于过去事件概率的陈述,我们会将其解释为在探寻真相时得到特定结论的概率,这当然就是一个具有可能性的未来事件。第二,有的时候我们会把概率解释为“关于某看法的确定性程度”(degree of belief),或是在大量重复中的客观频率。不过,所有学习和研究概率论的人员都同意概率必须要满足四条基本法则。(事实上,研究概率的抽象数学分支只将它们定义为遵循这些法则的数字,而不考虑附加到概率上的具体解释和其他意义。)

第三,这个附录也会考虑一些对概率的相关看法,包括对概率进行排列和归类,这些看法同样可能会出现满足或违反概率原则的情况,因此也会反映出我们所做的判断是否是相容的。举例来说,当我们对某位世界顶尖网球运动员的比赛情况进行预测时,如果我们认为他在某场锦标赛上输掉第一盘比赛并且最终赢得比赛的可能性要大于其单单输掉第一盘的可能性(一个纯粹的对于顺序的看法),那么这种看法就与概率论的原则相矛盾。类似的情况还有,我们会认为在已知某个症状的情况下能够确定罹患疾病的概率必定与已确定罹患某个疾病的情况下某个症状出现的概率是相同的(没有给定具体数字时的等价看法)。

第四,“非理性”这种说法隐含了一个前提,即所指的必须是包含两个或以上概率的组合(除非违反最简单的限制,将概率设为小于0或大于1的情况也是非理性的),因为我们无法在割裂的情况下评估某个概率判断是不是理性的。举例来说,如果有人认为有0.9的概率明天太阳不会升起,这种看法不一定是非理性的,然而,当你带着这样的看法,以及你明天有0.8的概率去上班且只有在太阳升起的情况下你才会去上班这样的看法——同时具有这些看法,这才会是非理性的。[关于在概率评估(以及整体决策领域)中所出现的非理性有这样一种解释,即人们在看待一个问题的不同部分时,会在不同的思维状态之间摇摆,在一个状态下得到的结论不会与其他状态下得到的结论进行比较——同样也是基于这种考虑,经济学家会假定偏好或偏好背后的效用是稳定的。我们将那些价值和预期经常摇摆不定的人判断为“非理性的”,虽然从技术层面来看这种判断可能不太正确,但要说他们是理性的或者是具有适应性的,显然也不太合适。]

A.2 从神明到数字

概率论是如何开始的?概率论起源于对赌博的评估[我们推荐Leonard Mlodinow所著的《醉汉走路:机率如何左右你我的命运和机会》(The Drunkards’Walk: How Randomness Rules Our Lives, 2008),该书对概率论的历史做了一个引人入胜的介绍]。

在Robert Graves所著的《罗马帝国兴亡史》(I, Claudius, 1943)一书中,卡力古拉[1]遇刺之前正在与克劳狄乌斯[2]玩骰子(一边观看血腥的游戏,时不时地下令将输掉游戏的人[有时候也会是赢的人]处死)。他们所用的4颗骰子是由狗或羊的踝骨所做,称为距骨(astragali),每颗骰子有4面,每一面有一个数字:1、3、4和6,所掷出的获胜组合称为维纳斯列(Venus roll),需要4颗骰子掷出的数字各不相同。克劳狄乌斯一直在赢——而这样的状况让他命在旦夕,因为输掉的卡力古拉随时会爆发病态的怒火。于是克劳狄乌斯战战兢兢地向卡力古拉献上了一组打造得极为精美的新距骨骰子,据说这组骰子上附有神的力量,能够掷出维纳斯列。随后卡力古拉又把他的钱赢了回来,他感到特别高兴,因为他觉得维纳斯神那天对他特别眷顾。他在得意忘形之际放松了警惕,最终被刺身亡。

(今天我们大多数人都会认为卡力古拉是迷信和愚蠢的,不过对这一事件人们也有一些其他的观点。克劳狄乌斯将传说附有神力的骰子献给卡力古拉,骗他相信维纳斯神会眷顾自己——而事实上卡力古拉之前的失败说明维纳斯神并不站在他那一边。因此,克劳狄乌斯的欺骗行为也在一定程度上令他背上了行刺主谋的罪名,人们认为是他一手操纵这个事件帮助自己登上了王位。)

我们应该如何确定维纳斯列的概率?以从左至右(可以从任意方向)的顺序考虑距骨骰子的4个数字,并假定在这个例子中一颗骰子掷出4个数字的可能性相等。那么“1”可以出现在4个位置中的任意一个,“3”可以出现在剩下3个位置中的任意一个,“4”在剩下2个中的任意一个,“6”的位置也随之确定。因此,一共有4 × 3 × 2 × 1 = 24种情况可以得到维纳斯列,而所有可能掷出的序列则是44(即256)种,因为4个数字中任意一个都能出现在第1、第2、第3和第4个位置上。因此,我们得到结论,掷出维纳斯列的概率为24/256,即大约0.094。

还有一种方法也可以得到相同的结论。依次考虑4个位置,在第1个位置出现任意数字都有可能得到维纳斯列,给定第1个位置的数字,第2个位置的数字可以选择剩下3个数字中的任意一个,其概率为3/4,如果前两位数字不同,第3位的数字必须是剩下2个数字中的一个,其概率为2/4 = 1/2,最后,如果前三位数字各不相同,那么最后一位是剩下那个数字的概率为1/4。将这些概率“连起来”就得到1 ×(3/4)×(2/4)×(1/4)= 6/64 = 24/256,即大约0.094。(因为并非所有结果的可能性都相同,因此实际概率更低,约为0.04。)

根据历史学家Florence N.David(1962)的观点,在古埃及、古希腊和古罗马文明中,许多人都相信博弈的结果是由神明或超自然力量(“命运”)所主宰的(即便到了今天,这样的观念也依然会以一些内隐的形式存在于许多冲动的赌徒身上),并且,不同的赌博结果往往与不同的神明联系在一起。事实上,这些有关赌博的信念也正是中世纪罗马天主教会将赌博定为不合法的原因之一。一神论的上帝不会去“掷骰子”——而赌博却是多神论的催化剂。

当然,并非所有的古希腊人和古罗马人都相信赌博的结果受到神明的影响。在《论责任》(De Devinatione)的第二卷中,西塞罗写道:

没有什么事情比掷骰子更不可预测的了(现代翻译),而每个玩骰子的人总会在某个时刻掷出一个维纳斯列,有时会连续掷出两个甚至三个维纳斯列。那我们是不是真的就要幼稚到断言这种情况的出现是因为维纳斯神显灵而非纯粹的运气使然?

西塞罗认为在使用随机仪器的赌博游戏中,“运气”决定了人们的成功,他显然也明白特定的某一次或某几次掷骰子的运气(几率)与长期频率之间存在一定的关联。但是西塞罗后来被害了,这说明理性并不能确保成功,只是增加了成功的可能性。事实上,就像我们之前所指出的那样,在其他人不选择理性的时候选择理性可能会导致社会排斥。

西塞罗并没有预见到,现代概率论的一个重要发展就是通过计数的方法来确定几率。只有当算术发展起来使得复杂计算变为可能时,才能开始采用计数的方法——虽然希腊人在几何学和逻辑学上能力出众,算术则一直到文艺复兴时期才在西方世界发展起来。卡尔达诺(1501~1576)第一个系统性地提出了这种计数方法。下面我们来看看如何通过计数推导出概率论的基本原则:

抛1次硬币会出现2个可能结果中的1个:正面(H)或反面(T)。

抛2次硬币会出现4个可能结果中的1个:HH(两个正面)、HT(先正后反)、TH或TT(见图A.1和A.2)。

抛3次硬币会出现8个可能结果中的1个:HHH、HHT、HTH、HTT、THH、THT、TTH或TTT。

依此类推。

结果(outcome)是概率论中的一个技术术语,指的是一个试验(如多次抛硬币)的一个特定结果。事件(event)是结果的集合,这个贯穿于本书的概念是概率论的关键——即便有的时候用“事件”二字来表达这个概念会有些生硬。在这里,集合(collection)不一定是指包含多个结果,因此一个事件可以只包含单独一个结果。当然,一个集合也可能包含所有结果,一个包含所有结果的事件是一个完备(well-defined)事件,用S表示。

图A.1 抛2次硬币的可能结果

图A.2 抛2次硬币的可能结果的“树状图”

抛2次硬币会得到其中一种可能的事件。举例来说,

A.事件“两个正面”只包含一个结果HH。(这与事件“没有反面”等价。)

B.事件“有且只有一个正面”包含结果HT和TH。(这与事件“有且只有一个反面”等价。)

C.事件“至少有一个正面”包含结果HH、HT和TH。(这与事件“最多有一个反面”和事件“没有两个反面”等价。)

诸如此类。

实际上,共有15(= 24-1)个事件包含至少一个结果:

包含1个结果的事件:

HH

HT

TH

TT

包含2个结果的事件:

HH、HT

HH、TH

HH、TT

HT、TH

HT、TT

TH、TT

包含3个结果的事件:

HH、HT、TH

HH、HT、TT

HH、TH、TT

HT、TH、TT

包含所有4个结果的事件:

HH、HT、TH、TT

对这每个事件都可以进行一个语言描述。(请试一下。)

我们可以看到,抛2次硬币之后,会得到4个可能结果,以及15个包含至少一个结果的可能事件。事实上,出于完整性的考虑,数学家会定义16个可能事件,换言之,他们也会考虑没有包含任何结果的事件,这个事件称为空事件(null event)(“没有事情发生”),用符号表示。那么空事件是否只是一个由人们思维中的强迫性概念所生发出来的(虚无)结果呢?并非如此。空事件的概念对概率论的发展与概念零(zero)对我们数字系统的发展起着同样重要的作用。零的概念一直到公元900年才被引入西方的计算之中,在此之前,人们用罗马符号来表示10(X)、20(XX)等等,但是加减计算的时候比用符号0麻烦得多——举例来说,X+XXX = XL,而用0就可以表示为10+30 = 40,其中一部分是以0加0等于0所得到的。

下面我们来说如何为事件赋予概率。我们会首先考虑结果可能性相等的情况,然后再推广到其他事件。考虑将一枚公平的硬币抛2次的情况,这里的“公平”(fair)是指满足下面两个条件:

1.每次抛硬币得到正面或反面的可能性相等。

2.连续抛掷多次所出现的结果之间没有关系。

“公平性”的含义同时涉及硬币本身和抛硬币的人:第一个条件说明硬币本身没有偏向性且抛硬币的人没有也无法控制结果;第二个条件说明硬币“没有记忆”,也再次说明抛硬币的人没有也无法进行控制。(许多“主观主义”统计学家认为公平性存在于观察者的信念之中,也就是说当观察者认为硬币和抛硬币的人满足这些条件时,这个过程就是“公平”的。)在这两个条件之下,有4个可能性相等的结果:HH、HT、TH和TT。

当结果发生的可能性相等时,一个事件的概率就等于这个事件中的结果数量除以所有可能的结果数量。如果抛2次硬币,所有可能的结果数量为4。

A.事件“两个正面”只包含一个结果HH,因此其概率为1/4。

B.事件“有且只有一个正面”包含结果HT和TH,因此其概率为(1+1)/4 = 1/2。

C.事件“至少有一个正面”包含结果HH、HT和TH,因此其概率为(1+1+1)/4 = 3/4。

依此类推。

根据标准记号规则,事件由大写字母表示,其概率用p表示。举例来说,如果A表示事件“全为正面或全为反面”,这个事件包含结果HH和TT,因此,p(A)=(1+1)/4 = 1/2。

A.3 概率论的原则

我们已经知道,概率是0到1之间的数字,并且p()= 0,因为空集中不包含任何结果。因此,下面这些原则适用于等概率结果的事件:

原则Ⅰ:0Gp(A)G1

原则Ⅱa:p(S)= 1

原则Ⅱb:p()= 0

多个事件也可以联合发生。事件A交B(A and B)称为它们的交集(interse- ction),包含两个事件共有的全部结果。举例来说,事件“至少有一个正面”包含结果HH、HT和TH,而事件“至少有一个反面”包含结果HT、TH和TT,所以事件“至少有一个正面交至少有一个反面”包含结果HT和TH。(注意到这个事件与事件“有一个正面和一个反面”等价。)这样的事件称为复合事件(compound event),其概率称为复合概率(compound probability)。(请注意,任意事件都可以看作是一个复合事件,每个事件首先都等价于其本身与全集S的交集。)

还有一种联合方式涉及两个事件中的任意结果。事件A并B(A or B)称为它们的并集(union or conjunction),包含这两个事件中的所有结果。(包含所有覆盖到的结果,逻辑上即是指“两个事件各自独有的以及共有的结果”。)举例来说,事件“至少有一个正面” 包含结果HH、HT和TH,而事件“至少有一个反面”包含结果HT、TH和TT,所以事件“至少有一个正面并至少有一个反面”包含结果HH、HT、TH和TT,即全集S(因为在任意一次“试验”或抛掷中,肯定会出现至少一次正面或至少一次反面的情况)。

在这些例子中,两个事件的交集或并集都有一部分重叠,不过正如前面提到过的,举例来说,如果取一个事件与S的交集或与的并集,这样的情况就不一定发生。我们还可以取完全没有重叠的两个事件(即不包含共有结果的事件)的交集或并集,或者一个事件也可以是另一个事件的一个子集——即第一个事件包含的所有结果也全都出现在第二个事件中,或者两个事件完全相同。事件是结果的组合,通过“交”或“并”将任意两个事件联系起来就会定义一个新的结果组合,也就是一个新的事件。

如果两个事件不包含共有结果,那么它们是互斥的。举例来说,事件“两个反面”和事件“至少有一个正面”就是互斥的。

数学家和统计学家用空集来表达两个事件互斥——即两个事件没有共同的结果。简而言之,如果两个事件A和B是互斥的,则它们的交集是空集(不含任何结果的集合)。因此只要

(A交B)=

则A和B互斥,根据原则Ⅱ则得到

p(A交B)= 0。

再次考虑抛2次硬币的情况。假设A是指事件“两个反面”,B是事件“有且只有一个正面”,则这两个事件是互斥的,前者包含结果TT而后者包含事件HT和TH。此外,A发生的概率为1/4而B的概率为2/4 = 1/2,(A并B)的概率为3/4,因为在(A并B)中共有3个结果,即TT、HT和TH。因此,p(A并B)= p(A)+ p(B)。

只要任意两个事件A和B是互斥的,则(A并B)中的结果数量必定等于两个事件中的结果数量之和。如果S中有n个可能性相等的结果,A中有m个而B中有m′个,如果A和B互斥,则

从这里我们得到概率论的第三条普适原则:

原则Ⅲ:如果(A交B)=[等价于p(A交B)= 0],

则p(A并B)= p(A)+ p(B)。

这个原则反过来是否成立呢?也就是说,如果p(A并B)= p(A)+ p(B),是否一定能得到(A交B)=?这个问题可以这样来回答:如果A和B至少共有一个结果,那么p(A并B)必定小于p(A)+ p(B),因此反过来也是成立的。

我们最后再引入两个概念来完成对概率论的简介。第一个是一个事件的补集(complement),具体来说,事件A的补集包含了全集S中所有不在A中的结果,A的补集通常用-A或来表示。举例来说,考虑抛2次硬币的情况:

如果事件A代表“两个正面”(包含HH),则A的补集包含HT、TH和TT——即事件“至少有一个反面”。

如果事件A代表“有且只有一个正面”(包含HT和TH),则A的补集包含HH和TT——即事件“两个正面或两个反面”。

如果事件A代表“至少有一个正面”,则A代表事件“全为反面”。

等等。

关系Ⅰ:如果A是A的补集,则p()+ p(A)= 1。

要推得这个关系,一方面因为A和互斥的,因此根据原则Ⅲ,p(A并)= p(A)+ p(),而根据定义,包括 S中所有不在A中的结果,因此(A并)等于S。所以,p(A)+ p()= p(S),根据原则Ⅱa,结果等于1。

我们可以注意到原则Ⅱb,即p()= 0,并没有用来推导关系Ⅰ,关系Ⅰ完全由原则Ⅱa和Ⅲ推得。事实上,原则Ⅱb本身也可以看作是原则Ⅱa和Ⅲ通过关系Ⅰ推导出来的:因为是S的补集,所以p()+ p(S)= 1,而由原则Ⅱa可得p(S)= 1,所以p()= 0。(这个过程严格证明了空集的概率为空——零。)

最后需要指出,与原则Ⅲ不同,关系Ⅰ反过来是不成立的。如果两个事件的概率总和为1,并不能说明它们互为补集。举例来说,在抛2次硬币且结果概率均等的情况下,事件“有且只有一个正面”和“有且只有一个反面”的概率都为1/2,相加等于1,但两个事件的并集“有且只有一个正面并有且只有一个反面”的概率却不等于1(1/2 +1/2),这两个事件并不是互为补集。实际上,它们是相同的两个集合,都包含结果HT和TH。

最后一个概念是条件概率(conditional probability),这可以很简单地用一个公式来定义,但在给出这个定义之前,我们应先了解,条件概率的本质思想是事件A发生的概率能够用另一种方法来评估,即根据另一个事件是否发生来分情况讨论。举例来说,我们考虑两个极端的例子:如果事件A和B是互斥的,则A中的任意结果都不会在B中出现,那么,当B发生的时候A发生的概率就为0;相反,如果B中的所有结果都出现在A中,那么当B发生的时候A发生的概率就为1。

条件概率A当(given)B用符号p(AB)表示,可以用下面几种不同的语言方式来表达:

1.在B发生的条件下A发生的概率

2.在B的条件下A发生的概率

3.当B发生时A发生的概率

4.如果B发生,则A发生的概率

如果不同结果的发生可能性都相等,则A当B就等于两个事件中共有的结果数量(两者的交集)除以B中的结果数量。实际上,“当”B发生的时候,我们知道实际结果必定会从B之中选出,那么此时A中的一个结果发生的概率就等于那些同属于B和A的结果在B中的相对数量。事件B现在定义的是可能结果的数量,实际上也就代替了S。

用m′表示A交B(两者的交集)中的结果数量,用m表示B中的结果数量,那么,假设所有结果的可能性相等,则

p (AB) = m′/m。

现在将分式m′/m中的分子和分母分别除以n(n是全集S中的结果数量),得到

而因为p(A交B)= m′/n,而p(B)= m/n所以我们得到:

这个原则就是条件概率的正式定义。

现在我们来看看在抛2次硬币的情况中条件概率的一些例子。事件“至少有一个正面”发生的条件下事件“两个正面”的概率为1/3。(HH是事件“两个正面”中唯一的结果,而事件“至少有一个正面”包含结果HH、HT和TH。)有的时候,人们会错误地认为这个概率是1/2而不是1/3。比如,有些人认为如果一个家庭中有两个孩子,那么在至少有一个女儿的情况下,有两个女儿的概率为1/2。

而在第1次抛硬币得到正面的条件下,事件“两个正面”的概率就是1/2,此时共有的事件仍然是HH,但已经发生的事件只包含两个结果,即HH和HT。仍然以有两个孩子的家庭为例,在第一个是女儿的情况下,两个都是女儿的概率为1/2,因为男孩(B)和女孩(G)出生的概率(大体)相等。对比来看,至少有一个女孩的情况则有三种:GG、GB、BG,这三种情况中只有一种情况(GG)下另一个也是女孩。因此,在至少有一个女孩的情况下有两个女孩的概率为1/3,而不是1/2。

原则Ⅳ可以变换一下,写成在p(B)基础上“乘以”一个概率的形式,即

如果用原则Ⅳ′的形式来表达,条件概率的定义就包含了一个连锁原则(chaining principle)来得到复合事件的概率。(请回忆一下维纳斯列的例子。)举例来说,抛2次硬币都得到正面(事件“全为正面”)的概率就等于第1次得到正面的概率乘以当第1次得到正面时第2次得到正面的概率。读者应该清楚这两个概率都为1/2,因此得到这个复合事件的概率为1/4。在一副扑克牌中无放回随机抽到2张黑桃的概率等于第1次抽出一个黑桃的概率(13/52,因为一副牌共有52张,其中有13张黑桃)乘以在第1次抽出黑桃的情况下再次抽到黑桃的概率(12/51,因为在余下的51张牌中有12张黑桃)。从而得到这个复合事件的概率为(13/52)(12/51)= 3/51。我们也可以用两张黑桃的组合数量(78)除以所有两张牌的组合数量(1346),仍然能够得到3/51。

连锁从两个方向都可以进行: p(A交B)等于p(AB)p(B),也等于p(BA)p(A)。有的时候从一个方向来考虑连锁比另一个方向更容易一些——比如在时间上从前到后的自然顺序。

最后,我们就可以定义事件之间的独立性(independence)。独立性的直觉定义是:如果p(AB)= p(A),则A与B互相独立。接受这个定义后,我们在两边同乘以p(B),得到:

独立性(定义):p(A交B)= p(A)p(B)

(因为根据原则Ⅳ′可知p(AB)p(B)= p(A交B))。

此外,两边同除以p(A),我们也能推得p(BA)= p(B)。因此独立性是对称的。数学家们会采用p(A交B)= p(A)p(B)这个定义,因为当p(A)或p(B)等于0而不适宜进行乘除运算时这个概念仍然成立。

如今,概率论已被运用到除赌博游戏之外更广泛的情境之中。举例来说,堤防和水坝是基于河流达到特定洪水位的概率估计而设计的,当然,工程师们并不会认为所有洪水位发生的可能性是相同的,而会参考过去达到某个洪水位的频率来进行概率估计。我们也可能会说到在世界职业棒球大赛中芝加哥小熊队打败芝加哥白袜队的概率,或者在公元3000年之前发生“原子战争”的概率。在这些情境中,我们没有相关的频率信息可用,而是要根据棒球、政治、技术的相关知识——或者可能是我们的悲观程度来做出估计。如果结果既不是等可能的,也没有频率信息可以参考,概率往往与“纯粹”的下注几率有关。举例来说,如果你认为小熊队打败白袜队的概率为1/3,那你最多愿意在白袜队上下注2美元而在小熊队上下注1美元,也就是说,你应该愿意接受所有小于2∶1的赌博而拒绝所有高于2∶1的赌博,这是对你个人关于概率的看法的一种评估。实际上,有一群被称为人格主义者(personalist)或主观主义者(subjectivist)的概率哲学家认为,所有的概率本质上都是基于个人看法或赌博意愿的。(举例来说,在一个概率分析中,认为所有单个结果“发生的可能性都相等”这样的基础论点难道就不是一种主观信念么?)

实际上,几个世纪以来,有关概率到底指的是事实还是个体对世界的看法,还是证据与看法之间(或不同看法之间)的逻辑关系,一直都存在很大的争论。我们还不清楚这种争论对概率推理究竟有多重要,不过我们清楚的是,虽然人们对概率这个概念的涵义会有不同的理解,但是对于特定概率他们会得到相同的结论。举例来说,考虑这样一个实验,一个袋子中有两颗骰子,其中一颗有4面绿色和2面红色,另一颗有4面红色和2面绿色,从中随机摸出一颗,在不看到骰子的情况下直接掷骰子,结果得到红色的概率是多少?所有参与实验的被试认为是1/2,并且所有人都认为,这么判断的理由在于摸到两颗骰子的概率都为1/2。

那么为什么人们会说摸到两颗骰子的概率都为1/2呢?有些人说是因为我们没有什么理由能够肯定自己摸到是其中的某一颗骰子而不是另一颗;有些人说1/2反映了自己的一种看法,即每颗骰子被摸出的可能性相等;有些人则说随机的概念在逻辑上能够推导出任意一颗骰子被摸出的概率为1/2;还有一些人则说摸到两颗骰子的概率相等所基于的假设是一个可以通过重复实验验证其有效性的客观事实;我们还可以说,无论是哪颗骰子,当它确实被摸出来时,其被摸到的“真实”概率为1,因为世界上并没有什么事是随机发生的,只不过因为我们无法了解事件发生背后所涉及的所有因素及其交互作用,便只能选择1/2。然而不管怎么样,所有这些都为这个实验得出结论:摸出其中一颗骰子的概率为1/2。于是,掷出红色面的概率可以由两个部分组成,即4个红色面的骰子摸出时掷出红色面的概率,加上4个绿色面的骰子摸出时掷出红色面的概率(根据原则Ⅲ)。第一个概率为(1/2)×(2/3),第二个概率为(1/2)×(1/3)(都根据原则Ⅳ′得到)。因此,掷出红色面的概率为2/6+1/6 =1/2。结论得以证明。

那么从普遍意义上来说,概率是什么呢?第一,概率指的是对完备定义的事件所赋的数字。一个“完备定义的事件”(well-defined event)即是一个可以在未来毫不含糊地解释为发生或不发生的事件。第二,概率必须满足下面四个基本原则:

Ⅰ.0≤p(A)≤1

Ⅱ.p(S)= 1

Ⅲ.若交集(A交B)=,则p(A交B)= p(A)+ p(B)

Ⅳ.p(AB)= p(A交B)/ p(B)

许多哲学家还在试图为概率找到更多的涵义,这样的探讨毫无疑问是极有意义的,不过目前我们也可以接受以这种结构化的方式来正式诠释概率的涵义,即满足这四个原则的数字。为配合本书的目的,我们加了一个额外条件——这里考虑的是未来发生的事件。

我们注意到,除非这个数字落在了0到1的区间之外,单独一个概率不会违反这些原则。因此,概率指的是描述一组事件之间关系的一组数字。当然,人们也许会维护那些违反规则的概率,坚持认为他们是在“概率”这个概念的常规涵义下进行讨论的,但是理性或相容的概率必须满足这些原则,这是数学家或统计学家所接受的唯一一种概率。

A.4 违反概率论原则的观念

有许多常见的观念是违反这些概率论原则的,举例来说,考虑下面这些事件序列:

1.一位运动明星染上了毒瘾,参加了一个治疗课程,获得了冠军。

2.一位运动明星染上了毒瘾,获得了冠军。

如果将其中一个事件序列呈现给人们,许多人会判断第一种比第二种的可能性更高。但是根据概率原则,这是不可能的。要了解其中的原因,我们将这些序列中的事件进行分解:

A.这位运动员染上了毒瘾。

B.这位运动员成了冠军。

C.这位运动员参加了治疗课程。

(不标注事件发生的顺序)现在人们认为

p(A交B交C)〉p(A交B)。

但是这并不理性,或者说不符合这些原则,我们可以从两个角度来证明:

证明1:根据连锁原则(Ⅳ′),且因为交集(A交B)就是第二个事件,所以得到p(A交B交C)= p(CA交B)p(A交B)。

但因为根据原则Ⅰ,p(C[A交B])G1,所以p(A交B交C)Gp(A交B)。

这是一个逻辑矛盾,证明最初的那个判断是错误的。

证明2:(A交B)=(A交B交C)加上(A交B交),而(A交B交C)和(A交B交C)是互斥的,因此根据原则Ⅲ,

p(A交B)= p(A交B交C)+ p(A交B交)。

这就意味着p(A交B)必定大于等于右边的第一项——又一个矛盾。其中的关键在于这位运动员可以通过治疗课程之外的其他途径最终获得冠军,他/她可能因为其他理由而戒掉了毒瘾,可能具有极高的天赋或运气,冠军也可能是作弊得来等等。

对于一个不太可能发生的事件或事件联合的可能性,人们会因为一些看似更合理事件的加入而增加其可能性,这种现象称为情景效应(scenario effect),Amos Tversky和Daniel Kahneman(1983)对这类效应进行了深入的研究,发现这些加入的事件虽然在实际上限制了初始事件或事件联合发生的可能性,但往往有助于构成一个“好听的故事”。举例来说,正如Paul Washburn(在与Dawes的私人交流中)所指出的那样,当人类学家通过一些骨头对某一个史前文化进行重构时,如果添加一些连自己都可能不太清楚的细节,这样的重构往往看起来更为可信。我们也都知道,平平淡淡地把所知的事实告诉别人,不如将故事润色一下来得有说服力(如在法庭最后陈述时)。认知心理学家已经发现了许多由情景效应所导致的非理性概率判断(见第6章和第7章)。

下面是两个有关概率的观念,它们是错误的,但不是非理性的,然而把它们组合起来,就是非理性的。

赌徒谬误:一个硬币落下得到正面(反面)的次数越多,下一次抛硬币时得到反面(正面)的可能性就越多。因此,HT比HH的可能性更高,HHT比HHH的可能性更高,诸如此类。[正如前面所说,这种观念只有在硬币有记忆(或者抛硬币的人能够控制的时候)才有可能是正确的。]

这种谬误同样会在其他情境中出现。考虑我们在章节7.3中所提到的 “致亲爱的阿比”的例子:“我和丈夫刚刚有了我们的第8个孩子,又是一个女孩,我现在真的非常失望。……阿比,这个孩子应该是个男孩。”连续怀上8个女儿的概率(大约)为1/28 = 1/256,但是在其他7个女儿都已经生出来的情况下,再怀上一个女儿的概率为1/2。和硬币一样,精子没有记忆,何况是过去那些它们完全不明真相的受孕情况。这个原则和2.6中所提到的balla游戏的解答一样。

未知分布谬误(将未知均等地分布在人为定义的类别中,而不是特定的等可能结果上):因为抛2次硬币会得到0、1或2个正面,从这个伪原则会推出每个结果发生的可能性为1/3。

假设有的人同时相信赌徒谬误和未知分布谬误,则根据赌徒谬误,

p(HT)H p(HH)。

但是根据未知分布谬误,

p(HH)= 1/3。

因此,p(HT)H 1/3。同理可得,p(TH)H 1/3,所以两者之和大于等于2/3,但根据未知分布谬误,两者之和同时也应等于1/3(即“抛2次硬币会得到0、1或2个正面”)。

有些观念的组合是非理性的,然而人们还是会保留这些观念。基于这些不相容的概率评估所做的选择必定也是不相容的,甚至可能导致个人或社会伤害。而反过来的结论——满足原则Ⅰ到Ⅳ的概率不会出现矛盾——也是正确的,不过相关的证明就不在本书中赘述了。

A.5 贝叶斯定理

假设我们有两个袋子,装着黑色和红色筹码。袋子A装有70%的红筹码,而袋子B装有40%的红筹码。有一个人会掷一颗骰子,如果得到1或2,则给我们袋子B,否则就给我们袋子A。我们不知道掷骰子的结果,因而也就不知道给我们的是哪个袋子,但我们可以从这个袋子中抽10次筹码,每抽一次后都要把筹码放回去再抽下一次。我们的任务是推测出所抽的是哪一个袋子。

假设我们抽出了6个黑筹码和4个红筹码,这显然更“像”袋子B而非袋子A,但是另一方面,我们知道根据掷骰子的结果,得到袋子A的可能性是袋子B的2倍。那么,我们应该如何把抽出筹码的证据和先前有关掷骰子的观念结合起来呢?推而广之,在获得了一些相关的证据后,我们应如何理性地更新自己对于一个假设的看法(比如“现在是从袋子B中抽筹码”这个假设)呢?

一种方法就是采用贝叶斯定理(Bayes’ theorem),这个定理是从概率论的第四个原则往后推了一步,通常认为是由Thomas Bayes教士提出。显然,Bayes教士是在尝试用理性的方式来证明上帝(我们想应该是基督教的上帝)的存在时发现了这个原则,但是他对自己的推导并不是很有信心,因此只将自己的发现与一个朋友交流过,Bayes在1761年去世之后,这位朋友才发表了他的发现。[对于想进一步了解贝叶斯分析的读者,我们推荐Dennis V.Lindley所著的一本极佳的入门书籍《理解不确定性》(Understanding Uncertainty, 2006)。]

我们用d来代表已经收集的数据——6个黑筹码和4个红筹码,用A和B代表两个袋子。我们已经知道筹码是从A、B这两个袋子的其中一个之中抽得,因此很容易确定数据的条件概率。随后如果我们知道一开始得到其中某个袋子的概率(我们已经知道了)以及得到这些数据的概率(可以通过计算得到),就能根据已有数据推出我们确实得到这个袋子的条件概率。具体来说,

p(A交d)= p(d交A)。

根据概率的第四原则,我们可推得

实际上,用5.10中的比例规则更为简便,在这个情境中,

同理,

两式相除,得到

通过这个除法,我们消去了麻烦的p(d),在最后一个等式中,我们得到的结果是p(Ad)除以p(Bd)的比例。知道了这个比例,以及这两个概率之和等于1(我们是从两个袋子之一中抽取筹码,因此根据原则Ⅲ,概率之和为1),我们就很容易计算出这两个概率。

在这个例子中,p(A)= 2/3,当我们从袋子A中抽取时,以某个特定顺序抽得6个黑筹码和4个红筹码的概率为0.36 × 0.74。同理,p(B)= 1/3,当我们从袋子B中抽取时,以同样的顺序得到这个样本的概率为0.66 × 0.44。因此,p(Ad)除以p(Bd)= 0.0001167/0.0003981,即0.29。因此,6黑4红10个筹码是从袋子A中抽取的概率为0.22,从袋子B中抽取的概率为0.78。请注意,我们从这个假设的试验中所得数据的信息价值要远远高于初始几率所给出的信息——2∶1的几率得到袋子A。

普遍说来,贝叶斯分析会将初始看法具体化,这里的初始看法是指在我们获得样本之前所持有的看法,在这个例子中,掷骰子的过程会令我们形成初始看法。随后我们根据贝叶斯定理将抽取样本所得的证据与初始看法合起来,就能运用概率论的规则来更新初始看法。

A.6 对巧合的事后分析

在日常生活中充满了巧合。道斯的大女儿出生的日子是他母亲的忌日,而小女儿则和他的母亲同一天生日。多么惊人的巧合啊!一个对概率论几乎不了解的分析者也许会得出结论,这两个巧合的概率为(1/365)2,即0.0000075。不过显而易见的是,这个巧合反过来的话同样也是非常惊人的——这么一来出现巧合的概率也许是0.000015才更合理。再者,两个女儿当然也能同一天生日,并且和祖母的生日或忌日是同一天,这又是一个惊人的巧合,因此概率应该再翻一倍,得到0.00003。另外,大女儿有视觉艺术天赋,小女儿则是短篇小说作家——于是她们的生日还可以与相关领域中某位名人的生日相同。于是还有许许多多名人的生日,从George Washington、Abraham Lincoln、Grover Cleveland、John F.Kennedy,到Omar Khayam、Mahatma Gandhi、Bertrand Russel和传道书的各位作者。关键问题在于我们可以不断挖掘,哪怕通过这样的回溯要找到一个特定的巧合(比如同一天生日)看起来也许是不太可能的,但是,也很有可能会出现许多巧合。

要理解这个原则,可以考虑一下死亡的概率。我们会做出一个简化的假定,即每天死亡的概率是相等的。于是,假设一个人的预期寿命为70岁(25568天),那么在其中某一天死亡的概率为0.00004,但是在特定的某一天死亡的概率为1.00。或者考虑另外一个例子,如果我们完全随机地从1到10 000中选择一个数字,任意特定数字被选中的概率为0.0001,而同样对某个被选中的数字,概率为1.00。有趣的是,在概率论还在发展之中的十八世纪,一些哲学家把0.9999的概率等同于“几近确定”(moral certainty)。在死亡的那个例子中,就意味着我们几乎可以确定自己能安然度过每一天。(因此,不要买保险了?或者至少不要在任何特定的某一天去买?)

上面这两段主要是为了解释一个重要的原则:虽然一个特定事件发生的概率可能接近于0,但是什么事情都不发生的概率则绝对为0。

那么,我们怎么来确定一个巧合究竟是不是超感官知觉的体现呢?或者举一个具体的例子,在一个有关地铁中的助人行为的研究中发现,高个比矮个更可能助人,这个发现能否说明身高和利他性之间存在相关呢?还有,从1900年到1968年,美国总统候选人中身高更有优势的都赢得了选举,这又是否意味着美国选民更喜欢高个子的人呢?

要回答这类问题并不容易,不过我们可以用一个简化的例子来做个参考。再次考虑从1到10000中随机选择一个数字。如果一个自称拥有预知能力的朋友事先说出你会选择数字973,而你确实选择了这个数,你就会感到非常震惊。相反,如果他/她先让你选择一个数字,在你说出973之后再向你解释这个数字和他/她的预知能力之间有什么特别的关联,你就一点也不会觉得神奇。同样是973这个数字,你既有可能感到敬畏,也可能完全不屑一顾,这取决于你的朋友是如何让你了解这个数字的神奇之处的,具体而言就是你朋友所采取的决策过程以及你的决策过程。如果你的朋友事先说出数字,这样你就只会把973这一个数字看作“成功”预知,你在选择数字之前就能确认这个决定。然而,如果你的朋友是在你选完数字后才向你解释这个数字的特别之处,你就很容易怀疑许多其他的数字也都能让他/她说出某些“特别之处”。图A.3就展示了这个原则。图中呈现了抛6次硬币所得到的一些正反面结果模式,这16种模式事后都能够描述出一些特别之处(全为正面、全为反面、交替、2个一组交替、镜像等等)。于是,如果人们抛6次硬币,出现其中一种有趣模式的概率就不再是1/64,而是16/64。

图A.3 随机抛6次硬币可得的16种明显的模式

人们会做出这样的事后判断吗?人们是否认为这样的模式是突出(significant)的?这里所说的“突出”不仅仅是指日常生活用语的涵义,也包括技术、统计上的涵义——显著性。考虑道斯遇到的一位占星家的话:

这难道不是冥冥中的天意吗?这里的5个人之中有3个狮子座和2个巨蟹座,而福特总统也是巨蟹座的,也就是说3个狮子座和3个巨蟹座。我打赌这样的概率几乎为0。这类事情你们能解释吗?

有一种方法可以将这类事件中明显的特异之处进行夸张,称为选择性终点法(optional ending point maneuver),统计学家(及职业魔术师)Persi Diaconis(1978)详细描述了这种方法。这个技术被许多心灵学家所使用,主要的技巧是始终不让淳朴的观察者确切了解事情的目标,直到达到目标为止。举例来说,Diaconis曾详细分析过心灵学者B.D.,他会让一个观众说两张牌,随后请另外两个观众“随机”选择两个较小的数字。然后他会将两叠洗过的牌放在桌子上,一张张地同时翻开两叠牌。有的时候,他会在所选两个数字中较大的那个出现时停止翻牌,如果在这之前第一个观众所说的两张牌恰巧都出现过了,这当然就是一次“成功的表演”。他还有许多其他的选择,比如要是两张牌同时翻开,那显然也是成功的,或者如果其中一张牌随着那个大数一起翻开,这也还是成功的。如果没有什么“特别”的事情发生,那么其中一叠牌会继续翻下去,直到翻到较小的那个数字,到那个时候,所有类型的结果可能都出现过了。诸如此类不胜枚举。这种选择性终止诡计(optional stopping trick)就是事先不告诉别人你要如何操纵你的心灵力量,于是巧合的概率就会变得非常大。此外,如果你宣称自己的力量来无影去无踪,连你自己也无法解释,或者说怀疑性的测试过程会对其产生干扰,这同样有助于巩固你的超能力形象,心灵学家Uri Geller就是这么做的。于是,如果你多次尝试后(甚至在过半的尝试中)都没有发现一些令人惊奇的巧合,观众也就愿意表示理解。

“科学家们”是否会加入这样的无稽之谈呢?遗憾的是,答案是“会”。(有些分析师甚至推测,科学家们因为有能力去迎合一些并未得到证明的假设,甚至可能会特别容易相信超感官知觉或类感觉沟通。)美国心理学会近年的某一任会长在一次演说中发表了一个有关“转矩与精神分裂易发性”的讲话。在这个讲话中,他呈现了一个令人极为震惊的数据,10年前他见过一群孩子并让他们画圈,在52名顺时针画圈的孩子中,有11名后来被诊断为精神分裂症,而在54名逆时针画圈的孩子中,只有1名被诊断为精神分裂症。这个关系达到了“0.01的显著性水平”。他将自己的发现与两个事实联系了起来:其一是“地球是绕着南北轴逆时针旋转的”,另一个则是“除了某些特例之外,这种‘左旋’是生命细胞的特征”。

这个量级的发现(尤其这个发现与地球和生命单位的基本属性有关)显然应该引起心理学界的注意,精神分裂症是美国最普遍的两个心理健康问题之一(另一个是抑郁),这个发现至少有助于我们进一步理解这个问题。在随后的8年中,其他科学家对这篇文章的引用平均为每年3次左右,8年后这篇文章从排行榜上消失。为什么引用量会那么少呢?说不定这个研究者在长达50年的时间里都不受大家重视,直到未来的某一天才被重新挖掘,从而成为精神分裂症现代理论的奠基人。然而,在他的演说中,我们能找到一个更有可能的解释:“本研究的被试是155个孩子,这些孩子都是第一次在我的私人心理诊所接受心理评估。”参加这类评估的孩子们往往会做许多测试,在每个测试中都会对大量的变量进行测量。然后,研究者在他的演说中只报告了这一个测试的研究结果,因而我们有理由推测,他也许已经将大量变量的测试结果与未来精神分裂症诊断的结果进行了简单相关,而他演说中所报告的这个结果只是大约200个结果中的1个。(这里需要强调的是,这种推测是基于笔者对临床实验的了解而得出的,并没有实际看到这位研究者有许多测试。但是我们可以想象以下场景:一个孩子进入一位心理学家的办公室,根据要求画了个圈,然后就得以离开了。)

在这些极为不寻常的研究发现中,我们应该如何评价它们的重要性?最佳答案当然是要确定这个结果是否可以得到重复。有关此类“心灵力量”的重复尝试基本都没有得到什么理想的结果。如果没有预测、控制和重复的可能性,最佳方法就是事先精确地界定假设,界定可能的相关事件及其概念性样本空间(conceptual sample space),随后系统地收集数据(哪怕是奇闻轶事)来描述可能结果的全部空间(entire space)。Persi Diaconis和Fred Mosteller(1989)已制定了这样一个策略,并将其阐述并应用于我们日常的一个实际经验——我们会巧合性地“连锁”遇到新学词语。

只要我们的考察足够仔细,就一定能发现一些东西。毕竟,完全没有任何事情发生的概率确实等于0,并且正如Diaconis和Mosteller(1989)所说:“当大量的事件、人和两者的互动随时间累积,几乎任何令人吃惊的事情都一定会发生”(p.853)。人们采用古典方法和贝叶斯方法来分析和检验统计显著性,解决的都是事先提出的问题(questions asked beforehand)。在评估研究发现、从而做出理性决策的过程中,关键在于确定这些假设到底是事先提出的,还是仅仅是在事后,甚至是从声称发现了它们的人的想象之中提取出来。

参考文献

David, F.N.(1962).Games, gods, and gambling: The origins and history of probability and statistical ideas fromthe earliest times to theNewtonian era.NewYork: Hafner.

Diaconis, P.(1978).Statistical problems in ESP research.Science, 201, 131–136.

Diaconis, P., & Mosteller, F.(1989).Methods for studying coincidences.Journal of the American Statistical Association, 84, 853–861.

Graves, R.(1943).I, Claudius.New York: Penguin.

Lindley, D.V.(2006).Understanding uncertainty.New York: Wiley-Interscience.

Mlodinow, L.(2008).The drunkard’s walk: How randomness rules our lives.New York: Pantheon.

Tversky, A., & Kahneman, D.(1983).Extensional versus intuitive reasoning: The conjunction fallacy in probability judgment.Psychological Bulletin, 90, 293–315.

[1] 卡力古拉,罗马帝国第三任皇帝,父亲是著名的凯撒大帝,卡力古拉被认为是罗马帝国早期的典型暴君,后遇刺身亡。——译者注

  

[2] 克劳狄乌斯,卡力古拉的叔父,原为罗马的执政官,卡力古拉遇刺身亡后被近卫军拥立为罗马帝国第四任皇帝。——译者注

《不确定世界的理性选择:判断与决策心理学(第2版)》