第五章 重复互动中的囚徒困境

利刃出鞘是否能促进世界合作?

自发性、自动回应和反应迅速是情感反应最重要的特征。实际上,在很多情况下,反应敏捷正是情感反应优于深思熟虑之处。看到蛇在草丛中爬行就会本能地闪躲,这让我们免于潜在的危险,远比对形势做认知分析有效。

我们的社会性反应具有快速性和自动性的特点。事实证明,这两点至关重要。本章将说明情感行为如何在理性行为失效的情况下促成合作。吊诡的是,原因正在于其自动性。

我们将重新审视囚徒困境,但这次的重点是参与者在同一种博弈中多次对垒的情况。意即,参与者需要考虑长期的策略谋划。

前一章指出,在单次囚徒困境中,理性、自私的个体不会合作,因为不合作符合所谓的“优势策略”——无论另一名参与者作何选择,这一策略均可确保所得收益更高。接下来,请设想这种博弈连续进行两轮会出现什么情况。在这两轮博弈中,每名参与者每轮均须决定是合作(“分享”)还是不合作(“拿走”)。两轮博弈结束后,参与者所获得的收益总额即为两轮博弈的所得总和。

为了分析该重复博弈中的理性行为,我们首先着重分析一下第二轮博弈。在第二轮,原本的囚徒困境相当于只进行一轮——既然没有下一轮,这一轮的行为就不会受到惩罚或奖励。因此,其策略分析等同于单次囚徒困境的分析。对此,前文得出的结论是,唯一的理性行为就是两名参与者均不合作。

既然已经知道理性的参与者在第二轮中会作何选择,我们即可尝试预测参与者在第一轮博弈中会有何表现。参与者在第一轮的行为对第二轮博弈的所得毫无影响,因此第一轮实际上也相当于单次博弈。在第一轮,参与者也会双双选择不合作。

不难看出,只要两名参与者知道博弈究竟进行多少轮,同样的逻辑就适用于任意轮次的重复博弈,一轮、三轮还是十万轮均无差别。具体而言,若两名参与者知道双方进行的是最后一轮博弈,则无论此前的轮次是何状况,均不存在理性的原因会让他们选择合作。但也由此可见,在倒数第二轮中,他们也不会合作。以此类推。这种推理名为归纳论证,常用于博弈论分析。

须注意,这一论证的前提是,两名参与者在最后一轮选择不合作。但假如参与者不知道什么时候是最后一轮,即便真到了最后一轮也不知情,情况会如何?实际上,人类交往大多都是这种情况。例如,你同普通汽车修理工、公司同事乃至配偶之间的交往,你基本上从不知道未来还会与他们有多少次交集,这理所当然地引出了以下问题:假设参与者不知道重复博弈何时进行到最后一轮,对其理性行为应如何预测?

罗伯特·奥曼解答了这一至关重要的问题,这堪称他对博弈论做出的最重要贡献之一。奥曼利用数学模型,证明了在此种情形下,即便参与者是理性的,合作也可能达成均衡状态,这一模型及奥曼的验算有着奥妙之极的结构。原原本本地对其进行详细解释需对形式数学有较深的造诣,而这超出了本书的范围。因此,姑且让我尝试用较为浅显的语言予以解释。

试想你处于重复进行的囚徒困境中,每一轮过后,你都有99%的概率会再次和同一名对手重新进行同样的博弈,只有1%的概率再也不会见到此人。这一描述有些不切实际——很可能夸大了你在较长时期内与任何人产生交集的次数,但这却有助于描述多数互动的短视思维。因此,这一异议暂且搁置。

我们需要思考一下这种情况下的“策略”为何意。在单次博弈中,策略即指是否合作的决定。在重复博弈中,策略的概念则要复杂得多。实际上,这种策略指的是一长串决定,每次决定的内容就是根据此前轮次的博弈情况选择要采取的行动。以下是这种策略的一个例子:第700轮之前,无论对手怎么选,我都选择合作;从第700轮开始,一旦对手选择不合作,我就会在其后两轮也选不合作,以牙还牙。

如果你觉得这一策略看起来十分复杂,我的回答是,这实际上已经是非常简单的策略了——须注意,我在两句话之内便将其描述完毕。有些策略繁复之极,单是前几轮要写下来,整座国会图书馆的纸(包括卫生间的纸)都找来也不够用。然而,最复杂的策略往往也是最乏味的策略。实际上,本章要描述的两个策略简单明了,却很有意思:

冷酷触发策略。在第一轮,我会选择“分享”,且只要对方也选“分享”,我会一直这样选下去。然而,如果对方在某一轮选了“拿走”(即便对方只选过这一次拿走),这之后的每一轮,我都会一直选“拿走”。

针锋相对策略。每一轮,我的选择都和对手上一轮的选择相同。

两名理性参与者(唯一的目的就是谋求个人的物质利益)如均使用冷酷触发策略,会一直处于双方均选合作(即均选“分享”)的均衡态势。对此的解释相当简单,首先请注意,两名参与者都使用冷酷触发策略的话,他们在第一轮就会选合作。二者知道对方选了合作后,在这一策略的指导下,第二轮会再次双双选择合作,同理第三轮也会选合作,以此类推。每一轮,双方选择合作,每人的总奖金都会增加50%。

只要对方坚持使用冷酷触发策略,两人选择其他任何策略都无法增加所得。诚然,如果一名参与者在某一轮选择“拿走”,而另一名参与者仍然使用冷酷触发策略,则选择“拿走”的参与者本轮可得100美元,比他选择“分享”的所得多50美元。但这样一来,他会触发对方的“惩罚措施”:在其后每一轮中(此后还有许多轮),对方无论如何都会坚定不移地选“拿走”,他每轮都会少拿50美元,而不是多拿50美元。须注意,这种情况下稳定的合作态势之所以能够形成,是因为不合作行为一旦出现,即会立即招来对方的报复,让对方也选择不合作,从而对不合作行为形成有效的震慑。

* * *

在瑞典斯德哥尔摩市发表诺贝尔奖获奖感言时,罗伯特·奥曼谈到了一个博弈论观点,内容与前几章提出的观点大同小异。他甚至断言,这一观点阐述了几乎所有国际冲突的本质,包括巴以冲突。其观点是,为预防流血冲突,人类需利用强硬战略,建立威慑机制,如美国和苏联在冷战时期采取的战略。该观点认为,唯有强大的威慑力才能防止人们在种种诱因之下诉诸武力冲突。

奥曼参加诺贝尔奖颁奖典礼后不久,几名媒体评论员联系了我,请我对此观点做出回应。我认为,虽然奥曼提出的观点奥妙之极,我也找不出哪个人拿诺贝尔奖能比他更实至名归,但这一领域那些天衣无缝的数据计算结果与适用于国际冲突的具体结论之间鲜有直接联系。威慑本身就是一种缺乏稳定性的局势,以此作为维护和平、预防流血冲突的基础并不可靠——任何风吹草动都可能激活“冷酷触发”。虽然理论模型表明,在建立威慑的情况下,合作可构成均衡态势,但一旦均衡态势被打破,和平与合作所仰仗的庞大体系就会轰然倒塌,因为构成威慑力的威胁因素很可能会引发全球规模的灾难(美国和苏联在冷战期间经常相互挑衅威胁。试想一下,假如两国真的言出必行,会发生什么事?)。

仅有威慑力还不够,除了以威胁为基础的威慑政策之外,我们还需构建体系,对双方进行正面诱导,如共同的经济利益可成为国际关系中的另一大稳定因素。与之同理的是,调动个人的积极性,要用恩威并施的措施。

奥曼在诺贝尔奖获奖感言中提出的某些观点招来了某些人的异议,这些人的行为远比我过火。一群以色列左翼分子正式向诺贝尔委员会发出申请,以奥曼的政见和他从科学研究中得出的政治教训为由,要求撤销颁给他的诺贝尔奖。这让我火冒三丈(这可能是非理性的情感反应)。假如对科学的管制不能偏离严格的政治正确路线,行业翘楚获奖与否仅以政见为依据,人类发展会停留在黑暗时代[1],止步不前。

针锋相对策略力度不及冷酷触发策略,但仍然能确保均衡状态的形成。针锋相对策略也会惩罚一方的不合作行为,但在此情况下,对不合作行为的惩罚仅限一轮,比冷酷触发策略的惩罚措施更加宽松。如果不合作者其后一轮重新选择合作,惩罚即告终止,双方会重新回到每轮都相互合作的态势。

事实证明,针锋相对策略会促成合作均衡态势的形成。两名参与者单方面选择不合作,都不会有好处。如果一方在几轮内选择不合作,然后重新选择合作,此后的博弈会重新回到合作路线上,但在此之前,其暂时不合作的行为造成的损失要大于所得。(得出这一结论须稍加计算,但各位愿意的话,可以自己试一试。一方仅有一轮选择不合作,会发生什么状况?他在这一轮的所得为多少?其后的损失又为多少?)

在我们目前所探讨的重复互动中,每一轮过后,双方都认为博弈继续下一轮的概率很高。其他情形会是什么状况?请思考两个具体例子。假设你要在西班牙马拉加市度假一周,假期第一天,你走进一家餐馆,对餐馆的美食赞不绝口,于是决定之后的整个假期,每天都去那里吃饭。你每次在餐馆入座,都是同一名服务生招待你,在这种情况下,你与这名服务生的交往实际上相当于重复6轮的囚徒困境(说6轮是因为假期还剩6天)。

合作,即服务生为你提供周到的服务,而你多付小费予以酬谢,这在这种情形中至关重要。须注意,在假期的每一天——除了最后一天,你都认为再次遇到这名服务生的概率很高。然而,在最后一天,你会认为在可预见的未来再也不会回到这家餐馆的概率很高,因为这是你假期的最后一天,机票早已订妥,第二天就得重新上班了。

冷酷触发策略能确保假期每一天都形成合作均衡吗?显然不能(此处仍然采取理性思维,唯一目的仅为从自私角度出发,最大程度地优化自己的物质条件)。即便服务生以为你会在这个城市长住,归期未定,也不可能确保你假期的每一天都能维持合作状态。原因很简单,在假期最后一天,(从自私角度来讲)你毫无理由付小费给服务生。你第二天回到同一家餐馆的概率微乎其微(航班可能会取消,所以我们姑且可以假设,这种概率虽然很低,但也不是不存在)。由此可见,如果你没有付小费就扬长而去,服务生在将来能以服务不周的方式惩罚你的概率微乎其微。

如果这名服务生足够理性、聪明且“自私而现实”,他会明白,即便他的服务无微不至,也总有一天你会不给小费就离开餐馆。仅这一点,或许就可以让他失去必须每天都待你周到的动力:

他明白无误地知道,总有一天没有小费可拿,只是不知道这一天究竟什么时候到来。

这样描述马拉加的度假者与本地服务生之间的奇特关系,或许看起来有些夸大其词,但实际上,这种情况的出现频率或许远高于各位的认知。众所周知,人们在经常光顾的本地餐馆所付的小费往往要多于偶然发现且以后不大可能再度光顾的外国餐馆,以本地居民为常客的餐馆所提供的服务也往往要优于敲游客竹杠的地方。

尽管如此,我们仍然经常付小费,即便付小费不会为我们带来任何实惠。我们为何要这样做?我们为何没有见缝插针地自私而为,抓住每一次利用“最后一天效应”的机会?(实际上,有人喜欢在假期最后一天多给小费,以对几天来享受到的周到服务表示感谢。)

不足为奇的是,答案在于我们的情感。请记住,在现实世界中,我们反反复复、不止一次地经历类似囚徒困境的情形。为了便于理解这一观点,请容许我介绍一下自动机的概念。

计算机科学家发明了自动机,但这一概念却广泛用于经济学和博弈论的诸多模型。我对其研究的绵薄贡献是,我认为尽管自动机指的是机器,情感也可以说是利用了自动机的原理。

自动机的定义由(且仅由)以下部分组成:

1.一组状态。

2.一组行为。

3.结果函数:通过指定的一对状态与行为生成一种新的状态。

4.行为函数:将每种状态与行为进行匹配。

5.初始状态。

可复印一百张的复印机就是自动机的一个绝佳例子。

其状态组包括从0到100的所有整数(即101种状态)。

其行为组包括两种行为,即“复印”和“停止”。

其结果函数接受任意状态x(从0到100),如行为为“复印”,则返回状态x+1。如行为为“停止”,函数则返回状态x,即状态不变。

如状态小于100,则其行为函数返回“复印”,状态为100,则返回“停止”。

其初始状态为0。

可见,从定义方式来看,自动机从状态0开始,再到状态1,其后是状态2,以此类推。在每种状态下,自动机都会复印一份文件,直到状态100为止。(如果这样描述让你想起了计算机程序,这样想是很有道理的,自动机本质上就是简单的计算机程序。)

你或许以为自动机(和计算机)与情感动物截然相反,但二者至少有一点是相似的:如条件已知,二者皆可预测。如果我对所处情况会做出情感反应,且受到侮辱就会拔出刀子,则可以说我的行为仅使用两种状态:(1)我受到了侮辱;(2)我没有受到侮辱。在(且仅在)我受到侮辱的情况下,我的行为函数会让我拔出刀子。实际上,我就是一台自动机,甚至算不上是多复杂的自动机。

相反,假如我是个完全理性的人,我的行为会变得更为复杂。仅仅是受到侮辱或许并不足以让我拔出刀子。或许只有在我受到侮辱且相信侮辱我的人事后无法在法庭上证明我确实对他拔刀相向过的情况下,我才会这么做。无法证明我有用刀情形这种次级情况,本身又可以分为许多其他次级情况(都有谁在场且可以做证,是否有监控录像可成为庭审证据等)。可见,描述理性之人的行为需用到多种状态,数量远多于描述感性之人的行为所需的状态。因此,用自动机为理性行为建立模型的难度也要大得多。(请记住,情感利于建立承诺——在受到侮辱或感到愤怒的情况下,对是否有刑事证人在场这种细节,我们理会的可能性较低。)

因此,理性反应与情感反应的关键区别在于,后者受条件的影响较少。这并不是说感性之人对侮辱行为做出的回应一成不变,而是说理性之人的反应受事件条件的影响较多。(与之相通的一点是,理性思考与较高程度的自制力有关。)

情感“自动机”的说法听起来较为贴近现实生活,不是吗?对上文的“拔刀子”例子,你或许会感到有些费解。毕竟,拔刀相向不可能促成有益的合作。非也,导致拔刀相向的情感行为是促成合作的积极因素。更加确切且不事夸张地说,可以这样解释:适度的报复行为可以成为促成合作的积极因素。优柔寡断、心慈手软的情感行为不会促成合作,而且会导致各谋其利,因为在任何行为都会得到宽恕的世界里,人人都存在损人利己的动机。

假设你以如下的自动机状态参与博弈:

1.代表你情感状态的状态组:要么愤怒,要么平静。

2.行为组则为“合作”或“不合作”。

3.结果函数接受前一轮的对手所选择的行为,并确定你在本轮的状态:如对手选择“合作”,你本轮则处于平静状态;如对手选择“不合作”,你本轮则处于愤怒状态。

4.行为函数参考你的状态,按如下方式确定你选择的行为:处于平静状态则选择“合作”,处于愤怒状态则选择“不合作”。

5.你的初始状态是“平静”。

如果两名参与者均处于上述的自动机状态,他们无疑肯定会在每一轮博弈中都选择合作。这是因为,二者最初均处于平静状态,因此都会选择合作,进而继续保持平静状态。以此类推,二者永远不会进入愤怒状态。

我们需要确定一名参与者若以不同的自动机状态行事,是否能增加所得(假设其对手仍处于上述自动机状态)。例如,我们可以假设一名参与者无论发生何事,永远处于愤怒状态,或永远处于平静状态。

要想增加所得,即便是一时的所得,“偏离”这一模式的参与者均至少有一轮选择“不合作”,从而得到200美元,而非150美元(因对手会选择“合作”)。但这一行为却会对其后几轮博弈产生影响。这名偏离者选择“不合作”之后,其对手会处于愤怒状态,从而在下一轮选择“不合作”。如果偏离者在这一轮选择“合作”,其所得即为0美元,而非150美元。因此,其损失要大于偏离一次的所得。如继续选择“不合作”,在其后几轮,偏离者每次这样选都会损失100美元(相对于他一直选“合作”的所得)。

偏离者增加所得的唯一机会就是其行为对未来毫无影响的情况,即博弈中不存在未来的情况,也即博弈的最后一轮。但如果偏离者是只有两个状态的自动机,其状态完全取决于对手的行为(意即他会表现出情感行为),其行为就不取决于博弈进行到了哪一轮。我们的结论是,感性的参与者若行为方式有异于上述自动机状态,所得总额不会增加。由此可见,合作可在每一轮形成均衡状态。

这里的有趣之处在于,在此情况下,两名感性参与者在均衡状态下每人的所得都要多于两名理性参与者在同类博弈中的所得。从这个角度看,在重复的囚徒困境博弈中,即便双方明确知道博弈会进行多少轮,情感行为也更有利于保持合作状态。

接下来回到西班牙服务生与你为什么给他小费的话题上来。在你与服务生的交往中,你们两人的行为方式均类似只有两个行为选项的自动机:对你来说,是“给小费”和“不给小费”;对服务生来说,则是“服务周到”和“服务不周”。每一天,你们每人均由以下情感状态之一所控制:“愤怒”和“高兴”。状态则取决于对方的近期行为。你得到周到的服务就会高兴,服务生则是得到小费才会高兴。最后,高兴的状态会让你给小费,让服务生提供周到的服务。这一切表明,在这种互动方式下,日期(即是否假期为最后一天)毫无影响。你和服务生只是自动机而已,模式单一,无法将日期计算在内。如果你也像我们许多人一样,是情感自动机,你会按照当天的服务质量给小费,而他会按照你上一次就餐留下的小费数额,为你提供相应质量的服务。当天是你在西班牙的最后一天这一点并无影响,你只会惩罚服务不周的行为。

如果你觉得这一说法有辱于你,大可不必。你的神志和智力正常,知道当天日期,也知道那是不是你在西班牙度假的最后一天,但你的情感状态阻止你将这一信息与是否给小费的决定联系起来。

假如你们中的一人——比如你自己——是个完全理性(且自私)的人,而对方如上所述是个情感自动机,情况会如何?你仍然会每天都给服务生小费,唯有最后一天例外。不给小费,第二天你就会得到不周到的服务,但第二天你人已经不在了。但假如你们两人都是完全理性的人,服务生会料想到你在最后一天不会给小费,因此本来就会服务不周。如前文所述,在囚徒困境的状况下,你们的合作行为注定会失败。在整个假期的每一天,你都不会给小费,也只能得到恶劣的服务。

本章所有分析所得出的主要实用启示相当出人意料:有利于合作形成并最终让双方从交往中得益而归的,是简单明了的模式,而非深奥玄妙的机制。

[1]黑暗时代,指欧洲中世纪前期。——译者注

《狡猾的情感:为何愤怒、嫉妒、偏见让我们的决策更理性》