Chapter 2 第二章 纳什均衡

可以说,纳什均衡是博弈的解,也是博弈论的核心。在本章中,我将通过具体案例来为大家详细讲解纳什均衡。博弈论中的经典模型——“男女博弈”也将在本章中登场。

每个局中人的策略都是对其他局中人策略的最优反应

~什么是纳什均衡?①~

著名数学家约翰·纳什曾为博弈提出了一种解决方法。在博弈论中,局中人都想为自己赢得最好的收益而采取适当的策略。纳什将局中人的这种基本行为规则称为“最优反应”。而让每个局中人选择的策略都是最优反应的一套策略组合,就是这个博弈的解。这个解处于一种均衡的状态,非常稳定。如果有局中人打破这种均衡,选择其他策略,那么他的收益注定会减少,因此他不愿意打破这种均衡的状态。这种均衡的状态就被命名为“纳什均衡”。简单地说,纳什均衡就是所有局中人都对自己选择的策略感到满意,对于得到的结果也不会后悔。

我们来看一个简单的博弈例题。假设有一对兄弟,祖父想给他们总计100万日元的财产。但是有一个规则,需要兄弟二人同时报出一个自己想要的金额,这个金额必须在0~100万之间,而且以1万为最小单位。如果二人报出的数字相加不高于100万,那么他们可以得到与自己所报数字相同的财产。但如果兄弟二人所报数字之和高于100万,则两个人一分钱也得不到。

我们肯定会想,兄弟二人每人报50万,应该没什么问题。两人申报的数额相加正好等于100万,祖父就会按照事先的约定,给他们每人50万日元。这种状态就是纳什均衡,即不管哥哥还是弟弟,都会对自己的策略和收益感到满意。

但是,如果哥哥生性贪婪,爱占弟弟便宜,从小到大,不管什么都要得到弟弟的两倍才肯罢休,那结果又会如何呢?假设弟弟非常了解哥哥的霸道性格,因此他知道,如果自己报50万,结果很可能两个人一分钱都得不到。知道哥哥肯定会报双倍于自己的数额,那么弟弟为了获得最大收益的最优反应就是报33万。

这样一来,弟弟报的数额是33万,哥哥报的是67万,比弟弟的两倍还多一点儿。结果,二人所报数额相加等于100万,两人分别得到33万和67万,两人都满意,这也是纳什均衡。但是,如果弟弟报的是33万,而哥哥这次良心发现,只报了50万。结果,两人合计83万,低于100万。虽然最终各自拿到了相应数额的财产,但两人肯定都会后悔。哥哥心想,我再多报17万就好了。而弟弟心想,我报50万就好了。因此,弟弟报33万,哥哥报50万,就不算纳什均衡。

可以说,纳什均衡是一种对手的收益不会减少、自己的收益不会增加,谁也无法单独改变策略的状态。在纳什均衡中,假定局中人之间不会相互合作,对方的行动也无法改变。就像两个数相加得100万,我们可以列出很多种组合方式一样,人所参与的博弈也不一定只有一种纳什均衡。某些情况下,同一个博弈会有多个纳什均衡。

~什么是纳什均衡?②~

现在我们以第一章中的例题1-2“评价成绩博弈”为例,解说一下纳什均衡的求法。在例题1-2的博弈中,不管对方采取什么样的策略,自己的最优反应是选择“α”(表1-13),即策略“α”强支配着策略“β”。另外,对方的最优反应也是不管我们采取什么样的策略都选择“α”(表1-21)。

我们将这两个收益表综合到一起,结果发现,有一个单元中没有任何收益,用红线勾掉了。这个单元相对应的策略,便是局中人相互采取的最优反应的策略组合。而这个策略组合,也就是纳什均衡(表1-22)。

纳什均衡是指博弈中的所有局中人都采取了最优策略,没有更好的策略可选,从而达到了一种稳定的状态。实现这种稳定状态的策略组合就是纳什均衡。只要对方选择“α”,我们也只能选择“α”,因为我们选择“β”的话,收益就下降了。同样的道理,只要我们选择“α”,对方也不能改变策略,只能选择“α”。这就是一种均衡状态。

不过,虽说纳什均衡是指博弈中的所有局中人都做出了最优反应,但并不等于所有局中人一定都能获得该博弈中的最高收益。在例题1-2的博弈中,最高成绩是A,但两名局中人不可能同时获得A。

约会的时候,需要迎合对方的行为和感受吗?

~男女博弈/纳什均衡①~

我们再来看一道纳什均衡的例题。相信有不少年轻的情侣一到周末就会为一件事情发愁,那就是“去哪里约会比较好”。在选择约会地点、约会方式的时候,是该迎合对方的喜好,还是自作主张呢?如果你觉得分手也无所谓,那当然可以按照自己的喜好做决定。但是,如果你很珍惜这段感情,希望双方都能度过一个愉快的周末,那到底该怎么决定约会的地点和方式呢?

◎例题2-1男女博弈

假设有一对刚开始交往不久的情侣,男的叫猴太郎,女的叫猴美。有一天,他们讨论起周末的约会计划。猴太郎喜欢足球,他想利用周末去看足球比赛。猴美喜欢看爱情电影,正值一部新片上映,她想去看电影。两人的兴趣存在差异,如果各行其是的话,就会浪费美好的周末约会时间,这是两人不想看到的结果。如果两人一起去看足球比赛,猴太郎是高兴了,猴美就不太开心了。反之,如果两人都去看爱情电影,猴美很欢喜,但猴太郎就有点儿不乐意了。那么,到底该选择什么样的约会方式呢?让我们从博弈论的角度来分析一下这个问题,希望找到对双方来说都是最好的选择。

局中人:猴太郎和猴美

策略:“看足球比赛”和“看电影”

收益:如果各行其是的话,双方都不开心,所以两人的收益都为0;如果两人都去看足球比赛,猴太郎的收益是10,但猴美的收益只有3;如果两人都去看电影,猴美的收益是10,但猴太郎的收益只有3。

~男女博弈/纳什均衡②~

在这道例题中,我们首先来确认一下是否存在支配性策略。根据对手的策略,我们将自己不是最优反应的策略(收益较小的一方)用横线勾掉。

当猴美选择看足球比赛时,猴太郎的最优反应是看足球比赛,看电影就不是最优反应。于是,我们用横线将看电影的收益勾掉。当猴美选择看电影时,猴太郎的最优反应是看电影,看足球比赛就不是最优反应,因此用横线将看足球比赛的收益勾掉。

同样,当猴太郎选择看足球比赛时,猴美的最优反应是看足球比赛,看电影就不是最优反应。于是,用横线将看电影的收益勾掉。当猴太郎选择看电影时,猴美的最优反应也是看电影,此时看足球比赛就不是猴美的最优反应,因此用横线将看足球比赛的收益勾掉。

在这个博弈中,不管对方采取什么样的策略,让自己收益较高或相等的策略是不存在的。也就是说,这个博弈中没有支配性策略。

虽然没有支配性策略,但是在猴太郎和猴美的收益表中,都存在没被横线勾掉的单元。这样的单元就是最优的状态、最稳定的状态,也就是纳什均衡。

注:①日语中“纳什均衡”的发音与“冲向银行”相近。

~男女博弈/纳什均衡③~

在一个博弈中,如果存在纳什均衡,那么纳什均衡就是这个博弈的解。

在前面的例题中,纳什均衡就是:

“猴太郎和猴美一起去看足球比赛”或者“猴太郎和猴美一起去看电影”。

在这个博弈中,存在两个纳什均衡。

也就是说,只要两个人在一起感到很开心,约会中就应该迎合对方的感受。至于到底该选择哪种纳什均衡,用理论是无法说清的。

在前面的例题中,我把迎合对方感受的收益设定为“3”,但是在现实世界中,这个收益数字肯定因人而异。根据自己的情况,迎合对方时,选择自己收益比较大的一方,就是不错的策略。

此外,如果把博弈的形式稍加改变,我们还能看到不同的情况。比如,前面例题中的博弈是静态博弈,如果将其改为动态博弈的话,对于对方先选择的策略,我们就不得不去迎合了。

因此,先说出自己想去的地方和约会方式,往往对自己更为有利,这就是所谓的“先下手为强”嘛。但是有一点要注意,如果总是自己先选约会方式,让对方来迎合自己,时间长了可能会遭到对方的反感(提高了“各行其是”的收益值)哟。

卖大码服装的店铺的营销策略

~从纳什均衡看店铺的营销策略~

一般来说,服装店的每款衣服都会准备S~XL尺码的库存,以供顾客选择。但是,再大的尺码通常不会准备,因为身材特殊,买大码服装的顾客并不多。服装店和求购大码服装的顾客之间也存在一种博弈关系,让我们根据纳什均衡的原理,来看看卖大码服装的店铺的营销策略。

下一页的表2-2,就是服装店和求购大码服装顾客的收益表。

如果服装店准备了大码服装,有这方面需求的顾客又来到店里购买,结果服装店的销售额增加,收益得分为10,顾客也买到了满意的服装,收益得分也为10。如果服装店没有大码服装的库存,有这方面需求的顾客也不来店里选购,那么双方的收益得分都是0。如果服装店准备了大码服装,而顾客不来购买,那么服装店就有库存积压,占用了资金,收益得分为-50。另一方面,顾客不来店里,顾客自身没有受到影响,收益得分为0。如果服装店没有准备大码服装,但有顾客来求购,顾客不但没买到需要的服装,还暴露了自己身材的弱点,因而感到羞愧,收益得分是-5。另一方面,服装店没法满足顾客的需求,声誉受到影响,收益得分为-5。

我们先来分析一下各个局中人的最优反应,并用横线把收益较小的一方勾掉。结果我们可以发现,在这个博弈中有两个纳什均衡。分别是“服装店准备了大码服装,而顾客也会前来选购”以及“服装店没有准备大码服装,而顾客也不会来选购”。

到底该选择哪一种纳什均衡,理论上是没办法说清楚的。本来,这两种均衡状态是很稳定的,难分伯仲,但是只要打一则广告,我们就容易选择了。广告内容很简单,一句“本店有大码服装销售”就能起到宣传效果。这样一来,我们就可以选择“服装店准备了大码服装,而顾客也会前来选购”的纳什均衡了。在日常生活中,我们经常能在店面看见类似的广告,可以说这就是卖大码服装的店铺正确的营销策略。

邻里纠纷是如何恶化升级的?

~改变博弈,减少纳什均衡①~

在前一小节的博弈中,存在两个纳什均衡,即“希望看到的纳什均衡”(服装店和顾客都满意)和“不希望看到的纳什均衡”(服装店和顾客的收益都是0)。不过,只要加入一个策略(做广告),就可以选择“希望看到的纳什均衡”。其实,类似的问题在现实生活中很多,我们就再来举个例子。

邻里纠纷是生活中一个让人头疼的问题。刚搬来的时候,可能邻里之间还很客气。但随着时间的流逝,生活中难免发生磕磕碰碰,心理上也慢慢出现隔阂。最后,为了一点儿鸡毛蒜皮的小事也能吵个不停。在日常生活中,只要人与人接触,就会发生各种矛盾。我们来举个例子,猴太郎和猴吉就是一对“冤家邻居”,经常为电视声音大了、花盆摆过界了之类的小事吵个不停。其实一开始,两人都想和对方搞好关系,但没想到随着生活中不断出现矛盾,两人渐行渐远。这也是一个博弈,那么二人到底是该放下架子,互敬互让,还是将强硬的态度坚持到底?哪个策略收益更大呢?让我们用博弈论的思维方法来分析一下。

首先来计算一下双方的收益。如果猴太郎选择对邻居亲切,而猴吉也是如此,双方的关系良好,都受益,那么双方收益得分都是10。如果猴太郎选择亲切,猴吉坚持强硬,那么猴太郎的心情肯定不好,收益得分为-5。另一方面,猴吉一时占了上风,收益得分为5。反过来,猴太郎强硬,收益得分为5;猴吉亲切,但受气,收益得分为-5。如果双方都选择强硬,实际上出气和受气两相抵消,各自的收益得分都是0。

下面的表2-3,就是这个博弈的收益表。我们从这个表中寻找猴太郎和猴吉的最优反应。结果可以看出,也存在两个纳什均衡。一个是两人都亲切地对待对方,另一个是两人都强硬到底。如果对方对自己亲切,自己也报以亲切的态度;如果对方强硬,自己也强硬,这就是稳定的均衡状态。

~改变博弈,减少纳什均衡②~

前面列举的博弈中,如果一方选择强硬,那么另一方也要选择强硬,这样才能达到合理的稳定状态。如果对方对自己强硬,而自己依然表现出亲切态度的话,自己就会受气,收益减少。

下面,我们把博弈中的收益设定稍微改变一下。假设猴太郎看到猴吉受气的样子,心里感觉非常爽,比亲切对待猴吉时猴吉也报以亲切态度的感觉还要爽。那么,猴太郎对猴吉采取强硬态度的收益得分就要高于亲切对待猴吉时的得分。假设在这种情况下,猴太郎的收益得分是15。那么,收益表就变成了表2-4的样子。这样一来,纳什均衡就只有一个了,即双方都采取强硬态度的状况。

也就是说,当任何一方采取强硬态度比采取亲切态度的收益得分更高时,那么纳什均衡就只剩下一个了——两人都采取强硬态度。这也是为什么邻里矛盾容易恶化升级的原因所在。

那么,我们该如何从邻里矛盾的泥沼中挣脱出来呢?在矛盾爆发的初期,是该心平气和地找邻居谈一谈(双方都采取亲切态度),还是学会调节心情,即使受了气也不放在心上,让自己的收益得分高于0(比双方都采取强硬态度的收益得分高一点儿)呢?如果学会调节自己的心情,这个博弈中就出现了支配性策略(表2-5)。从表中我们可以看出,强硬态度是不可取的选择。此时的纳什均衡只有一个,即双方都采取亲切态度。由此可见,博弈论告诉我们,通过改变收益得分,可以让整个博弈发生变化。

石头剪刀布(猜拳)有必胜的方法吗?

~为不存在纳什均衡的博弈求解~

前面我们已经讲过,在存在支配性策略的博弈中,就选支配性策略。在没有支配性策略的博弈中,先分析局中人的最优反应。如果存在纳什均衡的话,纳什均衡就是这个博弈的解。不过,所有博弈都存在纳什均衡吗?答案是否定的,也有些博弈并不存在纳什均衡。那么,遇到这样的博弈,我们该怎么办呢?

我们身边最常见的“石头剪刀布”的游戏,就是没有纳什均衡的博弈的典型代表。我们先来做一张石头剪刀布的收益表。表2-6是两个人玩石头剪刀布游戏时的收益表。方便起见,我们把游戏中获胜的收益设定为1,那么输了的收益为-1,平局的收益为0。我们来仔细分析一下这张收益表。聪明的你可能已经发现了,每个小格中,“自己的策略”和“对方的策略”的得分相加都是0。简单地说,自己的收益就是对方的损失,自己的损失也正是对方的收益,彼此可以相互抵消。这种博弈称为“零和博弈”。

在寻找最优反应的过程中,我们要在三种策略中,将收益较小的两种用横线勾掉。结果我们会发现,找不到没有划横线的小格。于是我们可以知道,在石头剪刀布这个博弈中,不存在纳什均衡。对方出石头,自己出布;对方出布,自己出剪刀;对方出剪刀,自己出石头,这样我们可以获得较高的收益。但是,关键在于我们事先并不知道对方会出什么。

在这个博弈中,如果一直只出剪刀,或者石头和布交替出,对方就容易解读出我们的策略,从而轻易打败我们。石头、剪刀、布这三种策略,从原则上说,应该随机出比较好。从概率学的角度来说,每种策略的使用概率应该为33.3%。有的国家每年都会举行石头剪刀布大赛,在这样的比赛中,一直只出一种手势的话,很快就会被淘汰出局。所以,要问石头剪刀布中哪一种手势更容易获胜,答案是不存在的。

将各种策略混合起来出,叫作“混合策略”。而以前我们讲的全部都是“纯策略”。纯策略是一种最优的策略,是实行概率为100%的策略。

第二章 总结

◎所谓纳什均衡,就是博弈中的所有局中人都对自己的策略感到满意,不会后悔。

◎纳什均衡是每个局中人的最优反应,但是,纳什均衡并不一定让每个局中人都获得最高收益。

◎有时,一个博弈中存在多个纳什均衡。如果想实施自己希望的纳什均衡,可能还需要采取一些额外的策略。

◎在石头剪刀布的游戏中,没有任何一种手势可以连续获得胜利。

《石头剪刀布博弈心理学》