囚徒窘境是博弈论的非零和博弈中具代表性的例子,反应个人最佳选择并不是团体最佳选择。尽管窘境自身只属模型性质,但现实中的单价竞争、环境保护等方面,也会频繁显现相似情形。
简介
单次发生的囚徒窘境,和多次重复的囚徒窘境结果不会一样。在重复的囚徒窘境中,博弈被反复地执行。因此每个参与者都有机会去“惩罚”其他参与者前一回合的不合作举动。这时,合作或许会作为均衡的结果显现。欺骗的动机这时或许被承受惩罚的威胁所克服,进而或许导向一个较好的、合作的结果。作为反复靠近无限的数量,纳什均衡趋向于帕累托最优。
囚徒窘境的主旨为,囚徒们尽管彼此合作,坚不吐实,可为全体导致最佳利益(无罪开释),但在讯息不明的情形下,由于出卖同伙可为自己导致利益(缩短刑期),也由于同伙把自己招出来可为他导致利益,所以彼此出卖虽违背最佳共同利益,反而是自己最大利益所在。但事实上,执法机构不或许设立这样情境来诱使所有囚徒招供,由于囚徒们务必考虑刑期以外之原因(出卖同伙会承受报复等),而无法完全以执法者所设立之利益(刑期)作考量。
经典
1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出有关窘境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名叫“囚徒窘境”。经典的囚徒窘境如下:
警方逮捕甲、乙两位嫌疑犯,但没有充足证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方供应下方相同的选择:
若一人认罪并作证检控对方(有关术语称“背叛”对方),而对方维持沉默,此人将即时获释,沉默者将判监10年。若二人都维持沉默(有关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格简述如下:
甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年
乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年
解说
如同博弈论的其余例证,囚徒窘境假定每个参与者(即“囚徒”)均为利己的,即都谋求最大本身利益,而不关心另一参与者的利益。参与者某一策略所得利益,假使在任何情形下都比其余策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。此外,没有任何其余力量干预个人决策,参与者可完全依照自己意向选择策略。囚徒见底应当选择哪一项策略,才可将自己个人的刑期缩至最短?两位囚徒受于隔绝监禁,并没有知道对方选择;而即便他们能交谈,依旧未必能够尽信对方不会反口。就个人的理性选择来说,检举背叛对方所得刑期,总比沉默要来得低。试设想窘境中两位理性囚徒会如何做出选择:若对方沉默、背叛会使我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才可得到较低的刑期,所以也是会选择背叛。二人面对的情形一样,所以二人的理性思考全将得出相同的结论——选择背叛。背叛是两种策略当中的支配性策略。所以,这场博弈中唯一或许高达的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优处理方案。以全体利益来说,假使两个参与者都合作维持沉默,两人都只会被判刑半年,总的利益更高,结果也比两人背叛对方、判刑2年的情形较佳。但依据以上如果,二人都是理性的个人,且只追求自己个人利益。均衡情况将是两个囚徒都选择背叛,结果二人判决均比合作为高,总的利益较合作为低。这就是“窘境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相矛盾的。
一般形式
整理囚徒窘境的基本博弈结构,可更清楚地分析囚徒窘境。实验经济学常用该种博弈的一般形式分析各种论题。下方是达到一般形式的其中一例:有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下消除了参与者知道对方选择的机会性1。然后,庄家翻开两个参与者卡片,依据下方规则支付利益:
一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
二人都合作:各得3分(合作报酬)。
二人都背叛:各得1分(背叛惩罚)。
用支付矩阵表格展示支付如下(以红和蓝分别表明二参与者)
一般形式囚徒窘境的支付矩阵 合作 背叛
合作 3, 3 0, 5
背叛 5, 0 1, 1
以“T、R、P、S”符号表明 合作 背叛
合作 R, R S, T
背叛 T, S P, P
以“胜-负”术语表明 合作 背叛
合作 胜-胜 大负-大胜
背叛 大胜-大负 负-负
简单博弈得到的点数可以得出一部分一般化的结论。
T、R、P、S符号表
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分来说,可得出下方不等式。
T>R>P>S
(解:从5>3>1>0得到以上不等式)
若以整体获分来说,将得出下方不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体来说是支配性策略。)
而重复博弈或重复的囚徒窘境将令使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离窘境。 以上理论是道格拉斯·霍夫施塔特创建的。
现实的例子
现实中,无论是人类社会或大自然都可以寻到相似囚徒窘境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒窘境分析,模拟生物面对无止境的囚徒窘境博弈。囚徒窘境可以广为运用,表明该种博弈的重要性。下方为各界例子:
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒窘境来描述。两国都可以声称有两种选择:增长军备(背叛)、或是促成缩减武器协议(合作)。两国都无法肯定对方会遵守协议,所以两国最终会倾向增长军备。疑似自相冲突的是,尽管增长军备将是两国的“理性”举动,但结果却显得“非理性”(比如将对经济产生都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以高达和平。
经济学例子:关税战
两个国家,在关税上可以有以两个选择:
提升关税,以保护自己的商品。(背叛)
与对方促成关税协定,减弱关税以利各自商品流通。(合作)
当一国因某些原因不遵守关税协定,独自提升关税(背叛),另一国也会做出同样反映(亦背叛),这就导致了关税战,两国的商品失去了对方的市场,对自身经济也产生损害(共同背叛的结果)。然后二国又从新促成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会显现各种囚徒窘境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同期期发出质量相似的广告,收入增长很少但成本增长。但若不提升广告质量,生意又会被对方夺走。
此二公司可以有二选择:
互相促成协议,降低广告的支出。(合作)
增长广告支出,设法提高广告的质量,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛形成支配性策略时,二公司将深陷广告战,而广告成本的增长损害了二公司的收益,这就是深陷囚徒窘境。在现实中,要二互相竞争的公司促成合作协议是较为问题的,多数全将深陷囚徒窘境中。
自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒窘境的研究成果解释。比如每年都举行的环法自由车赛中有下方情形:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。一般会发生如此的情形,大家起先都不愿意愿前(共同背叛),这致使全体速度很慢,而后一般会有二或多位选手骑到前面,然后一段时期内互相交换最前方位置,以分担风的压力(共同合作),致使全体的进展有所提高,而这时假使前方的其中一人尝试一直维持前方位置(背叛),其余选手以及大队伍就会赶上(共同背叛)。而一般的情形是,在最前面次数最多的选手(合作)一般会到最后被落后的选手赶上(背叛),由于后面的选手骑在前面选手的冲流当中,比较不费力。
有关事件
异想
威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来看明囚徒窘境。在新西兰,报亭即无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。诚然某些人或许取走报纸却不付钱(背叛),但受于大家认识到假使每个人都偷窃报纸(共同背叛)会产生以后不方便的有害结果,该种情形很少发生。这例子特别之处是新西兰人并没有被任何其余原因影响而能脱离囚徒窘境。并没有任何人特别去注意报亭,民众守规则是为了避免共同背叛导致的恶果。该种避免囚徒窘境的大家共同的推理或想法被称为“异想(magical thinking)”。
“认罪减刑”不可行
囚徒窘境的结论是很多国家里认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒窘境导致的结论是:假使有二个罪犯,其中一人犯罪而此外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情形是,假使他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而许多。
公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒窘境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,比如渔业,公海中的鱼是属于公共的,而在自身不滥捕其余人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态损坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒窘境的提法有待商榷,由于其总是值得被分解为一组组经典的二方囚徒窘境。就是说只有二方的囚徒窘境,没有多方的。所谓多方的囚徒窘境导致由多个二方囚徒窘境混杂在一起而形成的错觉。
重复的囚徒窘境
罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒窘境情景的一个扩展,并把它称作“重复的囚徒窘境”(IPD)。在这个博弈中,参与者务必反复地选择他们彼此有关的策略,而且记住他们以前的对抗。阿克塞尔罗德邀请全球的学术同行来设计计算机策略,并在一个重复囚徒窘境竞赛中互相竞争。参赛的程序的差异普遍地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来分析,最终“贪婪”策略趋向于降低,而比较“利他”策略许多地被采取。他用这个博弈来看明,通过自然选择,一种利他举动的机制或许从最初纯粹的自私机制进化而来。
最佳确定性策略被觉得是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,而且赢得了比赛。这个策略只然而是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小几率(大概是1%~5%)时而合作一下。这是顾虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这代表着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。通过分析高分策略,阿克塞尔罗德指定了策略得到成功的几个必要条件。
友善
最重要的条件是策略务必“友善”,这就是说,不要在对手背叛以前先背叛。差不多所有的高分策略均为友善的。所以,完全自私的策略仅仅出于自私的原因,也永远不会首先冲击其对手。
报复
但是,阿克斯洛德力争,成功的策略务必不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,由于“下流”策略将残酷地剥削如此的傻瓜。
宽恕
成功策略的其他品质是务必要宽恕。尽管它们不报复,但是假使对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期执行,最大化了得分点数。
不嫉妒最后一个品质是不嫉妒,就是说不去争获得到好于对手的分数(对于“友善”的策略来看这也是不或许的,也就是说“友善”的策略永远无法得到好于对手的分数)。
所以,阿克塞尔罗德得到一种给人以乌托邦印象的结论,觉得自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德有关重复囚徒窘境的研究的重要结论之一,是友善的家伙能先完成交易。
从新考虑经典的囚徒窘境一节中给定的军备竞赛模型:结论是,导致理性策略增进了军事力量,疑似两个国家都宁可花费其国内生产总值在枪炮并非是黄油上。有趣的是,企图表明对抗国家事实上以该种方式(在“重复囚徒窘境假定”下的不同期期,军费开支在“高”和“低”之间反复)竞赛的试图,却经常显示假定的军备竞赛并没有如预想的那样显现。(比如希腊人和土耳其人的军费开支,看来并没有像遵循“以牙还牙”的重复囚徒窘境式的军备竞赛,却更或许是被其国内的政策所驱使。)这或许是一次性博弈和重复性博弈中的理性举动不同的例子。
对一次性囚徒窘境博弈来看,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动或许是什么,这均为真实的。但是,在重复的囚徒窘境博弈中,最佳策略依靠于或许的对手的策略,和他们怎样对背叛和合作做出反映。比如,考虑如此一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处在一种轻微的不利地位,由于第一回合的损失。在如此的人群中,对这个人来看最佳策略就是每次都背叛。在一个有适当的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来看的最佳策略依靠于这个百分比和博弈的长度。
一般有两种方法得到最佳策略:
贝叶斯纳什均衡:假使对抗策略的统计分布能被确定(比如,50%以牙还牙,50%一直合作),就能从数学上得到最佳的相对策略。
已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种得到最佳策略的天才算法)。决赛人群中的算法合成一般依靠于初赛人群中的算法合成。即使以牙还牙始终被觉得是最牢靠的基本策略,但是在重复囚徒窘境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)领导,包含了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依靠于程序之间的合作,为单一程序中得到了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被做出,一个程序将总是合作,其余程序则总是背叛,保证背叛者得到最大的点数。假使程序识别出它在操作一个非南安普敦参与者,这程序将连续地背叛,企图去最小化竞争程序的得分。结果,这个策略以得到前3名终结了竞赛,也得到了大批靠近底部的位置。尽管这个策略明显地证明了比以牙还牙有效,但是这是由于利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙的确是更好的策略。
假使重复囚徒窘境将被精确地重复N次,已知N是一个常数,那么会造成其他有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。所以,你们全会在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手全会背叛。依此类推。为了合作以维持请求,这时将来务必对两个参与者来看是不确定的。一个处理方案是让博弈总次数N变成随机的。对将来的预期务必是无法确定的长度。
其他单独的案例是“永不停止”的囚徒窘境。这个博弈被重复很多次,而且你的分数是一个平均数(诚然是用计算机计算的)。
囚徒窘境博弈是某些人类合作和信任理论的基础。假定囚徒窘境能够模拟需要信任的两人之间的交流,群体的合作举动可以用有多个参与者的、重复博弈的变体来模拟。这进而引起了许很多多学者经久不衰的意向。1975年,格罗夫曼(Grofman)和普尔(Pool)预期,努力于这方面研究的学术文章,数量胜过2000篇。
学习心理学和博弈论
当博弈参与者能学会预期其余参与者背叛的机会性,他们本身的举动就为他们有关其余人的经验所影响。简单的统计表明,总的上,缺乏经验的参与者与其余参与者的互动,或者是典型的好,或者是典型的坏。假使他们在这些经验的基础上涨动,(通过许多的背叛或合作,否则)他们或许在将来的交易中受损。伴随经验渐渐丰富,他们得到了对背叛机会的更真实的印象,变得更成功地参与博弈。不成熟的参与者历经的早期交易对他们将来参与的影响,或许比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为何年轻人的成长经验这么具有影响力,以及为何他们特别容易被欺负,有时他们自身最后也形成欺凌弱小者。
群体中背叛的机会性,可以被合作的经验所降低,由于先前的博弈建立了信任。所以自我牺牲举动可以,比如,增强团体的道德品质。假使团体很小,积极举动更或许以互相肯定的方式——激励这个团体中的个人继续合作——得到反馈。这与类似的窘境相关:激励那些你将援助的人,从或许使他们处在危险的境地的举动中得到满足。这类方法首要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。
有关的博弈
封闭袋子交易
霍夫施塔特曾提出,像囚徒窘境一类的困难,若以简单博弈的形式来看明,民众会较容易理解。比如他以“封闭袋子交易”的简单博弈来看明此论题
两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。双方可以诚实的依照允诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。
在这场博弈中,受于背叛可得到重大利益,必然有多人选择背叛。这代表着理性的商人不会执行该种交易,因此“封闭袋子交易”将受于逆向选择而失去市场。
是敌是友?
“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人执行的囚徒窘境博弈例子,然而情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒窘境博弈,决定如何分他们的奖品。假使他们都合作(“朋友”),他们的奖品就被平分。假使一个合作而其他背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不足。假使都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,由于发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒窘境的平稳均衡对比,“都背叛”是不牢固的均衡(weak equilibrium)。假使你知道你的对手将形成“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒窘境”和“小鸡”之间的支付模型。
这个支付矩阵是:
假使参与者都合作,每人得到 +1。
假使都背叛,每人得到 0。
假使甲合作而乙背叛,甲得到0而乙得到 +2。
是敌是友对于想对囚徒窘境作现实分析的人会是有用的。注意到,参与者只能执行一次,所以所有涉及重复执行博弈的看法都不适用,“以牙还牙”策略也无法发展出来。
在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛以前,敢肯定他的友善。或许“打破制度”的方法会是一个参与者告诉他的对手:“我会选择做敌人。假使你相信我后来会和你分奖品的话,就选择做朋友。否则,假使你选择做敌人,我们都回空手而回。”一个更贪婪的版本会是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一部分,要么我们都一无所获。”(在最后通牒博弈中时。)当下,奸计就是去尽量降低那个百分之X,并维持其他竞争者依然选择做朋友。差不多,这个参与者务必知道这个界限,在这里他的对手从目睹他一无所获中得到的效用,要胜过他从肯定能赢得的金钱中得到的效用,假使他顺遂的话。
在竞赛中这个方法从未被试验过;或许是由于裁判们不会允许,而且即便允许,不平等厌恶也会受于这个规则的运用而致使较低的期望收益。(最后通牒博弈中试图了这个方法,结果致使对高而不平等的出价的婉拒——在一部分案例中,相当于两周的薪资优先于两个参与者一无所获被决绝。)
参考资料
[1] 博客网 http://smile99.bokee.com/5079410.html
[2] 百度空间 http://hi.baidu.com/dvchen/blog/item/0e1ea13fb394fdca7d1e71fb.html
[3] 博客网 http://plg9256.bokee.com/viewdiary.13903449.html
[4] 西祠胡同 http://www.xici.net/b166018/d7791984.htm
[5] 中国经济网 http://www.ce.cn/books/jhsz/szlz/lxzdl/lxzdl/200502/22/t20050222_3134711.btk