重复博弈

定义

在重复博弈中，每次博弈的条件、规则和内容均为相同的, 但受于有一个长期利益的存在, 所以各博弈方在目前阶段的博弈中要顾虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。有时, 一方作出一种合作的姿态, 或许使其它博弈方在今后阶段采取合作的立场, 进而达到共同的长期利益。

下面给出两个重要定义：

定义1：可信性是指动态博弈中先行动的博弈方能否该相信后行动的博弈方会采取对自己有利或不利的举动。

定义2：假使动态博弈中各博弈方的策略在动态博弈自身和所有子博弈中都组成均衡, 则称该策略组合具有子博弈完美性。

在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是分析均衡能否平稳牢靠的重要根据, 又受于长期利益对短时间举动的制衡作用, 所以有一部分在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 进而使博弈的均衡结果显现许多的机会性。

特质

1、阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不更改后一阶段的结构。

2、所有参与人观察到博弈以往的历史。

3、参与人的总得益是所有阶段博弈得益的贴现值之和。

假使博弈不是一次的，而是重复执行的，参与人以往行动的历史是值得观察到的，参与人就可以将自己的选择依靠于其余人以前的行动，因此有了许多的策略可以选择，均衡结果或许与一次博弈大不相同。

重复博弈是指同样结构的博弈重复很多次。当博弈只执行一次时，每个参与人都只关心一次性的支付；假使博弈是重复多次的，参与人或许会为了长远利益而牺牲眼前的利益，进而选择不同的均衡策略。所以，重复博弈的次数会影响到博弈均衡的结果。

1.无限次重复博弈：下面用一个有关产品定价博弈的例子分析重复博弈。

产品定价博弈

厂商B

低价高价

厂商A低价

高价12，1220，4

4，2015，15

是两个厂商A和B定价的支付矩阵，从中可以看出：在一次性博弈中中，厂商A和厂商B都存在上策，上策均衡是双方都定低价。

从参与人举动看，受于博弈可以重复无数次，博弈双方为了长期利益有时间执行试探性出价。在首次博弈时出高价以谋求竞争对手的合作，一旦对局人为了短时间利益采取不合作举动，那就会建立该对局人是不可信任的信念，在下一次的博弈中都采取不合作的低价举动，使对局人的长期利益受损。

可见，厂商B在首次博弈中受于不合作策略得到的高收益会在以后博弈中因A的报复性策略而抵消，甚至在重复博弈若干次后显现损失。

假如厂商A开始策划的高价策略，从支付矩阵得到厂商B若也定高价，其每次博弈的支付分别为（15，15，15．．．）；若厂商B策划低价，则在首次博弈中得到高收益，但是随后会受于厂商A的低价举动而使其受损，各次博弈的支付分别为（20，12，12．．．）。厂商A的该种策略被称为“以牙还牙”策略，该种策略是A在初始选择合作，假使B合作，那么A也会一直合作下去；若B在某一次博弈中选择不合作，那么A在以后博弈中都采取不合作策略。“以牙还牙”策略代表着任何一个参与人的一次性不合作将令引起永远的不合作。所有参与人为了长期利益，致使无限次重复的非合作博弈造成合作解。

2.有限次重复博弈：假定重复有限的N次，这代表着所有参与人都能预期到最后一次（第N次）的收益。在第N次博弈中，各参与人都知道对方的“以牙还牙”，但是他也知道假使在这次博弈中自己选择低价的上策，将使自己受益而其余参与人受损，且也不会留给对方报复的可能（博弈到第N次终结）。所有参与人都明白这一点，所以在最后一次博弈中将都采取低价策略，这与一次博弈的上策均衡结果相同。

在现实中，市场竞争者很难弄清重复博弈的结构。厂商很难预期自己在何时会终结运营，也不清楚与对手的竞争什么时候是第N次博弈。所以，只要竞争期间充足长，竞争的双方都预期将来还要执行很多次博弈，那么，竞争的结构就或许近似于无限次重复博弈，致使厂商在竞争中显现相互合作的局势。

序列博弈

在实践中，博弈者在选择行动时或许有先后顺序或某些对局者或许率先采取措施，该种博弈被称为序列博弈。

1.先行者优势：厂商生产甜味饼干的收益10要好于生产脆味饼干的收益8。假定两个厂商同期独立的作出生产决定，他们都愿意推出甜味饼干——结果是两家收益都受损

厂商2

脆甜

厂商1脆

甜—3，—38，10

10，8—3，—3

可见，在序列博弈中，先行者或许占领适当的有利地位，这就是先行者优势。厂商1为得到更大收益，会选择推出甜味饼干，致使厂商2只能选择收益较低却是最优的策略——推出脆味饼干。

2.博弈的扩展形式：常用博弈的扩展形式来分析序列博弈，它用决策树的形式表明或许的行动，并在各枝的终结处给出各行动的支付。

脆-3，-3

脆厂商2

厂商1（2）甜8，10

（1）脆10，8

甜厂商2

（3）甜3，-3

博弈的扩展形式的解一般用逆推法推导，由最后的收益逆向归纳，倒推到初始节点1处作出最后决策。

例子

下方我们用一个产品定价的例子讨论重复博弈，给出了一次性完全信息静态博弈的收益矩阵。

A、B两个参与人都有两种定价待选择：定高价或定低价。假使两个参与人都定低价，则每个参与人的收益都是20个单位；假使两人都定高价，则每人的收益都是30个单位；假使其中某一参与人定低价，而另一参与人定高价，则定低价的参与人有占有许多的市场份额得到40个单位的收益，定高价的参与人受于失去一部分市场份额而只得到10个单位的收益。显然，在这个一次性完全信息静态博弈中，两个参与人均有占优策略，占优策略均衡为A、B双方都定低价。

假使A、B之间的定价博弈是多次执行的，那么，困难就不是这样简单了。我们先来分析博弈重复次数为无限时的情形。

假使A、B双方都选择合作，都维持定高价，则双方在每个阶段的收益都是30个单位，记为(30，30，30，…)；假使A、B中有一方(如A)采取投机举动，在事实定价中选择不与对方合作，在第一阶段就通过选择定价策略致使选择高价策略的对手B受损，则受损的一方B一定会在第二阶段及其以后的定价中也选择低价策略，加以报复，如此一来，首先选择不合作的一方A在个阶段的收益为(40，20，20，…)，显然，其总收益远远差于合作、保持高价情形下的总收益。由于，首选选择不合作的一方A，导致在第一阶段得到了“额外”收益，但在以后个阶段的收益将由于对手B的报复性选择而降低，而且，重复若干此后，首先选择不合作的一方A将得不偿失。

在这里，B选择的策略称为“冷酷策略”(grimstrategies)。冷酷策略是指重复博弈中的任何参与人的一次性不合作将引起其余参与人的永远不合作，进而致使所有参与人的收益降低。所以，所有参与人具有保持合作的积极性。我们再来讨论博弈重复次数为有限时的情形。

重复次数有限博弈与重复次数无限博弈之间的惟一区别，是所有参与人都可以清晰无误地了解重复的次数，即可以精准地预期到最后一个阶段博弈。而在最后阶段的博弈中，任何一个参与人选择不合作，不会致使其余参与人的报复。所以，所有参与人全将在最后阶段的博弈中选择自己的占优策略，那就是不合作。上例中，在最后阶段博弈中选择低价是所有参与人的占优策略。

既然所有参与人全将在最后阶段选择不合作，那么，在倒数第二阶段博弈中任何参与人也就没有必要担忧受于自己选择不合作，致使其余参与人在最后阶段博弈中的报复。所以所有参与人在倒数第二阶段博弈中，也全将选择不合作。即在倒数第二阶段博弈中，所有参与人全将选择占优策略。

自此类推，可以得出下方结论：在阶段性博弈存在惟一的纳什均衡时，阶段博弈的纳什均衡解就是重复次数有限博弈的唯一子博弈精炼纳什均衡解。即重复次数有限博弈的每个阶段的均衡解均为一次性博弈的纳什均衡解。注意，上述推论成立的前提条件是阶段性博弈纳什均衡的惟一性。 ^[1]

推荐文章

热门文章

推荐文章

热门文章