简述
子博弈精炼纳什均衡的创立者. ——1994年诺贝尔经济学奖获奖者、莱茵哈德·泽尔腾(Reinhard Selten).
泽尔腾则在60年代中期将纳什均衡概念引入动态分析。在1965年发表《需求降低条件下寡头垄断模型的对策论描述》一文,提出了“子博弈精炼纳什均衡”的概念,又称“子对策完美纳什均衡”。这一研究对纳什均衡执行了首次改进,选择了更具说服力的均衡点。海萨尼在60年代末把不完全信息引入博弈分析。
将纳什均衡中包含的不可置信的威胁策略刨去出去。它要求参与者的决策在任什么时候点上均为最优的,制定人要“随机应变”,“向前看”,并非是固守旧略。
受于刨去了不可置信的威胁,在很多情形下,精炼纳什均衡也就缩减了纳什均衡的个数。这一点对预期分析是非常故意义的。
用动态博弈理论来讨论事实究竟发生哪个纳什均衡。
给定“历史”,每一个行动选择开始至博弈终结组成了一个博弈,称为“子博弈”。
只有当参与人的策略在每一个子博弈中都组成纳什均衡叫做精炼纳什均衡。或者说,构成精炼纳什均衡的策略务必在每一个子博弈中均为最优的。
定义
子博弈:一个扩展式表明博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结(包含终点结)构成的能自成一个博弈的原博弈的一部分。对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*) ,假使它是原博弈的纳什均衡;它在每一个子博弈上也都组成纳什均衡,则它是一个子博弈精炼纳什均衡。
博弈论专家常常运用“序惯理性”(Sequential rationality):指不论以往发生了什么,参与人应当在博弈的每个时点上最优化自己的策略。子博弈精练纳什均衡所要求的正是参与人应当是序惯理性的。对于有限完美信息博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。由于有限完美信息博弈的每一个决策结都开始一个子博弈。求解方法:最后一个结点上的子博弈(纳什均衡)→倒数第二个(纳什均衡) → ······ → 初始结点上的子博弈(纳什均衡)。
完全信息动态博弈
动态是世间万物的基本特质。完全信息静态博弈导致一种独特的理想状态。在现实中,当后一个参与人行动时,自然会依据前者的选择而调整自己的选择,而前者也会理性地预期到这一点,所以不或许不考虑自己的选择对他人的影响。1965年,泽尔腾通过对动态博弈的分析,提出了“子博弈精炼纳什均衡”的概念,它要求任何参与人在任什么时候间、地点的决策均为最优的,制定人应当随机应变,并非是固守前谋。这就推导出子博弈的概念。当参与人的战略在每一个子博弈中都组成纳什均衡时,则形成“子博弈精炼纳什均衡”。也就是说,构成“子博弈精炼纳什均衡”的战略务必在每一个子博弈中均为最优的。动态博弈的纳什均衡的意义
子博弈精炼纳什均衡用于区分动态博弈中的"合理纳什均衡"与"不合理纳什均衡",将纳什均衡中包含有不可置信威胁策略的均衡刨去出去,就是说,使最后的均衡中不再包含有不可置信威胁策略的存在。
求解法
逆向归纳法(Backward Induction)是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时,从最后一个子博弈开始逆推上去,这就是逆向归纳法。所以逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐渐向前倒推以求解动态博弈均衡的方法。用逆向归纳法求解子博弈精炼纳什均衡;允诺行动与子博弈精炼纳什均衡;逆向归纳法与子博弈精炼均衡存在的困难。
应用举例
在表1描述的博弈模型中,每一次微观主体间的博弈均可看作一个子博弈。子博弈精炼纳什均衡包含两层含义:(1)它是原博弈的纳什均衡;
(2)它在每一个子博弈上给出纳什均衡。
子博弈精炼纳什均衡就是要刨去那些只在特定情形下是合理的,而在其余情形下并没有合理的行动规则。
在表1中,a代表只有一个微观主体创新时所导致的收益,c代表该微观主体创新所需付出的成本。当只有一个微观主体执行创新时将令得到创新导致的全部收益(a-c),而当两个主体同期创新时,收益将令减半(a-c)/2。一般情形下“a-c>0”,则很显著在这个博弈过程中,(创新,创新)是一个纳什均衡,更严格地说,是一个严格优势策略均衡。依此类推,可以得出,在每一次新的金融规制后,(创新,创新)这个策略全会是至下次新规制显现前的子博弈的纳什均衡。所以,在利润的驱使下,微观主体全将选择创新如此一个策略。
举例分析
在市场进入博弈中,在给定企业B已经进入的情形下,在位者的“斗争”,“高价”策略已不再是最优的,该种“斗争”是不可置信的威胁,由于斗争的结果是没有利润;而合作会导致50单位利润。所以,(进入,高价)不是一个精炼纳什均衡。刨去这个均衡,可以证明,(进入,高价)是唯一的子博弈精炼纳什均衡。[1]
在动态博弈中,参与人的行动有先后顺序,后行动的参与人在自己行动以前就可以观察到先行动者(参与人)的举动,并在此基础上选择相应的策略。而且,受于先行动者拥有后行动者或许选择策略的完全信息,因此先行动者在选择自己的策略时,就可以预先考虑自己的选择对后行动者选择的影响,并采取相应的对策。
利用房地产开发的例子,讨论子博弈精炼纳什均衡。表2给出了静态条件下双方参与人的收益情形。
表2房地产开发博弈(静态)的收收益矩阵
从表2可以知道,该博弈有两个纳什均衡,即(A开发,B不开发)和(A不开发,B开发),我们无法确定是开发商A选择开发,开发商B选择不开发,依旧恰恰相反的结果。
当下,我们讨论动态博弈。假定房地产开发商A是先行动者。在行动以前,开发商A对对手开发商B的策略执行了预期。在行动开始以前的A看来,假使不计得失,B有四种策略可供选择:
策略一:无论A能否选择开发,B选择开发。
策略二:若A选择开发,B也选择开发;若A选择不开发,B也选择不开发。
策略三:若A选择开发,B就选择不开发;若A选择不开发,B就选择开发。
策略四:无论A能否选择开发,B都选择不开发。
在表2的基础上,结合A先行动,B或许选择的四种策略,不难得出表3。
表3先行动者A对B预期结果的收益矩阵
由表3可以看出,在开发商A先行动的情形下,开发商B可供选择的策略中,策略一只包含了上述两个纳什均衡中的后一种均衡,即(A不开发,B开发),而没有包含前一种纳什均衡,即(A开发,B不开发);策略二上述两种纳什均衡都没有包含;策略四只包含了上述两种纳什均衡中的前一种均衡,即(A开发,B不开发),而未包含后一种纳什均衡,即(A不开发,B开发);只有策略三既包含了上述两种纳什均衡中的前一种均衡,又包含了后一种均衡。也就是说,假使B选择策略三,那么,无论A做出什么选择,B的回应都能高达纳什均衡。倒过来,在给定B会选择策略三来回应A的选择的前提下,开发是A的占优选择。所以,A一定会选择开发