正则形式的博弈
在博弈论中,正则形式是描述博弈的一种方式。与延展形式不同,正则形式不用图形来描述博弈,而是用矩阵来陈述博弈。与延展形式的表述方式对比,该种方式在识别出严格优势策略和纳什均衡上更有用,但会丢失某些信息。博弈的正则形式的表述方式包含如下部分:每个参与者所有显然的和或许的策略,以及和与其相对应的收益。
在非完美信息的完全静态博弈中,正则形式的表述方式详细地表明了参与者策略空间和收益函数。策略空间是某个参与者的所有机会策略的集合。策略是参与者在博弈的每个阶段——不管在博弈中这个阶段事实上能否会显现——将要采取的行动的完整计划。每个参与者的收益函数,是从参与者策略空间的向量积到该参与者收益集合(一般是实数集,数字表明基数效用或序数效用——在正则形式的表述方式中常常是基数效用)的映射。也就是说,参与者的收益函数把策略组合(所有参与者策略的清单)作为它的输入量,然后输出参与者的收益。
正则形式的运用
占优策略
ing="4" cellspacing="0" >收益矩阵有利于刨去劣势策略,而且经常被用于表明这个概念。比如,在囚徒窘境中(右图),参与者会发现由于其余人的背叛,合作成了严格劣势策略。参与者会比较每列的第一个数字,在这个例子中,3>2且1>0。这显示无论横排参与者怎样选择,竖排参与者选择背叛都比较好些。相似地,参与者会比较每列的第二个数字,同样也是3>2且1>0。这表明无论竖排参与者怎么做,横排参与者选择背叛都比较好些。这就证明了此博弈唯一的纳什均衡是(背叛,背叛)。
正则形式的接连博弈
ing="4" cellspacing="0" >这些矩阵只表述同期(或者更一般地,信息不完美的)作出行动的博弈。上述矩阵不能表述甲先作出行动,被乙观察到,然后乙再作出行动的博弈。由于在这个例子中,无法确定乙每次的策略。为了表述该种接连博弈,我们要列出乙在博弈执行阶段所有的行动——即使依据事实情形,某种行动决不会显现。和前面一样,在这个博弈中乙有两种选择,左和右。与前面不一样的是,视甲的行动不同而定,乙有四种策略。这些策略是:
1. 假使甲选择顶,选择左;否则,选择左
2. 假使甲选择顶,选择左;否则,选择右
3. 假使甲选择顶,选择右;否则,选择左
4. 假使甲选择定,选择右;否则,选择右
右图是这个博弈的正则形式的表述方式。
通用公式
为了用把博弈表述成正则形式,需要供应下列报告:
*表明参与者的有限集P,标记为
*每个参与者k在P里拥有有限个纯策略.
一个纯策略组合是参与者策略的联合,这是一个m元组.
则有:
我们用来表明策略组合的集合
收益函数形如
其预期解释是博弈终结时予以单个参与者的奖品。相应地,为了完整地表明一个博弈,收益函数务必在参与者集 P= {1, 2, ..., m}中对每个参与者详细表明。
定义:一个正则形式的博弈的结构形如
这里 P = {1,2, ...,m}是参与者集合,
是纯策略集合的一个m元组,每个纯策略对应于一个参与者,而
是收益函数的m元组。
没有理由在前面的讨论中,把参与者数量有限或每个参与者的策稍有限的博弈消除在外。由于要用到泛函分析的技巧,有关有限博弈的研究非常艰深。
实例
ing="4" cellspacing="0" >有种博弈是参与者同期(或起码在作出行动前不观察其余参与者的动作)作出行动,并依照上述已作出行动的组合得到收益。右边的矩阵是该种博弈得正则形式的表述方式。比如,假使甲作出行动“顶”,而乙作出行动“左”,则甲得到收收益4,乙得到收益3。在每个回合,第一个数字代表竖排参与者(此处为甲)的收益,第二个数字代表横排参与者(此处为乙)的收益。
其余表述方式
对称博弈(其收益不是依靠于参与者选择的动作)常常被表述为只有一种收益,即竖排参与者的收益。比如,左右两边的收益矩阵表述的是同一个博弈。