《第三讲完全信息动态博弈课件.ppt》由会员分享,可在线阅读,更多相关《第三讲完全信息动态博弈课件.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一一、子博弈精炼纳什均衡子博弈精炼纳什均衡 子博弈精炼纳什均衡的创立者. 1994年诺贝尔经济学奖获奖者、莱茵哈德泽尔腾。泽尔腾则在60年代中期将纳什均衡概念引入动态分析。在1965年发表需求减少条件下寡头垄断模型的对策论描述一文,提出了“子博弈精炼纳什均衡”的概念,又称“子对策完美纳什均衡”。这一研究对纳什均衡进行了第一次改进,选择了更具说服力的均衡点。海萨尼在60年代末把不完全信息引入博弈分析。 将纳什均衡中包含的不可置信的威胁策略剔除出去。它要求参与者的决策在任何时点上都是最优的,决策者要“随机应变”,“向前看”,而不是固守旧略。 由于剔除了不可置信的威胁,在许多情况下,精炼纳什均衡也就
2、缩小了纳什均衡的个数。这一点对预测分析是非常有意义的。 用动态博弈理论来讨论实际究竟发生哪个纳什均衡。 只有当参与人的策略在每一个子博弈中都构成纳什均衡叫做精炼纳什均衡。或者说,组成精炼纳什均衡的策略必须在每一个子博弈中都是最优的。 在动态博弈中,参与人的行动有先后顺序,后行动的参与人在自己行动之前就可以观察到先行动者(参与人)的行为,并在此基础上选择相应的策略。而且,由于先行动者拥有后行动者可能选择策略的完全信息,因而先行动者在选择自己的策略时,就可以预先考虑自己的选择对后行动者选择的影响,并采取相应的对策。 我们关于房地产开发的例子,讨论子博弈精炼纳什均衡。表31给出了静态条件下双方参与人
3、的收益情况。表表3 31 1房地产开发博弈(静态)的收益矩阵房地产开发博弈(静态)的收益矩阵 从表31可以知道,该博弈有两个纳什均衡,即(开发,不开发)和(不开发,开发),我们无法确定是开发商选择开发,开发商选择不开发,还是恰恰相反的结果。 现在,我们讨论动态博弈。假定房地产开发商是先行动者。在行动之前,开发商对对手开发商的策略进行了预测。在行动开始之前的看来,如果不计得失,有四种策略可供选择: 策略一:无论是否选择开发,选择开发。 策略二:若选择开发,也选择开发;若选择不开发,也选择不开发。 策略三:若选择开发,就选择不开发;若选择不开发,就选择开发。 策略四:无论是否选择开发,都选择不开发
4、。 在表31的基础上,结合先行动,可能选择的四种策略,不难得出表32。表表3 32 2先行动者对预测结果的收益矩阵先行动者对预测结果的收益矩阵第一列为策略一收益展示(也就是说第一列两个收益组合对应策略一),第二列为策略二收益展示,以此类推 由表32可以看出,在开发商先行动的情况下,开发商可供选择的策略中,策略一只包括了上述两个纳什均衡中的后一种均衡,即(不开发,开发),而没有包括前一种纳什均衡,即(开发,不开发);策略二上述两种纳什均衡都没有包括;策略四只包括了上述两种纳什均衡中的前一种均衡,即(开发,不开发),而未包括后一种纳什均衡,即(不开发,开发);只有策略三既包括了上述两种纳什均衡中的
5、前一种均衡,又包括了后一种均衡。也就是说,如果选择策略三,那么,无论作出什么选择,的回应都能达到纳什均衡。反过来,在给定会选择策略三来回应的选择的前提下,开发是的占优选择。因此,一定会选择开发。 以上的分析,就是子博弈精炼纳什均衡解的过程。策略(开发,不开发)就是上述子博弈精炼纳什均衡解。 所谓“子博弈”(sub-game)是指它本身可以作为一个独立的博弈进行分析,它是原博弈的一部分。例如,在表31中,每一行或每一列都是整个博弈的一个子博弈。而且,任何博弈本身可被称为自身的一个子博弈。 只有当某一策略组合在每一个子博弈(包括原博弈)上都构成一个纳什均衡,这一策略组合才是子博弈精炼纳什均衡解。显
6、然,如果整个博弈是惟一的子博弈,纳什均衡与子博弈精炼纳什均衡是完全相同的。二二、重复博弈重复博弈 上述子博弈精炼纳什均衡有这样一个特征,这就是,参与人在前一个阶段的行动选择决定了随后的子博弈的结构。因此,同样结构的子博弈只出现一次。在上述房地产开发博弈的例子中,开发商选择开发后的子博弈甲不同于开发商选择不开发后的子博弈乙,当开发商选择开发后,子博弈乙就被排除了。这样的动态博弈称为“序贯博弈”(sequential games)。动态博弈中另一类特殊但非常重要的博弈是所谓的“重复博弈”(repeated games)。顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”
7、(stage games) 以下我们用一个产品定价的例子讨论重复博弈。表33给出了一次性完全信息静态博弈的收益矩阵。 表表3 33 3 产品定价博弈的收益矩阵产品定价博弈的收益矩阵 、两个参与人都有两种定价代选择:定高价或定低价。如果两个参与人都定低价,则每个参与人的收益均为个单位;如果两人都定高价,则每人的收益均为个单位;如果其中某一参与人定低价,而另一参与人定高价,则定低价的参与人有占有更多的市场份额获得个单位的收益,定高价的参与人由于失去一部分市场份额而只获得个单位的收益。显然,在这个一次性完全信息静态博弈中,两个参与人均有占优策略,占优策略均衡为、双方都定低价。 如果、之间的定价博弈是
8、多次进行的,那么,问题就不是如此简单了。我们先来分析博弈重复次数为无限次的情况。 如果、双方都选择合作,都保持定高价,则双方在每个阶段的收益均为个单位,记为(,);如果、中有一方(如)采取投机行为,在实际定价中选择不与对方合作,在第一阶段就通过选择定价策略使得选择高价策略的对手受损,则受损的一方一定会在第二阶段及其以后的定价中也选择低价策略,加以报复,这样一来,首先选择不合作的一方在个阶段的收益为(,),显然,其总收益远远小于合作、维持高价情况下的总收益。因为,首选选择不合作的一方,只是在第一阶段获得了“额外”收益,但在以后个阶段的收益将因为对手的报复性选择而减少,并且,重复若干此后,首先选择
9、不合作的一方将得不偿失。 在这里,选择的策略称为“冷酷策略”(grim strategies)。冷酷策略是指重复博弈中的任何参与人的一次性不合作将引起其他参与人的永远不合作,从而导致所有参与人的收益减少。因此,所有参与人具有维持合作的积极性。我们再来讨论博弈重复次数为有限时的情况。 重复次数有限博弈与重复次数无限博弈之间的惟一区别,是所有参与人都可以明确无误地了解重复的次数,即可以准确地预测到最后一个阶段博弈。而在最后阶段的博弈中,任何一个参与人选择不合作,不会导致其他参与人的报复。因此,所有参与人都会在最后阶段的博弈中选择自己的占优策略,那就是不合作。上例中,在最后阶段博弈中选择低价是所有参
10、与人的占优策略。 既然所有参与人都会在最后阶段选择不合作,那么,在倒数第二阶段博弈中任何参与人也就没有必要担心由于自己选择不合作,导致其他参与人在最后阶段博弈中的报复。因此所有参与人在倒数第二阶段博弈中,也都会选择不合作。即在倒数第二阶段博弈中,所有参与人都会选择占优策略。 由此类推,可以得出以下结论:在阶段性博弈存在惟一的纳什均衡时,阶段博弈的纳什均衡解就是重复次数有限博弈的唯一子博弈精炼纳什均衡解。即重复次数有限博弈的每个阶段的均衡解都是一次性博弈的纳什均衡解。注意,上述推论成立的前提条件是阶段性博弈纳什均衡的惟一性。例如,在上例中,每个阶段博弈的收益矩阵都与表33完全一致,纳什均衡都是每
11、个参与人选择低价。三三、动态博弈策略行动动态博弈策略行动 在动态博弈中,由于参与人的行动有先后顺序,而参与人行动顺序直接影响博弈的结果。因此,参与人为了使其他参与人的选择对自己有利,往往会主动采取一些行动影响其他参与人对自己行为的预期,从而达到对自己有利的结果。参与人所采取的这些行为称之为“策略行”(strategic move)。 以下通过两个例子加以说明。、先行优势(first-move advantage) 所谓现行优势是指在博弈中首先作出策略选择并采取相应行动的参与人可以获得更多的利益。 在上面提到的性别战中,存在两个纳什均衡,即男女双方一起去看足球赛或一起去逛商店。我们无法确定结果到
12、底如何。在这种情况下,如果男方首先采取行动,在约会前就买好足球票,就会对女方产生影响。女方可能因为男方的这一行动表明“男朋友十分想看这场足球比赛”或因“既然已经买了票,不看怪可惜”,从而接受双方一起看足球赛的选择。、确信威胁(credible) 确信威胁是指博弈的某一参与人通过承诺某种行动改变自己的收益函数,使得其他参与人认为自己的威胁确实可信,从而迫使其他参与人在充分考虑自己的承诺的情况下作出相应的选择。 例如,在上述房地产开发博弈中,如果房地产开发商在房地产开始作出选择之前就采取行动,与客户签订合同,规定在一定期限内,向客户交付一定面积的住房,倘若不能按时履约,则总共赔偿客户个单位。在有这样一个承诺的情况下,上述表31和表32就相应地变成了表34和表35。表表3 34 4 承诺后的腹地开发博弈的收益矩阵承诺后的腹地开发博弈的收益矩阵表表3 35 5 承诺后对的预测承诺后对的预测 由此可以看出,在完全信息静态博弈下,选择开发是一个占优策略。因而的策略一(无论是否开发,都要开发)就构成了对的确信威胁,因此,无论是否选择开发,都会选择开发。因为无论是否开发,选择开发都是的占优策略。同时,由于对这一选择有一个正确的预测,因此,一定会选择不开发。该博弈的子博弈精炼纳什均衡,也就变成了不开发,开发。