《高鸿业版微观经济学博弈论ppt课件.pptx》由会员分享,可在线阅读,更多相关《高鸿业版微观经济学博弈论ppt课件.pptx(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 博博弈弈论论字字面面的的意意思思是是游游戏戏策策略略,及及用用类类似似游游戏戏中中解解决决问问题题的的方方法法,揭揭示示解解决决社社会会、经经济济及及其其他他领领域域问问题题的的策策略略、对对策策,因因此此有有的的还还把把博博弈弈论论译译成成对对策策论论。准准确确的的说说博博弈弈论论是是在在给给定定的的条条件件下下寻寻求求最最优优策策略略,这这里里给给定定的的条条件件包包含含其其他他人人的的策策略略以以及及本本人人的的决决策策对对其其他他决决策策主主体体的影响。的影响。
2、返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 策略性活动在社会、经济、政治生活中大量存策略性活动在社会、经济、政治生活中大量存在,也可以说,整个社会、经济、政治生活都在,也可以说,整个社会、经济、政治生活都是博弈行为。因此,博弈论作为一种方法,广是博弈行为。因此,博弈论作为一种方法,广泛的应用在经济、政治、军事、外交中,只是泛的应用在经济、政治、军事、外交中,只是博弈论在经济学中应用的最广泛、最成功。如博弈论在经济学中应用的最广泛、最成功。如前面介绍过的古诺均衡,就属于经济学中的博前面介绍过的古诺均衡,就属于经济学
3、中的博弈过程。弈过程。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统三、博奕论模型(对策论模型)三、博奕论模型(对策论模型)(一)博奕论或称对策论是指这样一(一)博奕论或称对策论是指这样一种竞争状况,其中有两个或两个以上种竞争状况,其中有两个或两个以上的人(厂商)各自追求自身的利益,的人(厂商)各自追求自身的利益,而任何一方都不能单独决定其结果。而任何一方都不能单独决定其结果。1、零和博弈(不合作博弈)、零和博弈(不合作博弈)一个参与者所得是另一个参与者所失。一个参与者所得是另一个参与者所失。所得与所失之和为零。所得
4、与所失之和为零。例例1:参与人:参与人:甲、乙;甲、乙;行动或策略:行动或策略:猜硬币;猜硬币;结果:结果:都为正面或都为反面都为正面或都为反面甲输给乙甲输给乙1角,如果是一正一反,甲角,如果是一正一反,甲赢乙赢乙1角;角;报酬:报酬:一个一个1角硬币角硬币乙乙 正正反反甲甲正正(-1,1)(1,-1)反反(1,-1)(-1,1)2、非零和博弈、非零和博弈(1)合作博弈(局中人都希望行动)合作博弈(局中人都希望行动或策略保持一致的博弈)或策略保持一致的博弈)例例2:参与人:参与人:小王、小李;小王、小李;行动或行动或策略:策略:两人约会但都忘记了见面地点;两人约会但都忘记了见面地点;结果:结果
5、:相遇共进晚餐,否则扫兴而归;相遇共进晚餐,否则扫兴而归;报酬:报酬:共进晚餐每人得到效用共进晚餐每人得到效用100,扫兴,扫兴而归效用为而归效用为-20小王小王 AB小小李李A(100,100)(-20,-20)B(-20,-20)(100,100)返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统(2)不合作博弈)不合作博弈例例3:参与人:参与人:邦德、詹妮;邦德、詹妮;行行动或策略:动或策略:坦白或抵赖;坦白或抵赖;结果:结果:一方坦白可释放,另一方抵赖一方坦白可释放,另一方抵赖判判10年,如果都抵赖各判年,如果都
6、抵赖各判1年,年,如果都坦白各判如果都坦白各判8年;年;报酬:报酬:各各自刑期的负数自刑期的负数詹妮詹妮 坦白坦白抵赖抵赖邦邦德德坦坦白白(-8,-8)(0,-10)抵抵赖赖(-10,0)(-1,-1)(二)上策均衡与纳什均衡(二)上策均衡与纳什均衡1、上策均衡:、上策均衡:一个有理性的一个有理性的选手在博弈中不会运用下策选手在博弈中不会运用下策囚徒困境:囚徒困境:在信息不对称的在信息不对称的情况下,若邦德认为詹妮会情况下,若邦德认为詹妮会坦白,则邦德会选择坦白,坦白,则邦德会选择坦白,若邦德认为若邦德认为詹妮会抵赖,则邦詹妮会抵赖,则邦德还会选择坦白。同理詹妮的最德还会选择坦白。同理詹妮的最
7、有利的选择也是坦白。有利的选择也是坦白。坦白是两坦白是两个人的上策。个人的上策。当不管对方选择什么策略,己方当不管对方选择什么策略,己方都能以不变应万变,这种博弈成都能以不变应万变,这种博弈成为上策均衡的博弈。为上策均衡的博弈。上策均衡即指每一个人都有上策上策均衡即指每一个人都有上策可用,而仅仅是用这一策略的状可用,而仅仅是用这一策略的状况。(况。(一个均衡解一个均衡解)返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统2、纳什均衡、纳什均衡例例2:小王小王 AB小小李李A(100,100)(-20,-20)B(-20,
8、-20)(100,100)(1 1)纳什均衡:如果给定局中人)纳什均衡:如果给定局中人i i的的策略是策略是SiSi*,则局中人,则局中人j j的上策是的上策是SjSj*;如果给定局中人如果给定局中人j j的策略是的策略是SjSj*,则局,则局中人中人i i的上策是的上策是SiSi*。(SiSi*,SjSj*)就)就是纳什均衡。是纳什均衡。两个纳什均衡:(两个纳什均衡:(A A,A A)()(B B,B B)例例1:乙乙 正正反反甲甲正正(-1,1)(1,-1)反反(1,-1)(-1,1)(2 2)在零和博弈中,甲乙两人无绝)在零和博弈中,甲乙两人无绝对的上策,上策的选择取决于对方对的上策,上
9、策的选择取决于对方的选择,不存在纳什均衡。的选择,不存在纳什均衡。无均衡解无均衡解若策略组合(若策略组合(SiSi*,SjSj*)是上策均)是上策均衡,则对于衡,则对于i i和和j j而言无论对方选择而言无论对方选择什么策略(什么策略(SiSi*,SjSj*)都是上策。)都是上策。若策略组合(若策略组合(SiSi*,SjSj*)是纳什均)是纳什均衡,对于衡,对于i i,当对方选择,当对方选择SjSj*时,时,SiSi*才是上策;对于才是上策;对于j j,当对方选择,当对方选择SiSi*时,时,SjSj*才是上策。才是上策。上策均衡是纳什均衡的特例。上策均衡是纳什均衡的特例。返回返回返回返回篮球
10、比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统第一节第一节基本概念基本概念 一、博弈论一、博弈论 定义:定义:博弈论是描述、分析多人决策行博弈论是描述、分析多人决策行为的一种决策理论,是多个经济主体在相互为的一种决策理论,是多个经济主体在相互影响下的多元决策,决策的均衡结果取决于影响下的多元决策,决策的均衡结果取决于双方或多方的决策。双方或多方的决策。如下棋,最后的结果就如下棋,最后的结果就是由下棋双方你来我往轮流做出决策,决策是由下棋双方你来我往轮流做出决策,决策又相互影响、相互作用而得出的结果。又相互影响、相互作用而得出的结果。返回
11、返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统二、参与者(二、参与者(PLAYER)参与博弈的利益主体叫做参与者。参与博弈的利益主体叫做参与者。英文原英文原意为玩主,也有译成局中人的。在二人博弈中,意为玩主,也有译成局中人的。在二人博弈中,有两个参与者;在三人博弈中,有三个参与者;有两个参与者;在三人博弈中,有三个参与者;在多人博弈中,有多个参与者。在多人博弈中,有多个参与者。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 三、策略和策略空间三
12、、策略和策略空间 1 1策略策略 在给定条件博弈中,参与者完整的一套行动在给定条件博弈中,参与者完整的一套行动计划叫做策略。计划叫做策略。例如我国古代著名的谋略故事例如我国古代著名的谋略故事“田忌赛马田忌赛马”中,国王的赛马计划是:先出上等马,中,国王的赛马计划是:先出上等马,再出中等马,最后出下等马;田忌的赛马计划是:再出中等马,最后出下等马;田忌的赛马计划是:先出下等马,再出上等马,最后出中等马。这里先出下等马,再出上等马,最后出中等马。这里的赛马计划就是一套完整的行动计划,也就是一的赛马计划就是一套完整的行动计划,也就是一个策略。个策略。返回返回返回返回篮球比赛是根据运动队在规定的比赛时
13、间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 2 2策略空间策略空间 参与者可以选择的策略的全体就组成了策略空参与者可以选择的策略的全体就组成了策略空间。间。例如在例如在“田忌赛马田忌赛马”中,共有六种行动方案可中,共有六种行动方案可供选择:上中下(先出上等马,再出中等马,最后供选择:上中下(先出上等马,再出中等马,最后出下等马)、上下中、中上下、中下上、下上中、出下等马)、上下中、中上下、中下上、下上中、下中上。决策时田忌可以选择其中任何一个策略,下中上。决策时田忌可以选择其中任何一个策略,在故事中,因为国王固定选择了上中下,所以田忌在故事中,因为国王固定选择了
14、上中下,所以田忌选择了下上中,从而赢得了比赛。任何一人策略的选择了下上中,从而赢得了比赛。任何一人策略的改变都将使结果也随之改变,比如国王选择了中下改变都将使结果也随之改变,比如国王选择了中下上,而田忌选择了下上中,则国王将赢得比赛。上,而田忌选择了下上中,则国王将赢得比赛。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 四、报酬函数与报酬矩阵四、报酬函数与报酬矩阵 1 1报酬函数报酬函数 每一个参与博弈的参与者,他的收益依附于每一个参与博弈的参与者,他的收益依附于各个参与者所出的策略,这种收益与策略的依附各个参与者
15、所出的策略,这种收益与策略的依附关系就构成了报酬函数。关系就构成了报酬函数。也就是说,第也就是说,第i i个参与个参与者的收益取决于所有参与者的策略,而不仅仅是者的收益取决于所有参与者的策略,而不仅仅是自己的策略,表示成数学式子就是:自己的策略,表示成数学式子就是:Ri=Ri(S1,S2,Sn)。其中。其中Ri表示第表示第i个参与者的收益,个参与者的收益,Si(i=1,n)表示第表示第i个参与者所出的策略。个参与者所出的策略。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 2 2报酬矩阵报酬矩阵 参参与与博博弈弈的的
16、多多个个参参与与者者的的报报酬酬可可以以用用一一个个矩矩阵阵或或框框图图表表示示,这这样样的的矩矩阵阵或或框框图图就就叫叫做做报报酬酬矩矩阵阵。例例如如有有甲甲乙乙两两个个供供货货商商组组成成一一个个价价格格卡卡特特尔尔,双双方方都都有有选选择择遵遵守守约约定定价价格格或或者者违违反反约约定价格的权利。报酬矩阵如下图所示:定价格的权利。报酬矩阵如下图所示:返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统乙守约违约 甲守约 8,8 6,10 违约 10,6 7,7 图 8-1返回返回返回返回篮球比赛是根据运动队在规定的比
17、赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 矩阵中每组数字中的前一个数字表示甲的收益,后矩阵中每组数字中的前一个数字表示甲的收益,后一个数字表示乙的收益。当甲守约时,乙如果守约,一个数字表示乙的收益。当甲守约时,乙如果守约,收益为收益为8,乙如果违约,收益为,乙如果违约,收益为10;当甲违约时,;当甲违约时,乙如果守约,收益为乙如果守约,收益为6,乙如果违约,收益为,乙如果违约,收益为7。所。所以,当甲守约时,乙会选择违约(以,当甲守约时,乙会选择违约(108);当甲);当甲违约时,乙也会选择违约(违约时,乙也会选择违约(76)。反之不管乙如)。反之不管乙如
18、何选择,甲都会选择违约,最终的结果是双方都选何选择,甲都会选择违约,最终的结果是双方都选择违约。报酬矩阵改变,就会影响到双方的决策。择违约。报酬矩阵改变,就会影响到双方的决策。例如双方的报酬矩阵变成下图所示例如双方的报酬矩阵变成下图所示:返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统乙守约违约 甲守约 12,12 2,10 违约 10,2-4,-4图 8-2返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 此时双方可能都选择此时双方可能都选择
19、守约守约,因为当甲守约,因为当甲守约时,乙会选择守约(时,乙会选择守约(12101210);当甲违约时,);当甲违约时,乙也会选择守约(乙也会选择守约(2-42-4)。反之不管乙如)。反之不管乙如何选择,甲都会选择守约,最终的结果是何选择,甲都会选择守约,最终的结果是双方都选择守约。双方都选择守约。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 博弈过程参与者的决策行为要受到博弈过程参与者的决策行为要受到博弈规博弈规则则的影响,即博弈规则的变化会改变报酬矩的影响,即博弈规则的变化会改变报酬矩阵中的报酬值。比如在图阵中
20、的报酬值。比如在图 8-18-1中,由于卡特中,由于卡特尔中的每一个供货商都追求自身利益的最大尔中的每一个供货商都追求自身利益的最大化,并且没有措施来保证遵守价格约定,表化,并且没有措施来保证遵守价格约定,表面上可能都信誓旦旦的承诺守约,但是实际面上可能都信誓旦旦的承诺守约,但是实际中双方会违约。中双方会违约。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 如果卡特尔追求整体利益的最大化,并且由如果卡特尔追求整体利益的最大化,并且由于历史、政治、制度、惩罚等措施来保证遵守价于历史、政治、制度、惩罚等措施来保证遵守价格
21、约定,双方就可能和平共处,遵守价格约定。格约定,双方就可能和平共处,遵守价格约定。在历次中东战争中,由于民族宗教原因,在历次中东战争中,由于民族宗教原因,OPECOPEC石石油的产量和价格都得到了严格的执行。油的产量和价格都得到了严格的执行。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 五、均衡及博弈的解五、均衡及博弈的解 当博弈的所有参与者都不想改换策略时所达当博弈的所有参与者都不想改换策略时所达到的稳定状态叫做均衡,均衡的结果叫做博弈的到的稳定状态叫做均衡,均衡的结果叫做博弈的解。解。比如图比如图8-18-1中
22、甲乙两个供货商组成的卡特尔。中甲乙两个供货商组成的卡特尔。不管甲如何选择,乙必然选择违约,同样不论乙不管甲如何选择,乙必然选择违约,同样不论乙如何选择,甲必然选择违约。最终双方都选择了如何选择,甲必然选择违约。最终双方都选择了违约,并且只要给定的条件不变,双方就都不会违约,并且只要给定的条件不变,双方就都不会改变策略,结果非常稳定,达成均衡。改变策略,结果非常稳定,达成均衡。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 在这个均衡中,在这个均衡中,不管甲如何选择,乙都不会改不管甲如何选择,乙都不会改变策略,同样无论
23、乙如何选择,甲也不会改变策变策略,同样无论乙如何选择,甲也不会改变策略,这种均衡就叫做占优均衡。略,这种均衡就叫做占优均衡。这种这种无论对方如无论对方如何决策,自己总是会选择的策略叫做占优策略,何决策,自己总是会选择的策略叫做占优策略,由双方的占优策略所达成的均衡叫做由双方的占优策略所达成的均衡叫做占优均衡占优均衡占优均衡占优均衡。再比如,在学校中,学生平时学习可能是非再比如,在学校中,学生平时学习可能是非常努力也可能是非常懒散;老师可能把考试题出常努力也可能是非常懒散;老师可能把考试题出的很难,也可能出的很容易。从博弈论的角度,的很难,也可能出的很容易。从博弈论的角度,这里的老师和学生就构成
24、了一个博弈,双方的报这里的老师和学生就构成了一个博弈,双方的报酬矩阵如下:酬矩阵如下:返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统老师出考题难 易学生 学习 努力 90,85 100,90 懒散 50,60 90,70 图图8-3返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 由由于于老老师师出出难难题题比比出出容容易易题题要要花花费费更更多多的的时时间间和和精精力力,所所以以收收益益较较低低,从从而而无无论论学学生生平平时时努努力力程程
25、度度如如何何,老老师师一一定定选选择择出出容容易易的的题题;由由于于学学生生只只要要努努力力学学习习就就会会取取得得更更好好的的成成绩绩,所所以以无无论论老老师师所所出出考考题题难难度度如如何何,学学生生一一定定会会选选择择努努力力学学习,这同样构成一个习,这同样构成一个占优均衡占优均衡。经经常常遇遇到到的的还还有有一一种种均均衡衡,是是有有条条件件的的均均衡衡,叫叫做做纳纳什什均均衡衡。简简单单的的说说就就是是敌敌变变我我变变、敌敌不不变变我我亦亦不不变变。在在后后面面第第二二节节中中将将详详细细介介绍绍纳纳什什均衡。均衡。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定
26、胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 六、囚犯两难困境六、囚犯两难困境(prisoners(prisoners dilemma)dilemma)囚囚犯犯两两难难困困境境是是博博弈弈论论中中一一个个著著名名的的例例子子,讲讲的的是是甲甲乙乙两两名名嫌嫌疑疑犯犯作作案案后后被被警警察察抓抓住住,分分别别被被关关在在不不同同的的屋屋子子里里受受审审,双双方方不不能能互互通通消消息息,每每名名嫌嫌疑疑犯犯都都面面临临坦坦白白和和不不坦坦白白两两种种选选择择。警警察察告告诉诉他他们们:在在两两人人都都坦坦白白的的情情况况下下,各各判判刑刑1010年年;在在两两人人都都不不坦坦白白的的
27、情情况况下下,各各判判刑刑3 3年年;在在一一人人坦坦白白另另一一人人不不坦坦白白的的情情况况下下,坦坦白白的的一一方方会会被被从从轻轻处处罚罚,只只被被判判刑刑1 1年年,不不坦坦白白的的一一方方则则被被重重判判1515年年。可可以以根根据据坦坦白白后后是是否否会会受受到到制制裁裁两两种情况来讨论最终的均衡结果。种情况来讨论最终的均衡结果。返回返回返回返回 1 1、坦白后不会受到制裁时的情况、坦白后不会受到制裁时的情况 此时,双方收益矩阵如下:此时,双方收益矩阵如下:乙不坦白坦白甲不坦白-3,-3 -15,-1 坦白-1,-15-10,-10 图8-4返回返回返回返回篮球比赛是根据运动队在规
28、定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 如图,在乙不坦白的情况下,如果甲坦白,甲会如图,在乙不坦白的情况下,如果甲坦白,甲会被从轻处罚,只被判刑被从轻处罚,只被判刑1 1年,乙被重判年,乙被重判1515年;如果甲年;如果甲也不坦白,由于证据不足,甲乙都只会被判刑也不坦白,由于证据不足,甲乙都只会被判刑3 3年。年。在乙坦白的情况下,如果甲也坦白,甲乙会被在乙坦白的情况下,如果甲也坦白,甲乙会被判刑判刑1010年;如果甲不坦白,乙会被从轻处罚,只被判年;如果甲不坦白,乙会被从轻处罚,只被判刑刑1 1年,甲则被重判年,甲则被重判1515年。年。可见,在
29、乙不坦白的情况下,甲最好是坦白,从可见,在乙不坦白的情况下,甲最好是坦白,从而可以被从轻处罚;在乙坦白的情况下,因为被判刑而可以被从轻处罚;在乙坦白的情况下,因为被判刑1010年总比年总比1515年要好,甲最好也是坦白,所以甲会选择年要好,甲最好也是坦白,所以甲会选择坦白。坦白。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 同同理理,无无论论甲甲如如何何选选择择,乙乙的的最最好好选选择择也也是是坦坦白白。结结果果双双方方都都选选择择坦坦白白,都都被被判判刑刑1010年年。可可见见,我我国国公公安安机机关关”坦坦白白
30、从从宽宽,抗抗拒拒从从严严“的的心心理理攻攻势势在在大大多多数数情情况况下下都都是是可可以以奏奏效效的的。囚囚犯犯两两难难困困境境说说明明个个人人的的理理性性可可能能导导致致集集体体结结果果的的不不妙妙。在在现现实实社社会会中中,人人人人都都追追求求完完美美反反而可能会导致社会变得很糟糕。而可能会导致社会变得很糟糕。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 2.2.坦白后会受到制裁时的情况坦白后会受到制裁时的情况 博弈论的一个重要思想就是规则改变报酬博弈论的一个重要思想就是规则改变报酬矩阵,改变了报酬矩阵就会影
31、响到行为方式。矩阵,改变了报酬矩阵就会影响到行为方式。如果犯罪组织有着严格的惩罚制度,任何一个如果犯罪组织有着严格的惩罚制度,任何一个罪犯坦白后,不论坦白的事情严重与否,犯罪罪犯坦白后,不论坦白的事情严重与否,犯罪组织一定会杀人灭口,并且总是能迅速做到。组织一定会杀人灭口,并且总是能迅速做到。这个规则将改变报酬矩阵,新的报酬矩阵如下这个规则将改变报酬矩阵,新的报酬矩阵如下图所示:图所示:返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统乙不坦白坦白甲不坦白 -3,-3-15,-坦白-,-15 -,-图8-5返回返回返回返
32、回 由由于于坦坦白白后后将将被被灭灭口口,所所以以收收益益将将是是-。在在乙乙不不坦坦白白的的情情况况下下,甲甲最最好好是是不不坦坦白白;在在乙乙坦坦白白的的情情况况下下,因因为为被被判判刑刑1515年年总总比比死死去去要要好好,甲甲最最好好也也是是不不坦坦白白,所所以以甲甲会会选选择择不不坦坦白白。同同理理,无无论论甲甲如如何何选选择择,乙乙的的最最好好选选择择也也是是不不坦坦白白。结结果果双双方方都都选选择择不不坦坦白白,各自被判刑各自被判刑3 3年。年。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统第二节第二节
33、纳什均衡纳什均衡 一、举例一、举例 假假定定A A、B B两两个个企企业业都都生生产产白白酒酒,白白酒酒分分为为高高度度和和低低度两种。报酬矩阵如图所示:度两种。报酬矩阵如图所示:A企业高度低度B企业高度 700,600 900,1000 低度 800,900600,800 图8-6返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 对对于于B B企企业业来来说说,A A企企业业如如果果选选择择了了生生产产高高度度白白酒酒,那那么么B B企企业业会会选选择择生生产产什什么么呢呢?因因为为800 800 700 700,所
34、以,所以B B企业会选择生产低度白酒。企业会选择生产低度白酒。A A企业如果选择了生产低度白酒,因为企业如果选择了生产低度白酒,因为900 900 600 600,那么,那么B B企业会选择生产高度白酒。企业会选择生产高度白酒。对对于于A A企企业业来来说说,如如果果B B企企业业选选择择了了生生产产高高度度白白酒酒,因因为为1000 1000 600600,A A企企业业就就会会选选择择生生产产低低度白酒。度白酒。如如果果B B企企业业选选择择了了生生产产低低度度白白酒酒,因因为为900 900 800800,A A企业就会选择生产高度白酒。企业就会选择生产高度白酒。返回返回返回返回 这里,
35、这里,A A企业的决策取决于企业的决策取决于B B企业的决策,企业的决策,同样同样B B企业的决策取决于企业的决策取决于A A企业的决策。但是企业的决策。但是A A企企业选择了生产高度白酒以后,只要不变化,业选择了生产高度白酒以后,只要不变化,B B企企业就会选择生产低度白酒不变化。反过来也一业就会选择生产低度白酒不变化。反过来也一样,样,B B企业如果选择了生产高度白酒不变化,企业如果选择了生产高度白酒不变化,A A企业就会选择生产低度白酒不变化,这实际上企业就会选择生产低度白酒不变化,这实际上是一个纳什均衡,是一个纳什均衡,纳什均衡就是在给定别人最纳什均衡就是在给定别人最优的情况下,自己最
36、优选择达成的均衡。优的情况下,自己最优选择达成的均衡。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 通俗的讲,就是给定你的最优选择,我通俗的讲,就是给定你的最优选择,我会选择能够使我最优的选择,或者说,我选会选择能够使我最优的选择,或者说,我选择在给定你的选择的情况下我的最优选择,择在给定你的选择的情况下我的最优选择,你选择了给定我选择情况下你的最优选择。你选择了给定我选择情况下你的最优选择。这种均衡最后到底均衡在哪一点,由具体情这种均衡最后到底均衡在哪一点,由具体情况决定。在存在帕累托改善的情况下,可能况决定。在
37、存在帕累托改善的情况下,可能会达到帕累托最优。会达到帕累托最优。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 在在本本例例中中,B B企企业业选选择择了了生生产产高高度度白白酒酒,A A企企业业选选择择生生产产低低度度白白酒酒是是一一种种均均衡衡;B B企企业业选选择择了了生生产产低低度度白白酒酒,A A企企业业选选择择生生产产高高度度白白酒酒也也是是一一种种均均衡衡。由由于于在在B B企企业业选选择择生生产产高高度度白白酒酒,A A企企业业选选择择生生产产低低度度白白酒酒的的时时候候,A A、B B两两企企业业的
38、的收收益益都都比比B B企企业业选选择择生生产产低低度度白白酒酒,A A企企业业选选择择生生产产高高度度白白酒酒时时的的收收益益要要高高,存存在在着着帕帕累累托托改改善善,因因此此最最后后可可能能会会达达到到帕帕累累托托最最优优,即即B B企企业业选选择择生生产产高高度度白白酒酒,A A企企业业选选择择生产低度白酒。生产低度白酒。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 1.1.定义定义 设有设有n n个参与者(个参与者(n2n2),如果第),如果第i i个参与者选择个参与者选择S Si i*时时比选择比选择S
39、 Si i时的收益都要好或至少不差。换句话讲,就是在时的收益都要好或至少不差。换句话讲,就是在别人都没有变化策略的情况下,别人都没有变化策略的情况下,i i如果变化策略,如果变化策略,i i就要吃就要吃亏。这样亏。这样S Si i*就是就是i i的最优策略。即给定别人策略,自己选的最优策略。即给定别人策略,自己选择最优策略。决策做出后,每一个参与者都不会变化,至择最优策略。决策做出后,每一个参与者都不会变化,至少是别人不变化,自己就不变化。少是别人不变化,自己就不变化。概概言言之之,纳纳什什均均衡衡指指的的是是:在在一一个个纳纳什什均均衡衡里里,任任何何一一个个参参与与者者都都不不会会改改变变
40、自自己己的的策策略略,如如果果其其他他参参与与者者不不改改变策略变策略返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 2 2均衡的确定均衡的确定 在在二二人人博博弈弈中中,可可以以采采用用画画圈圈法法来来确确定定均均衡衡。在在给给定定一一方方的的策策略略后后,把把自自己己的的最最优优策策略略画画上上一一个个圆圆圈圈,如如果果在在某某一一个个框框中中,两两个个收收益益值值都都被被画画上上圆圆圈圈的的话话,此此框框所所表表示示的的决决策策就就是是一一个个均均衡衡。上上例例中中,采采用用画画圈圈法,会发现存在着两个均衡。法
41、,会发现存在着两个均衡。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统A企业高度低度B企业高度 700,600 低度 600,800 8009009001000图8-7返回返回返回返回 3.3.纳什均衡与占优均衡的比较纳什均衡与占优均衡的比较 占占优优均均衡衡一一定定是是纳纳什什均均衡衡,纳纳什什均均衡衡不不一一定定是是占占优优均均衡衡。占占优优均均衡衡比比纳纳什什均均衡衡更更稳稳定定。因因为为占占优优均均衡衡要要求求任任何何一一个个参参与与者者对对于于其其他他参参与与者者的的任任何何策策略略选选择择来来说说,其其最
42、最优优策策略略是是惟惟一一的的。而而纳纳什什均均衡衡只只要要求求任任何何一一个个参参与与者者在在其其他他参参与与者者的的策策略略选选择择给给定定的的条条件件下下,其其选选择择的的策策略略是是最最优优的的。也也就就是是说说,纳纳什什均均衡衡是是有有条条件件下下的的占占优优均均衡衡,条条件件是是它它的的参参与与者者不不改改变变策策略略。如如果果其其他他的的参参与与者者改改变变策策略略,我我就就要要改变策略。改变策略。返回返回返回返回 例如,图例如,图8-1的博弈均衡既是占优均衡,的博弈均衡既是占优均衡,同时又是纳什均衡。图同时又是纳什均衡。图8-7中的两组均衡的策中的两组均衡的策略组合,都是纳什均
43、衡,而不是占优均衡,略组合,都是纳什均衡,而不是占优均衡,返回返回返回返回 4 4无帕累托改进的例子无帕累托改进的例子 并不是所有的均衡都会有帕累托改进的机并不是所有的均衡都会有帕累托改进的机会。如下图所示,有甲乙两辆汽车同时经过一会。如下图所示,有甲乙两辆汽车同时经过一个路口,如果两车都不采取措施的话,将会发个路口,如果两车都不采取措施的话,将会发生碰撞,这时每辆车面临着继续开和等待两个生碰撞,这时每辆车面临着继续开和等待两个选择。如果两个都选择继续开的话,就会相撞,选择。如果两个都选择继续开的话,就会相撞,收益都为收益都为 -10-10。如果甲选择继续开而乙选择等。如果甲选择继续开而乙选择
44、等待,甲收益为待,甲收益为1 1,乙收益为,乙收益为0 0。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 反过来,如果乙选择继续开而甲选择等待,反过来,如果乙选择继续开而甲选择等待,乙收益为乙收益为1 1,甲收益为,甲收益为0 0。如果两车都选择等待,。如果两车都选择等待,甲乙收益都为甲乙收益都为 -1-1。这时的均衡有两个,如果。这时的均衡有两个,如果甲选择继续开,乙就会选择等待;如果乙选择甲选择继续开,乙就会选择等待;如果乙选择继续开,甲就会选择等待。继续开,甲就会选择等待。双方的收益矩阵如下图所示:双方的收益
45、矩阵如下图所示:返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统乙车乙车开开等等甲车甲车开开 -10-10,-10 -10 1 1,0 0 等等 0 0,1 1-1-1,-1-1 最终均衡在哪一种情况,取决于交通规则。最终均衡在哪一种情况,取决于交通规则。图图8-8返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 二、无纳
46、什均衡的例子二、无纳什均衡的例子 实际上,纳什均衡也是一种特殊情况,并实际上,纳什均衡也是一种特殊情况,并不是所有的博弈都会产生纳什均衡。例如:在不是所有的博弈都会产生纳什均衡。例如:在足球比赛中,罚点球的时候,守门员和罚球者足球比赛中,罚点球的时候,守门员和罚球者也构成一个博弈,双方的收益矩阵如下图所示:也构成一个博弈,双方的收益矩阵如下图所示:返回返回返回返回守门员左中右点球者左-1,1 1,-1 1,-1 中1,-1-1,1 1,-1 右1,-1 1,-1-1,1 图8-9返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类
47、型的系统 假设罚球者罚球时可以选择三个方向:左中右;假设罚球者罚球时可以选择三个方向:左中右;守门员也可选择三个方向扑球,左中右。守门员也可选择三个方向扑球,左中右。当罚球者选择了左的情况下,如果守门员也当罚球者选择了左的情况下,如果守门员也选择了左,罚球者将得选择了左,罚球者将得 -1-1,守门员将得,守门员将得 +1+1;如;如果守门员选择了右或者中,罚球者将得果守门员选择了右或者中,罚球者将得 +1+1,守门,守门员将得员将得 -1-1。当罚球者选择了中的情况下,如果守门员也当罚球者选择了中的情况下,如果守门员也选择了中,罚球者将得选择了中,罚球者将得 -1-1,守门员将得,守门员将得
48、+1+1;如;如果守门员选择了右或者左,罚球者将得果守门员选择了右或者左,罚球者将得 +1+1,守门,守门员将得员将得 -1-1。返回返回返回返回篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 当罚球者选择了右的情况下,如果守门员当罚球者选择了右的情况下,如果守门员也选择了右,罚球者将得也选择了右,罚球者将得 -1-1,守门员将得,守门员将得 +1+1;如果守门员选择了左或者中,罚球者将得;如果守门员选择了左或者中,罚球者将得 +1+1,守门员将得,守门员将得 -1-1。当判断罚球者将向左罚球的时候,守门员当判断罚球者将向左罚球的时
49、候,守门员一定选择左;一定选择左;当判断罚球者将向中罚球的时候,守门员当判断罚球者将向中罚球的时候,守门员一定选择中;一定选择中;当判断罚球者将向右罚球的时候,守门员当判断罚球者将向右罚球的时候,守门员一定选择右。一定选择右。返回返回返回返回 同样,当罚球者判断守门员将向右扑球同样,当罚球者判断守门员将向右扑球时,罚球者将向左或中发球;当罚球者判断时,罚球者将向左或中发球;当罚球者判断守门员将向右扑球时,罚球者将向右或中发守门员将向右扑球时,罚球者将向右或中发球;当罚球者判断守门员将向中扑球时,罚球;当罚球者判断守门员将向中扑球时,罚球者将向左或右发球。此时没有均衡存在,球者将向左或右发球。此时没有均衡存在,双方都只能靠运气。双方都只能靠运气。