《经济博弈论4.pptx》由会员分享,可在线阅读,更多相关《经济博弈论4.pptx(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 重复博弈重复博弈 本章介绍基本博弈重复进行构成的重复博本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程中的行为选择受到影响。这意味着在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加,必须把不能把重复博
2、弈当作基本博弈的简单叠加,必须把整个重复博弈过程作为整体进行研究。整个重复博弈过程作为整体进行研究。1重复博弈重复博弈 大多数重复博弈是静态博弈的重复,而大多数重复博弈是静态博弈的重复,而重复博弈又是一个动态的过程,属于动重复博弈又是一个动态的过程,属于动态博弈的范畴。因此重复博弈与静态博态博弈的范畴。因此重复博弈与静态博弈和动态博弈都有关系。弈和动态博弈都有关系。2本章本章分三节分三节4.1 4.1 重复博弈引论重复博弈引论4.2 4.2 有限次重复博弈有限次重复博弈4.3 4.3 无限次重复博弈无限次重复博弈34.1 重复博弈引论重复博弈引论4.1.1 4.1.1 为何研究重复博弈为何研究
3、重复博弈两家企业在一个市场上的传长期竞争;两个企业遵守两家企业在一个市场上的传长期竞争;两个企业遵守一份为期一份为期1010年协议方面的契约;商业中的回头客等年协议方面的契约;商业中的回头客等等。等。由于长期合作,通过报复、制裁、威胁等手段的相互由于长期合作,通过报复、制裁、威胁等手段的相互约束行为,追求共同的目标,考虑当前利益兼顾将约束行为,追求共同的目标,考虑当前利益兼顾将来的利益。来的利益。长期关系可以理解为博弈阶段较多,时间跨度较大的长期关系可以理解为博弈阶段较多,时间跨度较大的一般动态博弈。诚信、信任一般动态博弈。诚信、信任4.1.2 4.1.2 基本概念基本概念44.1.1 4.1
4、.1 为何研究重复博弈为何研究重复博弈 经济中的长期关系经济中的长期关系 人们的预见性人们的预见性 未来利益对当前行为的制约未来利益对当前行为的制约 长期合同、回头客、常客和一次性买卖的区别长期合同、回头客、常客和一次性买卖的区别 有无确定的结束时间有无确定的结束时间 长期关系与短期关系长期关系与短期关系 前面讨论的都是社会经济活动中短期一次性合作或竞前面讨论的都是社会经济活动中短期一次性合作或竞争关系,但社会经济活动中除了短期一次性关系以外,争关系,但社会经济活动中除了短期一次性关系以外,还存在许多长期反复的合作和竞争关系。如商业活动还存在许多长期反复的合作和竞争关系。如商业活动中的回头客。
5、中的回头客。 长期关系与短期关系之间的差别不只是时间跨度长短长期关系与短期关系之间的差别不只是时间跨度长短的数量问题,而是有重要性质的差别。在长期关系中,的数量问题,而是有重要性质的差别。在长期关系中,人们在考虑当前利益的同时,需要兼顾未来利益。人们在考虑当前利益的同时,需要兼顾未来利益。5 “冲突冲突”何以能产生合作,就是因为重复博弈的存在何以能产生合作,就是因为重复博弈的存在瑞典皇家科学院2005年10月10日在斯德哥尔摩宣布,将2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特奥曼(RobertJ.Aumann)和美国马里兰大学的托马斯谢林(ThomasC.Schelling),以表
6、彰他们“通过博弈论分析,促进了人们对冲突和合作的理解”。为此,他们获得1000万瑞典克朗(约合130万美元)的奖金。从约翰纳什开始,在博弈论这座金矿中淘到诺贝尔经济学奖的有数十位之多,与博弈论领域相关的基础研究,据说已经是第五次折桂了。 瑞典皇家科学院在授奖时说,罗伯特奥曼第一次对重复博弈进行了全面正式分析。他们认为,“重复博弈的理论促进了我们对合作先决条件的理解,阐明了包括商业协会、犯罪组织在内的许多机构进行磋商和国际贸易协定的理由”。64.1.2 基本概念基本概念 有限次重复博弈:给定一个基本博弈有限次重复博弈:给定一个基本博弈G G(可以是静态博可以是静态博弈,也可以是动态博弈),重复进
7、行弈,也可以是动态博弈),重复进行T T次次G G,并且在每并且在每次重复次重复G G之前各博弈方都能观察到以前博弈的结果,这之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为样的博弈过程称为“G G的的T T次重复博弈次重复博弈”,记为,记为G(T)G(T)。而而G G则称为则称为G(T)G(T)的的“原博弈原博弈”。G(T)G(T)中的每次重复称为中的每次重复称为G(T)G(T)的一个的一个“阶段阶段”。 无限次重复博弈:一个基本博弈无限次重复博弈:一个基本博弈G G一直重复博弈下去的一直重复博弈下去的博弈,记为博弈,记为G( )G( ) 策略:博弈方在每个阶段针对每种情况如何行为的
8、计划策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分后所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成均衡路径:由每个阶段博弈方的行为组合串联而成7 2. 2. 重复博弈的策略、子博弈和均衡路径重复博弈的策略、子博弈和均衡路径 (1) (1) 重复博弈的策略重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行策略选择,因此重复博弈中每个博弈方在每个阶段都必须进行策略选择,因此博弈方的一个策略就是在每次重复时博弈方的一个策略就是在每次重复时, , 针对其前面阶
9、段所有可针对其前面阶段所有可能的情况如何进行行动的计划。能的情况如何进行行动的计划。 (2) (2) 重复博弈的子博弈重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一阶段以外)开始,重复博弈的子博弈就是从某个阶段(除第一阶段以外)开始,包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈,只是重复的次数较少,要么就是原博弈。然是重复博弈,只是重复的次数较少,要么就是原博弈。 (3) (3) 重复博弈的均衡路径重复博弈的均衡路径 重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。重复博弈的路径是由每个阶段博弈方的行动
10、组合串联而成的。而且对应前一阶段的每一种结果,下一阶段都有原博弈全部策而且对应前一阶段的每一种结果,下一阶段都有原博弈全部策略组合数那么多种可能的结果,如原博弈有略组合数那么多种可能的结果,如原博弈有m m种策略组合,那么种策略组合,那么重复两次就有重复两次就有m m2 2条博弈路径,重复条博弈路径,重复T T次就有次就有m mT T条博弈路径,因此条博弈路径,因此在重博弈中,博弈方在重复博弈中的策略空间要远远大于在每在重博弈中,博弈方在重复博弈中的策略空间要远远大于在每个阶段博弈中的策略空间,重复博弈的路径数往往是很大的,个阶段博弈中的策略空间,重复博弈的路径数往往是很大的,常常可以产生一些
11、意想不到的均衡路径。常常可以产生一些意想不到的均衡路径。8 3重复博弈的得益重复博弈的得益 方法之一是计算重复博弈的方法之一是计算重复博弈的”总得益总得益”, ,即博弈方即博弈方各次重复得益的总和;各次重复得益的总和; 另一种方法是计算各阶段的另一种方法是计算各阶段的“平均得益平均得益”,即总得,即总得益除以重复次数。益除以重复次数。9其中,博弈总得益现在值为则考虑时间价值的重复,得益分别为,在某一均衡下各阶段次重复博弈的某博弈方如果一个,11.1.11,11132211232121TtttTTTTTT其中,现在值为无限次重复博弈总得益11.111132212321ttt重复博弈的总得益重复博
12、弈的总得益10重复博弈的平均得益重复博弈的平均得益的平均得益为相同的现在值,则称得益序列阶段的得益,能产生与无限次重复博弈)各个重复博弈或作为重复博弈(有限次平均得益:如果一常数,,2121.32212无限次重复博弈111ttt11)1 (ttt.)132212(随机停随机停止和贴止和贴现率现率114.2 4.2 有限次重复博弈有限次重复博弈4.2.1 4.2.1 两人零和博弈的有限次重复博弈两人零和博弈的有限次重复博弈4.2.24.2.2唯一纯策略纳什均衡博弈唯一纯策略纳什均衡博弈 的有限次重复博弈的有限次重复博弈4.2.34.2.3多个纯策略纳什均衡博弈多个纯策略纳什均衡博弈 的有限次重复
13、博弈的有限次重复博弈4.2.4 4.2.4 有限次重复博弈的民间定理有限次重复博弈的民间定理124.2.1 两人零和博弈的有限次重复博弈 零和博弈是严格竞争的,重复博弈并不改变这一零和博弈是严格竞争的,重复博弈并不改变这一点。点。 以零和博弈为原博弈的有限次重复博弈与猜硬币以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。是重复一次性博弈中的纳什均衡策略。 以猜硬币博弈为原博弈的有限次重复博弈中,以猜硬币博弈为原博弈的有限次重复博弈中,每个博弈方的惟一正确的策略是在每次重复时都采每个博
14、弈方的惟一正确的策略是在每次重复时都采用一次性博弈的纳什均衡策略,即各以用一次性博弈的纳什均衡策略,即各以0.50.5的概率的概率随机选正面和反面的混合策略。重复博弈的结果是随机选正面和反面的混合策略。重复博弈的结果是双方的平均期望得益和期望总得益都为双方的平均期望得益和期望总得益都为0 0。134.2.2 两人零和博弈的无限次重复博弈两人零和博弈的无限次重复博弈 两人零和博弈无限次重复的所有阶段都不可能发生合两人零和博弈无限次重复的所有阶段都不可能发生合作,博弈方会一直重复原博弈的混合策略纳什均衡作,博弈方会一直重复原博弈的混合策略纳什均衡 两人零和博弈的无限次重复与有限次重复博弈的两人零和
15、博弈的无限次重复与有限次重复博弈的结果并不会有什么不同:因为重复次数的无限增加也结果并不会有什么不同:因为重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系,不能改变原博弈中博弈方之间在利益上的对立关系,也不会创造出潜在的合作利益,因此在这种博弈的无也不会创造出潜在的合作利益,因此在这种博弈的无限次重复博弈中,博弈方仍然是每次重复都根据当时限次重复博弈中,博弈方仍然是每次重复都根据当时的最大利益行为,采用原博弈的混合策略纳什均衡。的最大利益行为,采用原博弈的混合策略纳什均衡。 两人零和博弈无限次重复博弈会不会发生合作?两人零和博弈无限次重复博弈会不会发生合作?144.2.24.2
16、.2唯一纯策略纳什均衡博弈的唯一纯策略纳什均衡博弈的 有限次重复博弈有限次重复博弈 定理:设原博弈定理:设原博弈G G有唯一的有唯一的纯策略纳什均衡纯策略纳什均衡, ,则对任意则对任意整数整数T T,重复博弈重复博弈 G(T)G(T)有唯有唯 一的子博弈完美纳什均衡,一的子博弈完美纳什均衡,即各博弈方每个阶段都采用即各博弈方每个阶段都采用G G的纳什均衡策略。各博弈的纳什均衡策略。各博弈方在方在G(T)G(T)中的总得益为在中的总得益为在G G中得益的中得益的T T倍,平均得益的倍,平均得益的与原博弈与原博弈G G中的得益。中的得益。-5-5,-5-50 0,-8-8-8-8,0 0-1-1,
17、-1-1坦坦 白白不坦白不坦白囚徒囚徒2 2坦白坦白不坦白不坦白囚囚徒徒1 1(-5-5,-5-5)-10-10,-10-10-13-13,-5-5-5-5,-13-13-6-6,-6-6坦坦 白白不坦白不坦白囚徒囚徒2 2坦白坦白不坦白不坦白囚囚徒徒1 1(-10-10,-10-10)15有限次重复削价竞争博弈有限次重复削价竞争博弈100,100 20,150150,2070,70高高 价价低低 价价高价高价低价低价寡头寡头2寡寡头头1削价竞争博弈削价竞争博弈有唯一纯策略纳什均衡有唯一纯策略纳什均衡(70,70)有限次重复的结果仍然是有限次重复的结果仍然是(低价,低价)(低价,低价)164.
18、4 多个多个纯策略纳什均衡的重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈原原博弈存在两个纯策略纳什均衡(博弈存在两个纯策略纳什均衡(M,M),),(L,L)以及混合策略纳什均衡。以及混合策略纳什均衡。174.4.1多个纯策略纳什均衡的有限次有限次重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈重复重复2次次触发策略触发策略:两博弈方先试探合作,一旦发现对方不合作则也用:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复博弈方不合作报复博弈方1 1:第一次选:第一次
19、选H H;如第一次结果为;如第一次结果为(H,H)(H,H),则,则第二次选第二次选M M,否则选,否则选L L。博弈方博弈方2 2:同博弈方:同博弈方1 1185,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈2,23,13,11,34,47,11,31,78,8厂厂商商1厂商厂商2LMHHML两次重复三价博弈的等价模型两次重复三价博弈的等价模型如果重复如果重复n次,结论相似。采用触发策略实现比较好的结果,次,结论相似。采用触发策略实现比较好的结果,子博弈完美纳什均衡路径为:除了最后一次外,每次都采用子博弈完美纳什均衡路径为:除了最后一次外
20、,每次都采用(H,H),),最后一次采用(最后一次采用(M,M)。)。当重复次数较多时,当重复次数较多时,平均得益接近于一次性博弈中(平均得益接近于一次性博弈中(H,H)的得益(的得益(5,5)。)。19 在上面的分析中,我们发现触发策略重复是一种非常重要的机制,采用这种策略就意味着对将来策略选择所作的可信的威胁或承诺可以影响到当前阶段的行动选择。但如果仔细分析,不难发现上述触发策略也可能存在值得推敲的问题,就是报复机制的可信性。惩罚别人也惩罚自己!惩罚别人也惩罚自己!5,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈n关于关于“触发策略触发
21、策略”的讨的讨论论20其实,并不是每个重复博弈的触发策略都有可信性问题,触发策略在很多情况下是非常可信的。可以证明,双方的上述触发策略组合(可以证明,双方的上述触发策略组合(H H,H H),(),(M M,M M)构成该)构成该 重复博弈的一个子博弈精炼纳什均衡,而且双方的触发策略中的重复博弈的一个子博弈精炼纳什均衡,而且双方的触发策略中的 报复都是可信的。报复都是可信的。21 在博弈理论中,有两个著名的策略: 1.触发策略触发策略(Trigger strategies )。 2.“一报还一报一报还一报”策略策略:也就是若你采取不合作策略,我也采取不合作策略,但是如果你采取了合作策略,我也采
22、取合作策略。这叫,或者称为“针锋相对”,英文叫Tit-for-Tat。22 一报还一报的策略是这样的:第一次博弈采用合作的一报还一报的策略是这样的:第一次博弈采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。也我这一次就合作,你上一次不合作,我这一次就不合作。也就是说,一报还一报的策略实行了就是说,一报还一报的策略实行了“胡萝卜加大棒胡萝卜加大棒”的原则。的原则。它永远不先背叛对方,从这个意义上来说它是它永远不先背叛对方,从这个意义上来说它是“善意的善意的”。它会在下一轮中对对
23、手的前一次合作给予回报它会在下一轮中对对手的前一次合作给予回报, ,哪怕以前这哪怕以前这个对手曾经背叛过它,从这个意义上来说它是个对手曾经背叛过它,从这个意义上来说它是“宽容的宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是义上来说它又是“可激怒的可激怒的”。而且,它的策略极为简单,。而且,它的策略极为简单,对手一望便知其用意何在,从这个意义来说它又是对手一望便知其用意何在,从这个意义来说它又是“简单明简单明了的了的”。“一报还一报一报还一报”策略的优越性向我们充分展示了一策略的优越性向我们充分展示了一个纯粹自利的
24、人何以会选择善,只因为合作是自我利益最大个纯粹自利的人何以会选择善,只因为合作是自我利益最大化的一种必要手段。化的一种必要手段。 23 美国密执安大学的罗伯特埃克斯罗德(Robert Axerold)曾经主持过一次计算机比赛,看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家,他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的罗伯布(Anatol Rapoport)写的“一报还一报”(Tit-for-Tat)策略。 24两市场博弈的重复博弈(重复一次)0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈纯策略纳什均衡:纯策略纳什均衡: (A,B)(A,B
25、)和和(A,B)(A,B),对应得益为(对应得益为(1 1,4 4)和(和(4 4,1 1) 混合策略纳什均衡:分别以混合策略纳什均衡:分别以1/21/2的概率随机在的概率随机在A A或或B B中选中选择,择,双方得益为双方得益为1/41/4(3 34 41 10 0)2 2两市场博弈的重复博弈25两市场博弈的重复博弈(重复两次)两市场博弈的重复博弈(重复两次) (A,B)+(A,B) OR (B,A)+(B,A)(1,4)OR(4,1)(A,B)+(A,B) OR (B,A)+(B,A)(1,4)OR(4,1) 连续两次采用混合策略连续两次采用混合策略(2,2)(2,2) (A,B)+(B,
26、A) OR (B,A)+(A,B)(2.5,2.5)(A,B)+(B,A) OR (B,A)+(A,B)(2.5,2.5)轮轮换策略换策略 一次纯策略一次纯策略+ +一次混合策略一次混合策略(1.5,3)OR(3,1.5)(1.5,3)OR(3,1.5)0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈26重复博弈不同策略、均衡及一次性博弈得益重复博弈不同策略、均衡及一次性博弈得益比较比较 不同策略组合、均衡得益图示厂商厂商2得益得益厂商厂商1得益得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)27重复博弈不同策略、均衡及一次性博
27、弈得益比较重复博弈不同策略、均衡及一次性博弈得益比较 不同策略组合、均衡得益图示不同策略组合、均衡得益图示厂商厂商2得益得益厂商厂商1得益得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)轮换策略结果比较好,但与最佳结果(轮换策略结果比较好,但与最佳结果(A A,A A)还有一定差距。还有一定差距。本博弈不能实现最佳结果原因,是因为这个两次重复博弈没有本博弈不能实现最佳结果原因,是因为这个两次重复博弈没有运用触发策略的条件或者说机会。运用触发策略的条件或者说机会。0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈28两市场博弈的重复
28、博弈(重复三次)两市场博弈的重复博弈(重复三次)如果两市场重复如果两市场重复3 3次,则博弈结果会得次,则博弈结果会得到进一步改善,关键是在两次重复博弈到进一步改善,关键是在两次重复博弈时没有条件运用触发策略,在时没有条件运用触发策略,在3 3次以上次以上的重复博弈中有了运用的条件。的重复博弈中有了运用的条件。0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈厂商厂商1:第一阶段选:第一阶段选A;如果第一阶段结果是(如果第一阶段结果是(A,A),),则第则第二阶段选二阶段选A,如果第一阶段结果是(,如果第一阶段结果是(A,B),),则第二阶段选则第二阶段选B;第三阶段无条
29、件选第三阶段无条件选B。厂商厂商2:第一阶段选:第一阶段选A,第二阶段无条件选第二阶段无条件选B,如果第一阶段结如果第一阶段结果是(果是(A,A),则第三阶段选),则第三阶段选A;如果第一阶段结果是(如果第一阶段结果是(B,A),),则第三阶段选则第三阶段选B。均衡路径(均衡路径(A,A) (A,B) (B,A)29两市场博弈的重复博弈(重复三次)两市场博弈的重复博弈(重复三次)0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈其中第二阶段、第三阶段本身就是其中第二阶段、第三阶段本身就是纳什均衡,因此不会有哪一方愿单纳什均衡,因此不会有哪一方愿单独偏离。第一阶段的策略组合
30、虽然独偏离。第一阶段的策略组合虽然并不是原博弈的纳什均衡,但由于并不是原博弈的纳什均衡,但由于有后面阶段利益的制约作用,但它有后面阶段利益的制约作用,但它作为作为3 3次重复博弈的第一次博弈的次重复博弈的第一次博弈的策略组合具有稳定性。策略组合具有稳定性。该子该子博弈完美纳什均衡的平均得益为博弈完美纳什均衡的平均得益为(314)/32.67,大于其他任何子博弈完美纳什均衡的平,大于其他任何子博弈完美纳什均衡的平均得益,因此从总体效率的意义上,这个带触发策均得益,因此从总体效率的意义上,这个带触发策略的子博弈完美纳什均衡是众多子博弈完美纳什均略的子博弈完美纳什均衡是众多子博弈完美纳什均衡中效率最
31、高的。衡中效率最高的。30两市场博弈的重复博弈(重复两市场博弈的重复博弈(重复101次)次)厂商厂商1触发策略:前触发策略:前99次选次选A;但从其中的第二次开始,;但从其中的第二次开始,一旦发现哪次的结果不是(一旦发现哪次的结果不是(A,A),则改为),则改为B并坚持到并坚持到底,最后两次重复与底,最后两次重复与3次重复博弈的后两次重复的策略相次重复博弈的后两次重复的策略相同。同。厂商厂商2触发策略:同厂商触发策略:同厂商1每每阶段的平均得益:阶段的平均得益:(99*3+1+4)/101=2.99非常接近效率最高的得益(非常接近效率最高的得益(3,3)31 由上面两个重复博弈例子的分析可以看
32、出,当原由上面两个重复博弈例子的分析可以看出,当原博弈有多个纯策略纳什均衡时,有限次重复博弈存博弈有多个纯策略纳什均衡时,有限次重复博弈存在许多效率差异很大的子博弈完美纳什均衡,并且在许多效率差异很大的子博弈完美纳什均衡,并且可以通过设计包含报复机制的触发策略,来实现效可以通过设计包含报复机制的触发策略,来实现效率较高的均衡,得到一次性博弈中无法实现的潜在率较高的均衡,得到一次性博弈中无法实现的潜在合作利益。而提高效率和发掘潜在利益可能性和程合作利益。而提高效率和发掘潜在利益可能性和程度,则主要决定于运用特定策略的条件,采用的策度,则主要决定于运用特定策略的条件,采用的策略,以及重复博弈的次数
33、。由此,我们得到如下的略,以及重复博弈的次数。由此,我们得到如下的“无名氏定理无名氏定理”(Folk TheoremFolk Theorem)。)。在阐述在阐述“无名无名氏定理氏定理”之前,我们再介绍几个关于得益的概念。之前,我们再介绍几个关于得益的概念。有限重复博弈的有限重复博弈的“无名氏定理无名氏定理” (Folk Theorem)32 设设w wi i为博弈方为博弈方i i在一次性博弈中最差的均衡得益,用在一次性博弈中最差的均衡得益,用w w记各博记各博弈方的弈方的w wi i构成的得益数组。构成的得益数组。 无论其他博弈方行为如何,一博弈方在某个博弈中自己采取无论其他博弈方行为如何,一
34、博弈方在某个博弈中自己采取某种特定的策略,能够最低限度保证得到的得益称为某种特定的策略,能够最低限度保证得到的得益称为“保留保留得益得益”(Reservation PayoffReservation Payoff)或或“个体理性得益个体理性得益”(Individual Rationality PayoffIndividual Rationality Payoff)。)。 博弈中所有纯策略组合得益的凸组合(博弈中所有纯策略组合得益的凸组合(Convex CombinationConvex Combination)即纯策略得益的加权平均(权重数非负且总和为即纯策略得益的加权平均(权重数非负且总和为
35、1 1)数组称为)数组称为“可实现得益可实现得益”(Feasible PayoffFeasible Payoff)。)。 33 有了这几个得益概念,我们就可以给出次数较多的有限次重复博弈的“无名氏定理”: 有限重复博弈 “无名氏定理”:设原博弈G为一个完全信息的静态博弈,原博弈G的一次性博弈均衡得益数组优于w,那么在该博弈的多次重复中,所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得益来实现他们。34 下面以两下面以两市场博弈的重市场博弈的重复博弈为例来复博弈为例来说明该定理。说明该定理。0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈
36、在两市场博弈中,两个博弈方最差的均衡得益都是在两市场博弈中,两个博弈方最差的均衡得益都是1 1,因此构,因此构成得益数组成得益数组w=w=(1 1,1 1););只要采取只要采取A A策略,两个博弈方都至少策略,两个博弈方都至少得到得到1 1以上的得益,因此以上的得益,因此1 1就是这两个博弈方的个体理性得益;就是这两个博弈方的个体理性得益;该博弈中的可实现得益就是下图中由(该博弈中的可实现得益就是下图中由(0 0,0 0),(),(1 1,4 4)、)、(3 3,3 3)和()和(4 4,1 1)四点连成边界线围起来的整个阴影部分面)四点连成边界线围起来的整个阴影部分面积中点坐标。很显然,该
37、博弈的一次性博弈中显然存在均衡得积中点坐标。很显然,该博弈的一次性博弈中显然存在均衡得益数组优于益数组优于w w,满足民间定理的条件,因此所有不小于个体理,满足民间定理的条件,因此所有不小于个体理性得益的可实现得益,即图中(性得益的可实现得益,即图中(1 1,1 1)、()、(1 1,4 4)、()、(3 3,3 3)和(和(4 4,1 1)四点连成边界线所围阴影部分面积中点对应的双方)四点连成边界线所围阴影部分面积中点对应的双方得益,都有子博弈完美纳什均衡或这种均衡的极限来实现它。得益,都有子博弈完美纳什均衡或这种均衡的极限来实现它。 354.2.4 有限次重复博弈的民间定理 个体理性得益:
38、不管其它博弈方的个体理性得益:不管其它博弈方的行为如何,一博弈方在某个博弈中行为如何,一博弈方在某个博弈中只要自己采取某种特定的策略,最只要自己采取某种特定的策略,最低限度保证能获得的得益低限度保证能获得的得益 可实现得益:博弈中所有纯策略组可实现得益:博弈中所有纯策略组合得益的加权平均数组合得益的加权平均数组 定理:设原博弈的一次性博弈有均定理:设原博弈的一次性博弈有均衡得益数组优于衡得益数组优于w w,那么在该博弈的那么在该博弈的多次重复中所有不小于个体理性得多次重复中所有不小于个体理性得益的可实现得益,都至少有一个子益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得博弈完美纳什
39、均衡的极限的平均得益来实现它们益来实现它们厂商2得益厂商1得益(1,4)(3,3)(1,1)(4,1)w=(1.1)36 例如(例如(4 4,1 1)和()和(1 1,4 4)可用每次采用原博弈同)可用每次采用原博弈同一个纳什均衡的子博弈完美纳什均衡来实现,这两一个纳什均衡的子博弈完美纳什均衡来实现,这两点连线上的点可用原博弈两个纯策略纳什均衡的某点连线上的点可用原博弈两个纯策略纳什均衡的某种组合来实现,(种组合来实现,(3 3,3 3)可用重复次数不断增加前)可用重复次数不断增加前述触发策略构成的子博弈完美纳什均衡的极限实现述触发策略构成的子博弈完美纳什均衡的极限实现等。等。w37 在所有可
40、实现得益或优于在所有可实现得益或优于w=w=(1 1,1 1)的可实现得益中,的可实现得益中,只有处于(只有处于(1 1,4 4)与()与(3 3,3 3)和()和(3 3,3 3)与()与(4 4,1 1)两条连)两条连线上,包括这三点本身的可实现得益有较重要的意义,因为线上,包括这三点本身的可实现得益有较重要的意义,因为它们代表了帕累托效率意义上最有效率的均衡得益。无名氏它们代表了帕累托效率意义上最有效率的均衡得益。无名氏定理的关键意义正是在于保证这些得益有一定次数重复博弈定理的关键意义正是在于保证这些得益有一定次数重复博弈的子博弈完美纳什均衡的平均得益可以实现或逼近它们。的子博弈完美纳什
41、均衡的平均得益可以实现或逼近它们。w38 通过上面几个例子的分析我们发现,在一次性博通过上面几个例子的分析我们发现,在一次性博弈和有限次重复中都无法实现的囚徒困境博弈中的弈和有限次重复中都无法实现的囚徒困境博弈中的合作关系,在无限次重复博弈的情况下是可以实现合作关系,在无限次重复博弈的情况下是可以实现的。而且在有限次重复博弈中只有在原博弈有多个的。而且在有限次重复博弈中只有在原博弈有多个纯策略纳什均衡的情况下才会存在的合作,在无限纯策略纳什均衡的情况下才会存在的合作,在无限重复博弈的情况下只要原博弈有一个纳什均衡就可重复博弈的情况下只要原博弈有一个纳什均衡就可能存在。于是,我们又得到无限次重复
42、博弈的无名能存在。于是,我们又得到无限次重复博弈的无名氏定理。氏定理。 二、二、 无限重复博弈的无限重复博弈的 “无名氏定理无名氏定理”39两寡头削价竞争博弈两寡头削价竞争博弈 4, 40 , 55, 01, 1HLHL4.3.2唯一纯策略纳什均衡的无限次重复唯一纯策略纳什均衡的无限次重复博弈博弈 该博弈一次性博弈均衡是都采用低价,是囚徒困该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈境型博弈厂商厂商1厂商厂商240无限次重复两寡头削价博弈无限次重复两寡头削价博弈 “触发策略触发策略”(冷酷策略)(冷酷策略) :第一阶段:第一阶段采用采用H H,如果前如果前t-1t-1阶段的结果都是阶段的
43、结果都是(H,H)(H,H),则继续采用则继续采用H H,否则采用否则采用L L。15115214444432V4,40,55,01,1HLHL如果博弈方如果博弈方2在第一阶段采用在第一阶段采用L,总得益现值为:,总得益现值为:如果博弈方如果博弈方2第一阶段采用第一阶段采用H,总得益现值为:,总得益现值为:时时,即当411514博弈方博弈方2 2会采用会采用H H策,否则会采用策,否则会采用L L策,即此时,博弈方策,即此时,博弈方2 2对对博弈方博弈方1 1触发策略的最佳反应是第一阶段采用触发策略的最佳反应是第一阶段采用H H。41由于从第二阶段开始的无限次重复博弈,与从第一阶段开始由于从第
44、二阶段开始的无限次重复博弈,与从第一阶段开始的无限次重复博弈是完全相同的,因此博弈方第二阶段的选的无限次重复博弈是完全相同的,因此博弈方第二阶段的选择必然也是择必然也是H H,第三阶段也同样。依次类推。第三阶段也同样。依次类推。 因为重复博弈的子博弈就是重复一定次数之后的全部重复因为重复博弈的子博弈就是重复一定次数之后的全部重复博弈过程,因此无限次重复博弈的子博弈还是无限次重复博弈。博弈过程,因此无限次重复博弈的子博弈还是无限次重复博弈。由于前述两博弈方的触发策略在所有子博弈中都仍然构成相同由于前述两博弈方的触发策略在所有子博弈中都仍然构成相同的触发策略,因此必然也是这些子博弈的纳什均衡,从而
45、上述的触发策略,因此必然也是这些子博弈的纳什均衡,从而上述触发策略组合构成整个无限次重复博弈的子博弈完美纳什均衡,触发策略组合构成整个无限次重复博弈的子博弈完美纳什均衡,其均衡路径为两博弈方每阶段都选择其均衡路径为两博弈方每阶段都选择H H。只要博弈方只要博弈方1 1采用前述触发策略、那么博弈方采用前述触发策略、那么博弈方2 2的最优选择就始的最优选择就始终是终是H H。当然,如果博弈方。当然,如果博弈方1 1偏离偏离H H,博弈方博弈方2 2也必须用也必须用L L来报复。来报复。因此博弈方因此博弈方2 2对博弈方对博弈方1 1触发策略的完整反应策略是同样的触发触发策略的完整反应策略是同样的触
46、发策略。这就证明了双方都采取上述触发策略是一个纳什均衡。策略。这就证明了双方都采取上述触发策略是一个纳什均衡。42两寡头削价竞争无限次重复博弈的民间定理两寡头削价竞争无限次重复博弈的民间定理厂商2得益厂商1得益(4,4)(1,1)(5,0)(5,0),(),(1),(),(11niininxxGiexGxxGeeG均得益为什均衡,各博弈方的平完美纳中一定存在一个子博弈次重复博弈,那么无限足够接近都成立,而对任意博弈方果的任意可实现得益。如表示用的纳什均衡的得益,记的静态博弈。用是一个完全信息理:设无限次重复博弈民间定431,15,00,54,4厂厂商商1厂商厂商2LHHL两寡头削价竞争博弈两寡
47、头削价竞争博弈 在上述两寡头头削价竞争模型的无限次重复博弈中,纳什均在上述两寡头头削价竞争模型的无限次重复博弈中,纳什均衡的得益数组为衡的得益数组为(1(1,1)1),所有可实现得益构成图,所有可实现得益构成图4 41212中由中由(1(1,1)1)、(0(0,5)5)、(4(4,4)4)利利(5(5,0)0)四点连成边界线围成的整个阴影四点连成边界线围成的整个阴影部分面积中点的坐标。无限次重复博弈的民间定理应用到该博部分面积中点的坐标。无限次重复博弈的民间定理应用到该博弈中意味着,由图弈中意味着,由图4 41212中竖线条阴影部分中点的坐标对应的中竖线条阴影部分中点的坐标对应的双方数组,在该
48、博弈的无限次重复博弈中,都有无限次重复博双方数组,在该博弈的无限次重复博弈中,都有无限次重复博弈的子博弈完美纳什均衡的平均得益来实现它们。弈的子博弈完美纳什均衡的平均得益来实现它们。44 在无限次重复古诺模型中,当贴现率在无限次重复古诺模型中,当贴现率 满足一定条件时,满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡:两厂商采用下列触发策略构成一个子博弈完美纳什均衡:4.5 1.5, 4.5 1.53.75 1.5 , 55 , 3.75 1.54 2 , 4 21 不突破厂商突破厂商厂商2不突破不突破 突破突破 在第一阶段生产垄断产量的一半在第一阶段生产垄断产量的一半1.5;
49、在第;在第 t 阶段,如阶段,如果前果前 t-1 阶段结果都是阶段结果都是(1.5,1.5),则继续生产,则继续生产1.5,否则生产,否则生产古诺产量古诺产量2。应用:应用: 无限次重复古诺模型无限次重复古诺模型 在无限次重复古诺模型中,当贴现率在无限次重复古诺模型中,当贴现率 满足一定条件时,满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡:两厂商采用下列触发策略构成一个子博弈完美纳什均衡:45 设厂商设厂商1已采用该触发策略,若厂商已采用该触发策略,若厂商2也采用该触发策略,也采用该触发策略,则每期得益则每期得益4.5,无限次重复博弈总得益的现值为:,无限次重复博弈总得益的
50、现值为:22225 . 4max25 . 18max222qqqqqqq25. 22q15 . 415 . 421 不突破厂商突破厂商厂商2不突破不突破 突破突破 如果厂商如果厂商2偏离上述触发策略,则他在第一阶段所选产量偏离上述触发策略,则他在第一阶段所选产量应为给定厂商应为给定厂商1产量为产量为1.5时,自己的最大利润产量,即满足:时,自己的最大利润产量,即满足:解得解得 ,此时利润为,此时利润为5.0625,高于触发策略第一阶段,高于触发策略第一阶段得益得益4.5。4.5 1.5, 4.5 1.53.75 1.5 , 55 , 3.75 1.54 2 , 4 246 结论结论: :在在