重复博弈研幻灯片.ppt-淘文阁

资源描述

《重复博弈研幻灯片.ppt》由会员分享，可在线阅读，更多相关《重复博弈研幻灯片.ppt（31页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、重复博弈研第1页，共31页，编辑于2022年，星期三1 基本博弈（回顾）n囚徒困境是这样一个博弈：每个参与人有一个占优策略，但是，当所有参与人使用他们这一占优策略时，所产生的均衡对于每个人的结果，比他们都使用劣策略反而还要差。-8，-80，-10-10，0-1，-1囚徒 A坦白抵赖坦白抵赖囚徒 B第2页，共31页，编辑于2022年，星期三1 基本博弈（回顾）-8，-80，-10-10，0-1，-1囚徒 A坦白抵赖坦白抵赖囚徒 B第3页，共31页，编辑于2022年，星期三1 基本博弈（回顾）n 解法1：重复A开发不开发BB开发不开发开发(-3,-3)(1，0)（0，1)(0,0)不开发xx第4页

2、，共31页，编辑于2022年，星期三1 基本博弈（回顾）n 解法1：重复重复博弈的特征第5页，共31页，编辑于2022年，星期三2 博弈的有限次重复重复博弈均衡结果的影响因素：博弈重复的次数第6页，共31页，编辑于2022年，星期三2 博弈的有限次重复288，288360，216216，360324，324餐馆 A20(背叛)26(合作)餐馆 B20(背叛)26(合作)第7页，共31页，编辑于2022年，星期三2 博弈的有限次重复n如果他们只经营3个月，则餐馆会分析且选择它们三个月中的最优策略。第8页，共31页，编辑于2022年，星期三2 博弈的有限次重复第9页，共31页，编辑于2022年，

3、星期三2 博弈的有限次重复40，50-10，00，3000，300进入者进入不进入默许斗争在位者第10页，共31页，编辑于2022年，星期三2 博弈的有限次重复定理：令G为阶段性博弈，G(T)是G重复T次的重复博弈（T）。如果G有唯一的纳什均衡解，重复博弈G(T)的唯一SPNE结果是阶段博弈G的纳什均衡重复T次。第11页，共31页，编辑于2022年，星期三3 博弈的无限次重复对有限次重复囚徒困境的分析证明了即使博弈重复进行也不能解决问题，但是如果双方的关系没有一定的期限又会怎么样呢？如果两家囚徒彼此永远竞争下去呢？第12页，共31页，编辑于2022年，星期三3 博弈的无限次重复第13页，共31

4、页，编辑于2022年，星期三3 博弈的无限次重复思考：当某家餐馆使用TFT策略时，重复博弈如何进行？餐馆A背叛合作一个月，会额外获得36的支付（360而不是324）。但如果餐馆B采取TFT策略会如何？餐馆B会在下一个月惩罚餐馆A。此时餐馆A有两个选择：它可以继续以20元背叛合作，而餐馆B会根据TFT策略来惩罚它，这样餐馆A会在接下来的每个月失去36的支付（288而不是324）代价很大。可以选择回到合作策略上：因此只受到餐馆B一个月的惩罚，并且在惩罚中损失108（得到216而不是324）。在A背叛后的第二个月，双方回到合作并得到每月324支付。第14页，共31页，编辑于2022年，星期三3 博弈

5、的无限次重复餐馆A在第一个月背叛得到额外36，但未来会遭受损失，所以这一得一失的相对重要性取决于现在与未来的相对重要性。第15页，共31页，编辑于2022年，星期三3 博弈的无限次重复当对手采取TFT策略时，餐馆A背叛一次是否划算？1/(1+r)贴现因子第16页，共31页，编辑于2022年，星期三3 博弈的无限次重复当对手采取TFT策略时，餐馆A永久背叛是否划算？第17页，共31页，编辑于2022年，星期三3 博弈的无限次重复第18页，共31页，编辑于2022年，星期三3 博弈的无限次重复n 给定别人选择冷酷战略，“我”一直选择合作的支付为n 给定别人选择冷酷战略，“我”选择背叛的支付为n

6、给定别人选择冷酷战略，“我”一直选择合作的条件是当合作作为均衡结果出现第19页，共31页，编辑于2022年，星期三3 博弈的无限次重复含义：在无限次重复博弈中，如果参与人对未来足够重视（足够大），那么，任何程度的合作都可以通过一个特定的子博弈精炼纳什均衡得到。无名氏定理无名氏定理（Friedman1971)：在无限次重复博弈中，当贴现因子足够大时，任何帕累托优于单阶段博弈纳什均衡的收益组合(支付向量)都可以实现，即都能够成为子博弈精炼纳什均衡结果。第20页，共31页，编辑于2022年，星期三3 博弈的无限次重复囚徒困境博弈的可行支付集合-8，-80，-10-10，0-1，-1坦白抵赖坦白抵

7、赖惩罚点（纳什均衡点）(-1,-1)(-10,0)(-8,-8)(0,-10)第21页，共31页，编辑于2022年，星期三3 博弈的无限次重复等待的补偿：经济学里讲的时间价值结束的不确定性无限次重复博弈，可以解释为有限次博弈，只是到底在那一阶段结束博弈是不确定的，每一阶段都有可能结束博弈，而且各阶段结束博弈的概率p是相等的。数学推理如下：n博弈达到t阶段的概率为(1-p)t-1,那么t阶段支付的期望值为t(1-p)t-1，其贴现值为t-1 t(1-p)t-1，令=(1-p)即得结论。贴现因子的另一种解释第22页，共31页，编辑于2022年，星期三3 博弈的无限次重复1，1-1，20，00，0消

8、费者购买不购买高质量低质量厂商n 假定厂商从生产高质量产品开始；继续生产高质量产品，除非曾经生产过低质量；如果上一次生产了低质量，则永远生产低质量n 第一个消费者选择购买；只要厂商不曾生产过低质量，随后的消费者继续购买；如果曾经厂商生产过低质量，则之后的消费者不再购买。第23页，共31页，编辑于2022年，星期三3 博弈的无限次重复n可以证明，当0.5时，该策略组合为SPNE。均衡结果是（购买，高质量）n重复博弈时，厂商不敢以劣货欺人n厂商有积极性考虑长远利益时，就会建立一个信誉。n为什么买于“坐贾”而非“行商”？为什么车站旁边的劣质品那么多？n企业存在的一个原因是创造一个“长期参与人”，因其

9、考虑长期利益而遵章守纪、态度积极第24页，共31页，编辑于2022年，星期三亚当斯密：最商业化的社会，也是最讲究道德的社会。3 博弈的无限次重复第25页，共31页，编辑于2022年，星期三解法：惩罚与奖励施加直接惩罚于背叛的参与人：将惩罚的成本考虑后，参与人的支付就会发生改变，囚徒困境就迎刃而解。囚徒 A坦白抵赖坦白抵赖囚徒 B-8，-80，-10-10，0-1，-1-8，-8-6，-10-10，-6-1，-1第26页，共31页，编辑于2022年，星期三解法：惩罚与奖励囚徒 A坦白抵赖坦白抵赖囚徒 B-8，-80，-10-10，0-1，-1-13，-13-5，-10-10，-5-1，-1第27

10、页，共31页，编辑于2022年，星期三解法：领导n在囚徒困境的许多例子中，博弈都假定为对称，所以参与人在背叛（合作）时，失去（得到）的支付完全相等。n然而，在实际的策略情况下，一个参与者可能相对较“大”（领导者），另一个相对较“小”。n如果支付相差较大，则背叛时，大部分的损害会如落在较大参与者身上，以致她明知对手会背叛，依然选择合作行动。第28页，共31页，编辑于2022年，星期三解法：领导多米尼加和索婆利亚两国人口受到一种名为急性发作睡眠（SANE)的疾病的威胁，每2000人有1人会感染这种疾病（0.05%感染率），让感染者陷入1年的深度睡眠但会造成巨大损失。每名工人因生病一年不能工作的损

11、失是32000美元。国家1亿名工人，患病人数50000，预计损失为16亿美元。两国损失之和为32亿。科学家确信投入20亿美元，可迅速研制100%有效疫苗。两国独立决策是否出钱赞助该项目。但一旦一国赞助，另一国则可不费成本得到科研成果使用疫苗第29页，共31页，编辑于2022年，星期三解法：领导多米尼加研发不研发研发不研发索婆利亚-2，-2-2，00，-2-1.6，-1.6-2，-2-2，00，-2-2.4，-0.8第30页，共31页，编辑于2022年，星期三解法：领导n国际外交中，常常可见在囚徒困境中出现领导者的局面，领导者局面出现在大型的参与人身上，这种现象叫做“以小欺大”n较大的国家选择承担领导者的角色，为整个世界提供利益。n大的参与人在行动中更容易合作第31页，共31页，编辑于2022年，星期三

展开阅读全文