《博弈论与信息经济经济学系学.pptx》由会员分享,可在线阅读,更多相关《博弈论与信息经济经济学系学.pptx(185页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、博弈论与信息经济学经济学系 陶金13387555749E-mail:参考文献:1.艾里克拉斯穆森(Eric Rasmusen),博弈与信息:博弈论概论,中国人大出版社第三、四版,。2.克里斯汀蒙特等(Christian Montet),博弈论与经济学,经济管理出版社2005年版。3.朱弗登博格和让梯若尔(Drew Fudenberg and Jean Tirole),博弈论,中国人大出版社2002年版。4.张维迎,博弈论与信息经济学,上海人民出版社1996年版。5.谢炽予,经济博弈论,复旦大学出版社第三版。第一章 导论“正如理性预期学派使宏观经济学发生革命一样,博弈论广泛而深远地改变了经济学家
2、的思维方式。”让梯若尔(Jean Tirole)(和让雅克拉丰一起创立图卢兹学图卢兹学派派)经济学与博弈论的契合20世纪80年代以来,博弈论迅速成为主流经济的重要组成部分,几乎吞没了整个微观经济学,就如同计量经济学吞没了“经验经济学”一样。为什么?博弈论的研究范式:建模者对players规定pay-off functions 和strategy sets,观察当参与人选择策略以最大化其支付时会产生什么结果。原因一,博弈论的研究范式是“Maximization Subject to Constraints”和“No Free Lunch”经济学思想的结合。原因二,主流经济学对寡头垄断的束手无策。
3、博弈论是建模的工具,它依赖于ideas。运用博弈论建模的方式通常称为“无脂建模”(no-fat modeling)或者实例建模(modeling by example)或者实例化理论。Fisher“实例化理论并不告诉我们什么是必将发生的,而只告诉我们什么是可以发生的。”社会的两个基本问题:协调(协调(coordination)协调问题的核心核心是预测(prediction):预测其他人如何行为;合作(合作(cooperation)合作问题的核心核心是激励(incentive)个人行为与社会利益的冲突什么是个人的最优选择?什么是社会的最优选择?如何把个人行为与社会利益统一起来?“美丽心灵”纳什在
4、1994年诺贝尔经济学奖揭晓的那天下午,普林斯顿大学为纳什举行了一个小型香槟酒会。纳什在会上说,他不习惯发表讲话,但这次他有三件事要说。第一件事就是,他希望获得诺贝尔奖可以改善他的信用评级,因为他实在太需要一张信用卡了;第二件是他更希望自己能够独享诺贝尔奖,因为他太需要那笔钱,他要为自己的住房支付欠款;第三件是他认为自己的博弈论研究是与超弦理论类似的高度智力课题,其实用性也许是次要的或者可疑的美国数学家约翰纳什、约翰海萨尼、莱因哈德泽尔腾因在非合作博弈非合作博弈均衡分析理论方面做出了开创性贡献,从而对博弈论和经济学产生了重大影响,而共同获得诺贝尔经济学奖。非合作博弈和合作博弈区分的依据:约束力
5、的协议(binding agreement)内生与外生研究的重点:非合作博弈强调的重点主要在个人行为;合作博弈强调的重点在于参与者联盟会形成什么样的联盟,他们之间如何瓜分合作的收益等。均衡s*=(s1*,sn*)是指由博弈的n个参与人每人选取的最佳策略所组成的一个策略组合。那什么是最佳策略呢?静态动态完全信息完全信息静态博弈;纳什均衡(NE)Nash(1950-1951)完全信息动态博弈;子博弈精炼纳什均衡(SPE)Selten(1965)不完全信息不完全信息静态博弈;贝叶斯纳什均衡(BNE)Harsanyi(1967-1968)不完全信息动态博弈;精炼贝叶斯纳什均衡(PBE)Kreps,Wi
6、lson(1982)Fundenberg,Tirole(1991)纳什均衡的精炼逻辑NE MSNE SPE PTHE BNE PBE和SEPTHESE PBE SPE NE NE的不存的不存在需要对在需要对NE扩展扩展NE的多重的多重性需要对性需要对NE精炼精炼对对SPE“完完美美”对对SPE“序序贯贯”引入不完全引入不完全信息需要对信息需要对NE概括概括Mixed strategy nash equilibriumSub-game perfect equilibirumPerfect trembling hand equilibirumBayes nashequilibriumSequent
7、ial equilibirumPerfect Bayes equilibirum精炼精炼博弈论的关键:如何预测对方的行动博弈论关注的是意识到其行动将相互影响的决策者们的行为。也就是说博弈论涉及那些真实生活中的情形当理性的人们彼此相互作用的时候,即当某个人的行动依赖于他人如何行动的时候。一、博弈的要素博弈的要素包括:参与人(players)、行动(actions)、信息(information)、策略(strategies)、支付(payoffs)、结果(outcome)和均衡(equilibrium)。对一个博弈的描述至少必须包括参与人、策略和支付;而行动和信息则是建筑材料。1参与人参与人是独
8、立决策和独立承担结果的个人或组织。每个参与人的目标都是通过选择来最大化自身的效用(理性)。假设我们构造一个“OPEC模型”,我们将参与人设定为沙特阿拉伯(S)和其他生产者(O),消费者只是被动的个体不是参与人,只是环境参数。要理解何种情形适宜用博弈来模型化,考察以下几个例子:1OPEC成员国选择其年产量2GM向USX(美国最大的钢材商)购买钢材3中石油在全国招聘工人4一家电力公司在估计了未来10年对电力的需求后,决定是否购置一套新的发电机组。1OPEC成员国的产量都会影响世界油价2双方的产量或需求量会影响价格3每个工人对中石油的影响微乎其微4电力公司决策的复杂性并非来自另一个理性的主体如何改变
9、重要的经济变量使3和4转化成博弈?自然是一种虚拟的参与人,它在博弈的特定时点上以特定的概率随机选择行动。自然的支付是无差异的。在“OPEC模型”中,我们用D来表示石油的需求。我们还可以假定需求只分“强”和“弱”。假设前者的概率为70%,后者为30%。一个博弈会因随机变动的结果不同而有着不同的结果。2行动参与人i的行动以ai表示,是他能做的某一选择。参与人的行动集(action set),Ai=ai,是其可以采用的全部行动的集合。一个行动组合(action profile)是一个由博弈中的n个参与人每人选择一个行动所组成的有序集,a=ai,i=1,2,n除了设定对于参与人来说何种行动是可行的之外
10、,还必须设定何时这种行动是可行的。这就是行动顺序(order of play)若石油生产要求提前计划,则一国在博弈之初就选择两年的产量,OPEC模型的行动顺序可以是:第一步,自然选择需求D,强或弱第二步,S从如下行动集中选择其1998和1999的产量:(Qs,8=L,Qs,9=L),(Qs,8=L,Qs,9=H)(Qs,8=H,Qs,9=L),(Qs,8=H,Qs,9=H)O同时从其相应行动集中选择其产量。3信息既然博弈的关键是预测行动,信息理所当既然博弈的关键是预测行动,信息理所当然是重要的。然是重要的。信息是以信息集的概念来模型化的。可以将参与人的信息集看做是他在特定时点对于不同变量的取值
11、的了解。信息集的要素包括参与人认为可能的不同值。若有很多元素,则表明存在参与人无法排除的许多取值。若只有一个元素,则表明他准确知道这些变量的取值。我们假定,在自然行动后,沙特知道世界石油需求是强还是弱,但其他生产者无法排除任何一种可能,因此模型的信息集为:其他生产者:D=强,D=弱沙特:D=强或D=弱,视需求而定。参与人的信息集不仅包括如石油需求强度等变量取值的差别,还包括对已采取过什么行动的了解。因此信息集是变化的。博弈的信息(Information)完美(完美(perfect)或不完美信息的,是指博)或不完美信息的,是指博弈的规则而言:弈的规则而言:如果参考者在选择自己行动时对于前面发生的
12、情况很清楚,并且假设没有同时的行动,那么就是完美信息;否则就是不完美信息的。完全(complete)或不完全信息,是指博弈进行的环境而言,是指参与者之间对博弈的各个方面相互了解的程度。不完全信息和不完美信息的区别不完全信息指的是参与者的信息特征;不完美信息指的是博弈的信息结构。后面会讲到,经过海萨尼转换,任何不完全信息博弈都可以转化为不完美信息博弈。什么是“共同知识”(Common Knowledge)最早出现在哲学领域(David Lewis),1976年奥曼(Aumann)引入到博弈论中。举例说明。理性的共同知识(common knowledge of rationality)(1)Zer
13、o-order CKR:每个人都是理性的,但不知道其他人是否是理性的;(2)first-order CKR:每个人是理性的,并且知道其他每个人也都是理性的,但并不知道其他人是否知道自己是理性的;(3)second-order CKR:(1)+(2)+每个人知道(2)nth-order CKR:R(b)C(b)R(b)C(b)R is rational,4策略参与人的策略si是如下一项规则:给定其信息集,该策略决定在博弈的每一时点他选择何种行动。参与人的策略集或策略空间Si=si是其可行策略的集合。策略组合(strategy profile)s=(s1,sn)是由博弈的n个参与人每人选择一个策略
14、组成的策略集。策略与行动的区别参与人的策略是一个关于其行动程序的完备集合(complete set),它告诉参与人在每一种可预见的情况下选择什么行动,即使参与人并不预期那种情况真的会出现。这一描述的完备性也意味着策略与行动的不同之处在于它是不可观测的,行动是物质上的,但策略仅是意识上的。5支付在所有参与人和自然都选择了各自策略且博弈已经完成之后,参与人i获得的效用或期望效用。在OPEC模型中,可以将沙特和其他生产者的支付设为两个生产年份中石油收入的总和。6结果 一个博弈的结果是指在博弈结束之后,建模者从行动、支付和其他变量的取值中所挑选出来的他感兴趣他感兴趣的要素的集合。结果的定义取决于建模者
15、所感兴趣的是什么。OPEC模型的一个结果是:Qs,8=L,Qs,9=H,Qo,8=H,Qo,9=L,D=L,Rs=100,Ro=80结果可以狭义地定义为仅仅是支付或产量水平的集合。选择何种定义取决于建模者认为对OPEC而言什么是最有意义的。7均衡均衡s*=(s1*,sn*)是指由博弈的n个参与人每人选取的最佳策略所组成的一个策略组合。策略组合是一组策略的集合,而结果指的是感兴趣的一组变量的取值集合。不同的策略组合有时会导致不同的结果(Qs,8=L,Qs,9=L,Qo,8=L,Qo,9=L,D=强,Rs=100,Ro=80)这一结果可以由下述任一策略产生。黄金规则:无论如何都选择低产量。沙特:(
16、Qs,8=L,Qs,9=L)其他生产者:(Qo,8=L,Qo,9=L)白银规则:针锋相对 沙特阿拉伯:(Qs,8=L;若Qo,8=L,则 Qs,9=L,否则Qs,9=H)其他生产者:(Qo,8=L;若Qs,8=L,则 Qo,9=L,否则Qo,9=H)要记住的是:行动与策略、结果与均衡之间是存在严格区别的。8均衡概念仅仅规定参与人、策略与支付还不足以找到均衡,因为建模者还必须决定“最优策略”到底是什么意思。这一点可以通过定义一个均衡概念来实现。只有几种均衡概念被普遍接受,如优势策略均衡(dominant strategy equilibrium)和纳什均衡(Nash equilibrium)。第
17、二章分散化决策这章考察的是一种完全忽略其他参与者决策的非合作博弈。这种决策无须关于其他决策者的任何知识,因为这里的“环境”ENVIORMENT就是不考虑策略性的不确定性。一、优势策略均衡(Dominant Strategy Equilibrium)如果无论其他参与人选择什么策略,策略如果无论其他参与人选择什么策略,策略si*都是参与人都是参与人i的强最佳应对,那么的强最佳应对,那么si*就称就称为优势策略。这意味着无论别人选择什么为优势策略。这意味着无论别人选择什么策略,策略,si*都使参与人都使参与人i的支付最大化。从数的支付最大化。从数学上讲学上讲ui(si*,s-i)ui(si,s-i)
18、对于任何对于任何si si*对于参与人参与人i而言较差的策略称为劣式策略而言较差的策略称为劣式策略(dominanted strategy)。优势策略均衡优势策略均衡是由每个参与人优势策略所组成的策略组合(s1*,s2*,sn*)。优势策略只要求每个参与者是理性的,而不要求每个参与者知道其他参与者是理性的(即不要求“理性”是共同知识)如果参与人有优势策略,无需了解他人的偏好,任何关于其他参与者策略决策的信息都是毫无价值的。DSE对信息基本无要求,只要求参与人自己是理性的就足够了。囚徒困境举例列 抵赖 坦白 抵赖(-1,-1)(-10,0)行 坦白(0,-10)(-8,-8)“困境”的根源不在于
19、“囚徒”之间缺乏沟通,而是缺“动机”(Incentives).“囚徒困境”一般化到N个参与人,便是“公有地悲剧”,更为一般化的是,公共物品的提供和“搭便车”行为等问题。二、重复剔除优势优势策略(Iterated Dominance Equilibrium)这是建立在“重复”剔除非占优策略的准则之上的。由于每个参与人都知道其他人的偏好,因此每个人都确信其他人不会选择dominated strategy(只要他们是理性的);并且由于每个参与人都能同时洞悉其他参与人的非占优策略,那就意味着策略集缩小了,以此类推。(换位思考)也就是说IDE要求理性是共同知识。数学上讲,若存在这样的si,对于任何s-i
20、 ui(si,s-i)ui(si,s-i),对于某一s-i,则说si弱劣于si。弱优势策略均衡(weak domimant strategy equilibrium)定义为在剔除了每个参与人的全部弱劣势策略后得到的一个策略组合。日本海军上将木村要将日本陆军运往新几内亚,有两条航线:较短的北线和较长的南线。美国海军上将肯尼则必须决定将其飞机派往南线还是北线进行搜索轰炸。俾斯麦海战木村 北 南 北 (2,-2)(2,-2)肯尼 南 (1,-1)(3,-3)列 左 中 右 上 (10,0)(5,1)(4,-200)行 下 (10,100)(5,0)(0,-100)列 左 中 右 上 (10,0)(5
21、,1)(4,-200)行 下 (10,100)(5,0)(0,-100)重复剔除与理性共识重复剔除不仅要求每个人是理性的,而且要求每个人知道其他人是理性的,每个人知道每个人知道每个人是理性的,如此等等,即理性是“共同知识”(共识)C1C2C3R1R2R310,41,598,4 9,90,399,81,980,100100,98这个博弈只要求一阶理性共识就可以预测均衡结果。如果把(下左)的第一个数字改为11呢?最优选择这个博弈只要求一阶理性共识就可以预测均衡结果:如果R相信C是理性的,R就知道C不会选择C3,所以R的最优选择是R1;如果C相信R是理性的,C就知道R不会选择R2,所以C的最优选择是
22、C2。但要C预期R不会选择R3,需要二阶理性共识;要R不预期C会选择C1,需要三阶理性共识。6767Si 4545Si 3030Si 20Si=1耶鲁大学的试验结果是平均数为13又1/3。6767Si 4545Si 3030Si 20Si=1耶鲁大学的试验结果是平均数为13又1/3。选择越多,对理性共识的要求越高6767Si 4545Si 3030Si 20Si=1耶鲁大学的试验结果是平均数为13又1/3。1.IDE对理性的要求较高2.IDE可能会因为剔除顺序的不同而不同。(需要强调的是,如果是剔除严格劣策略,则不存在这问题)3.对于大多数的博弈而言,重复剔除优势均衡也是不存在的。三、安全策略
23、(最大最小策略)在策略式表述的博弈(X1,X2;u1,un)中,任何策略Xi,如果是下面问题的解:Maxximinx-iui(xi,x-i),则称为安全策略。我们现在考虑的关于参与者信息的无知(ignorance),即“完全忽略”的博弈。列 左 中 右 上 (2,0)(3,-1)(0,1)0行 下 (2,1)(-1,2)(5,0)-1 0 -1 0列 左 中 右 上 2 1 4 1行 下 -1 0 6 -1 2 1 6列 左 中 右 上 6 -2 3 -2行 下 -4 5 4 -6 6 5 4安全策略是针对双人零和博弈(严格竞争的博弈)提出的。有值的严格竞争或者双人零和博弈博弈中,“安全第一”
24、的行为是最优的。均衡是一对最优安全策略组成的。有时也被称为“最大最小均衡”或“最小最大均衡”。安全策略对理性的要求安全策略要求理性必须是共同知识。如果某个参与者怀疑他的对手并非理性地行动,那么安全策略并非是最优的。也就意味着有机会获得高于有保证的最低水平。第三章纳什均衡(Nash Equilibrium)定义1:如果一个博弈有n个博弈方,其策略空间分别为S1,S2,Sn,支付函数分别为:u1,u2,un,则此博弈的标准式表示为:G=S1,S2,Sn,;u1,u2,un 标准式主要用来表示静态博弈。这种博弈中,参与者是“同时”选择策略的,但只要每一参与者在行动时不知道其他参与者的选择就可以了。“
25、合理”的结果 每个人都认为更可能出现的结果 每个人对其他人预期的行动的最佳每个人对其他人预期的行动的最佳应对应对 (best responds)纳什均衡(纳什均衡(Nash equibrium)如果大家都预测特定的纳什均衡会出现,没有哪如果大家都预测特定的纳什均衡会出现,没有哪个参与人有激励单方面偏离(个参与人有激励单方面偏离(“一致性一致性”预测)预测)数学表达为,数学表达为,ui(si*,s-i*)ui(si,s-i*)对于任何对于任何si si*囚徒困境举例列 抵赖 坦白 抵赖(-1,-1)(-10,0)行 坦白(0,-10)(-8,-8)“困境”的根源不在于“囚徒”之间缺乏沟通,而是缺
26、“动机”(Incentives).智猪博弈(boxed pigs)小猪 按键 等待 按键(5,1)(4,4)大猪 等待(9,-1)(0,0)大猪的最佳应对:B1等待/按键,B2按键/等待小猪的最佳应对:L1等待/按键,L2等待/等待小猪的策小猪的策略略等待等待 按键按键 按键按键 等待等待B2,L1(按键,(按键,等待)等待)B1(等待,按键)(等待,按键)0大猪的策大猪的策略略L2(等待,等待)(等待,等待)性别大战 妻子 韩剧 球赛 韩剧 2,1 0,0 丈夫 球赛 0,0 1,2 不存在重复剔除优势均衡。看球赛和看韩剧都是纳什均衡,但分别是针对不同均衡而言。若这对恋人事先不通气,则可能出
27、现误会。性别战中,任一纳什均衡都是帕累托有效的,其他任一策略都不可能在不降低其他参与人支付的条件下提高另一参与人的支付,即不存在帕累托改进。但囚徒困境博弈中纳什均衡并不是帕累托最优的。斗鸡博弈 妻子 进 退 进 -3,-3 2,0 丈夫 退 0,2 0,0市场进入阻挠 在位者 默许 斗争 进入 40,50 -10,0 进入者 不进入 0,300 0,300恩爱夫妻博弈 妻子 活着 死了 活着 2,2 -6,0 丈夫 死了 0,-6 0,0仇恨夫妻博弈 妻子 活着 死了 活着 0,0 6,0 丈夫 死了 0,6 0,0同优势策略均衡一样,纳什均衡也有强弱之分,要定义一个强纳什均衡,只要不等式成立
28、严格成立。也就是说,没有参与人会对是选择均衡策略还是选择其他策略持两可的态度。为了说明纳什均衡的这一特点,构造囚徒困境的变形。变形的囚徒困境列 抵赖 坦白 抵赖(0,0)(-10,0)列 坦白(0,-10)(-8,-8)变形的囚徒困境没有强优势策略均衡,它仅有一个弱优势策略均衡,坦白仍是一个弱优势策略。在一个策略组合在一个策略组合si*,在其他参与人都不会,在其他参与人都不会改变已有策略的条件下,如果没有参与人改变已有策略的条件下,如果没有参与人有激励去改变自身的策略,则称策略组合有激励去改变自身的策略,则称策略组合si*为纳什均衡,数学表达为,为纳什均衡,数学表达为,ui(si*,s-i*)
29、ui(si,s-i*)对于任何对于任何si si*优势策略均衡、重复剔除的优势均衡与纳什均衡的关系每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡;但反之不然。纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除的策略组合不一定是纳什均衡,除非它是唯一的。团队中的道德风险模型假设一个团队中有两个工人,每个人可以工作(si=1)或偷懒(si=0),团队总产出是4(s1+s2),并在两个工人中平均分配。每个人工作要承担私人成本3,偷懒时私人成本为0。工人2 工作 偷懒 工作(1,1)(-1,2)工人1 偷懒(2,-1)(0,0)思考题1.下面的博弈问题的结果是什么?乙
30、a b c a 甲 b c2,01,14,23,41,25,31,30,23,01、players:厂商:厂商1和厂商和厂商2 向市场提供无差向市场提供无差异的同质的产品;面临的决策是异的同质的产品;面临的决策是 qi=?qi Q p ui,博弈博弈 1.Cournot模型模型标准式表述标准式表述p是市场出清价格,是市场供应量是市场出清价格,是市场供应量Q的减函数:的减函数:p=p(Q)=a-Q=a-(qi+qj)2、策略:产出水平、策略:产出水平qi,策略集,策略集Si=qi:qi 03、支付函数:、支付函数:ui(si,sj)=ui(qi,qj)=qip cqi假定两厂商均无固定假定两厂商
31、均无固定成本,只有常数边际成本,只有常数边际成本成本c。=qia-(qi+qj)cqi=-qi2+(a-c-qj)qi无限策略博弈无限策略博弈NE的求解的求解 按按NE定义的条件,如果策略组合(定义的条件,如果策略组合(qi*,qj*)是是NE,那么对于,那么对于qj*,qi*是下列优化问题的解:是下列优化问题的解:Max ui(qi,qj*)qiSi=Max-qi2+(a-c-qj*)qi qiSid uid qi-2qi+(a-c-qj*)令:令:-2qi+(a-c-qj*)=0得:得:qi*=(a-c-qj*)/2于是有方程组:于是有方程组:q1*=(a-c-q2*)/2 q2*=(a-
32、c-q1*)/2q1*=q2*=(a-c)/3此时,此时,u1*=u2*=(a-c)2/9考虑关系式:考虑关系式:qi*=(a-c-qj*)/2无论无论qj是否最优,由是否最优,由 qi=(a-c-qj)/2决定的决定的qi总总是厂商是厂商i针对厂商针对厂商j产出水平的最优反应;我们产出水平的最优反应;我们称关系式称关系式qi=(a-c-qj)/2为厂商为厂商i针对厂商针对厂商j的策的策略的反应函数,并记为:略的反应函数,并记为:qi*=Ri(qj)=(a-c-qj)/2.由此由此NE(qi*,qj*)必须是方程组:)必须是方程组:q1=(a-c-q2)/2 q2=(a-c-q1)/2的解。的
33、解。-反应函数法反应函数法q1q2a-c(a-c)2(a-c)/2a-cR2(q1)=(a-c-q1)/2R1(q2)=(a-c-q2)/2(a-c)3(a-c)/3NE0古诺纳什均衡的调整过程古诺纳什均衡的简单性成为了纳什均衡调整过程 的最好应用。内省的办法:要求理性是“共同知识”外推的办法:只要求参与人是理性的q1q2a-cq1mq2ma-cR2(q1)=(a-c-q1)/2R1(q2)=(a-c-q2)/2q12q22NE0q13q23通过内省和演绎预测对手的行为q1 q1m 企业1是理性的,q12q1 q1m 企业1知道企业2理性的q12q1 q13 企业1知道企业2知道企业1 是理性
34、的q14q1 q13q1=(a-c)/3 理性是共同知识q1q2a-cq1mq2ma-cR2(q1)=(a-c-q1)/2R1(q2)=(a-c-q2)/2q12q22NE0q13q23通过外推外推引导参与人采用均衡策略,每个参与人的产量是对前一阶段产量的最佳反应。纳什均衡隐含的“信念”关于参与人行为描述的一个问题是参与人认为自己的行动不会直接影响到其他人的行动,也就是说企业1和企业2都认为它的产量不会影响其他企业的产量。数学表达式:dq/dq1=1+dq2/dq1=1只有这个“信念”才能支撑纳什均衡。对纳什均衡隐含的“信念”的辩护假设存在大批参与人,彼此随机配对进行博弈;则现在配对的参与人不
35、太可能再碰面,那么就不用担心他们当前的选择会如何影响他们未来对手的博弈行动。这一辩护的缺陷在哪里?大批参与人大批参与人2.伯川德模型伯川德模型Bertrand Model of Duopoly 标准式表述标准式表述1、参与人:厂商、参与人:厂商1与厂商与厂商2;他们生产同质产品。;他们生产同质产品。2、他们选择价格,、他们选择价格,Si=pi:pi0;3、他们的支付函数就是他们的利润函数:、他们的支付函数就是他们的利润函数:ui=ui(pi,pj)NE将是:将是:P1*=p2*=c Bertrand paradox根据伯川德均衡可以得到两个结论:根据伯川德均衡可以得到两个结论:1.寡头市场寡头
36、市场的均衡价格为:的均衡价格为:P=MC;2.寡头的长期经济利润为寡头的长期经济利润为0。这一与实际不符的结论,被称为伯川德悖这一与实际不符的结论,被称为伯川德悖论论Bertrand paradox从前面我们得知古诺和伯川德模型并不贴从前面我们得知古诺和伯川德模型并不贴近现实,为什么我们还要用它?近现实,为什么我们还要用它?建模的最高的目的并不是最贴近现实,简建模的最高的目的并不是最贴近现实,简单性永远是建模的最高目的之一。特别是单性永远是建模的最高目的之一。特别是参与人超过两个时,所以这两个模型是更参与人超过两个时,所以这两个模型是更好的模型好的模型解决解决伯川德悖论的两个方法伯川德悖论的两
37、个方法2.1生产能力约束:合理的配给规则生产能力约束:合理的配给规则2.2异质异质 伯川德模型伯川德模型Bertrand Model of Duopoly *两厂商决策的相互影响在于需求函数两厂商决策的相互影响在于需求函数 Di(pi,pj)=a-pi+b pj两厂商的产品具有一定的差异性;两厂商的产品具有一定的差异性;b是厂商是厂商i的产品对厂商的产品对厂商j的产品的替代系数。的产品的替代系数。标准式表述标准式表述1、参与人:厂商、参与人:厂商1与厂商与厂商2;他们生产同类但;他们生产同类但存在一定差异的产品。存在一定差异的产品。2、他们选择价格,、他们选择价格,Si=pi:pi0;3、他们
38、的支付函数就是他们的利润函数:、他们的支付函数就是他们的利润函数:ui=ui(pi,pj)=Di(pi,pj)pi-Di(pi,pj)c=(a-pi+b pj)(pi-c)假定两厂商假定两厂商均无固定成本,均无固定成本,只有常数边际只有常数边际成本成本c。厂商厂商i的反应函数:的反应函数:Ri(pj)=a+c+bpj22P1=a+c+bp22P2=a+c+bp1P1*=p2*=(a+c)/(2-b)b2聚点选择相同就获得奖励,不同则不能获得。(1)选择下面一个数,并画上圈:7,100,13,261,99,666。(2)你要在湖北经济学院与另一个人见面,但应在何时何地碰头。(3)你和别人一起分蛋
39、糕,你们各自报出欲分得的比例,但所报比例之和超过百分之百,则你们一无所获。上述博弈都有许多纳什均衡比如如果我认为你会选择666,而你也认为我会选择666,那么666就是我们共同的选择。但是在这些均衡中,总有一些可能性更大些。这些特定的策略组合就称为聚点,即出于心理上的原因尤为引人注目的那些纳什均衡。要使得某一策略组合成为聚点的缘由正式形式化并非易事,这往往取决于具体的环境。Thomas Schelling在The Strategy of Conflict中分析了聚点。在例1中谢林发现选择7是最常见的策略,在一群贪得无厌的人中666可能成为聚点。第一次分蛋糕可能是五五开,如果过去分过,过去的经历
40、将影响聚点的形成。三、混合策略纳什均衡混合策略的定义:在博弈G=s1,s2,,sn中,博弈方i的策略空间为Si=(si1,si2,sik),则博弈方以pi=(pi1,pi2,pik)随机选择k个可选策略称为一个混合策略。其中,0pik1,k=1,2,,k,且pi1+pi2+pik=1猜谜游戏(A决定,B来猜;B猜中,奖励;否则,惩罚)B 正面 反面 正面 -1,1 1,-1 A 反面 1,-1 -1,1猜棋游戏看这样一个问题。甲乙两个人各有一副围棋,游戏规则是,每人同时出一枚棋子,若颜色相同,则甲得1分,乙得-1分;若颜色相反,则甲得-1分,乙得1分。试分析博弈结果。这是一个静态博弈。得益矩阵
41、为 乙 黑 白 黑 甲 白1,-1-1,1-1,11,-1 这个博弈没有纯策略纳什均衡。甲在博弈中以概率p出黑棋,以概率1-p出白棋,称为混合策略(p,1-p);同样地,乙的混合策略(q,1-q)。相应地,以概率1(或0)出棋,则称为纯策略。在混合策略下,甲的期望收益是:U甲=pq-p(1-q)-q(1-p)+(1-p)(1-q)=2p(2q-1)+1-2q 乙的期望收益是:U乙=-1pq+p(1-q)+q(1-p)-(1-p)(1-q)=2q(1-2p)+2p-1看甲的决策,当2q-10时,应选p值越大越好,最好取1;当2q-1z0时,选择p=0好,当2q-1=0时,p可以随便选。即甲的最佳
42、反应(称为反应函数)为:同样,乙的反应函数为:以p,q为坐标轴画出它们的图像,则交点就是纳什均衡。0.510.51pq0(0.5,0.5)每个参与人都想猜透对方的策略,而每一个参与人又都不能让对方猜透自己的策略,即必须使其他博弈方选择其任何策略的期望即支付相同。(支付均等化原则)小偷与守卫守卫小偷睡(Pg)不睡(1-Pg)偷(Pt)V,-D-P,0不偷(1-Pt)0,S0,0 MAXU(守卫)=Pg(S-SPt-DPt),0Pg1 1 PtS/(D+S)Pg=0-1 Pt=S/(D+S)0 PtS/(D+S)MAXU(小偷)=Pt(VPg+PPg-P),0Pt1 0 PgP/(P+V)Pt=0
43、-1 Pg=P/(P+V)1 PgP/(P+V)守卫睡的守卫睡的概率概率 Pg小偷偷的小偷偷的概率概率 PtP/(P+V)1 1 S/(D+S)小偷的反小偷的反应曲线应曲线守卫的反应曲守卫的反应曲线线0小偷偷的概率小偷偷的概率01守卫睡守卫睡觉的期觉的期望收益望收益S S-D-DPt*Pt守卫睡的概率守卫睡的概率01小偷偷小偷偷的期望的期望收益收益Pg*PgV-P-P我们把纳什均衡的概念也作相应的扩大:对一个策略组合,无论它是纯策略还是混合策略,只要满足各博弈方都不想单独偏离它,就称其为纳什均衡“吉蒂谋杀案”的混合策略博弈分析吉蒂是在纽约被杀的,她的38位邻居都目睹了却无人报警。琼斯 旁观 报
44、警1-旁观 0,0 10,7 史密斯 报警1-7,10 7,7U(报警)=7=U(旁观)=N-1(0)+(1-N-1)(10)N-1=0.3随着N的增加,增加.无人报警的概率为N,因为N-1=0.3,所以N=0.3 这显然是随着N的增加而增加.当有38个人时,无人报警的概率约为0.29,=0.97。这时混合策略显然不好,所需要某些东西使得一个纯策略纳什均衡成为一个聚点.问题在于责任的分割,某一个参与人必须肩负起报警的责任四、完全信息动态博弈SPE前面讲述的纳什均衡有三个问题:第一,纳什均衡的多重性,但这并不是纳什均衡最严重的问题;第二,在纳什均衡中,参与人在选择自己的策略时,把其他参与人的策略
45、当作是给定的,不考虑自己的选择如何影响对手的策略。动态博弈时这就有问题了;第三,这由第二个问题引发来,由于不考虑自己选择对别人选择的影响,纳什均衡允许了不可置信威胁的存在。在位者 默许 斗争 进入 40,50 -10,0进入者 不进入 0,300 0,300市场进入博弈中,如若进入者真的进入,在位者的最优行动显然是默许而不是斗争,因为默许带来50的利润,所以斗争就是一种不可置信的威胁。但纳什均衡概念承认了这种不可置信的威胁,所以(不进入,斗争)就成为一个纳什均衡。策略式与结果矩阵表1 琼斯 大 小 大 2,2 -1,-1 史密斯 小 -1,-1 1,1上述博弈中不仅策略与行动是等价的,而且结果
46、也简单。所以表1的22形式就同时完成了将策略组合与支付联系起来和将行动组合与结果联系起来这两项任务。这两项任务的结果分别称为策略式和结果矩阵。考虑由表1的博弈演变来的博弈。我们称之为跟随领头羊。这一博弈与表1的博弈不同之处在于史密斯首先采取行动,即承诺自己将采用某一种软驱规格而不管琼斯将会先哪种。新的博弈有着与原博弈一样的结果矩阵,但其策略式却大相径庭。因为琼斯的策略不再只是单一的行动,琼斯策略集此时有四个元素。(L/L,L/S)(L/L,S/S)(S/L,L/S)(S/L,S/S)(若史密斯选择大则选择大;若其选择小则选择大)(若史密斯选择大则选择大;若其选择小则选择小)(若史密斯选择大则选
47、择小;若其选择小则选择大)(若史密斯选择大则选择小;若其选择小则选择小)跟随领头羊表明只要添加一点复杂性,就使得策略式表述变得晦涩难懂,几无用武之地。策略式如下。琼斯 L/L,L/S L/L,S/S S/L,L/S S/L,S/S 大 2,2 2,2 -1,-1 -1,-1 史密斯 小 -1,-1 1,1 -1,-1 1,1均衡 策略 结果E1 大,(L/L,L/S)双方都选择大E2 大,(L/L,S/S)双方都选择大E3 小,(S/L,S/S)双方都选择小在以后的分析中我们将讨论均衡E1和E3可以被我们通过纳什均衡的精炼所排除。子博弈完美纳什均衡泽尔腾(1965)提出了“子博弈完美纳什均衡”
48、(sub-game perfect Nash equilibrium)概念的目的就是要将那些包含不可置信威胁策略的纳什均衡从均衡中剔除,从而给出动态博弈结果的一个合理预测。扩展式和博弈树描述一个博弈的另外两种方法就是扩展式和博弈树。结(node)是指博弈中某一参与人或自然采取行动的时点或博弈结束的时点。起点结是指不存在前续结的结。终点结是指不存在后续结的结。枝(branch)指在一个特定结上某一参与人的行动集中的一个行动路径(path)指从起始结到终点结由结和枝所组成的系列。扩展式是对博弈的一种描述,它由下述几点组成:(1)由结和枝所组成的整体结构,即由单个起始结开始直至终点结,中间无闭合的圈
49、。(2)有对哪个结点属于哪个人的说明。(3)在自然作选择的结上,有自然选择不同枝的概率。(4)有划分每个参与人的结的信息集。(5)在每一个终点结上都有对每个参与人的支付 博弈树除(5)外与扩展式都一样,在博弈树中(5)变为:在每一个终点结上都有结果。博弈树(game tree)是一个比扩展式更为灵活的术语,如果结果被定义为支付组合,博弈树与扩展式一样子博弈(subgame)由原博弈中某个决策点(信息集)开始的部分构成一个子博弈。12323原博弈子博弈I子博弈II逆向归纳法(backward induction)在有限博弈中,我们可以用逆向归纳法求解精炼纳什均衡:从最后一个决策点开始,找出该子博
50、弈的纳什均衡;然后再倒回到倒数第二个决策点,找出决策者的最优决策(假定最后一个决策者的决策是最有的;如此一直到初始决策点,所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”.海盗分金币5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城,他们决定这分:首先,由1号提出分配方案,然后大家5人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。再由2号提出分配方案,以次类推.条件:1.每个海盗都是极其聪明的人 2.每个海盗都是非常残忍的人 3.每个海盗都能明确的判断得失然后作出明智的选择问题:第一个海盗提出怎样的分配方案才能够使自己的收益最大化如果