博弈论教学课件二 混合策略与纳什均衡的存在性与多重性(研).pptx

上传人:蓝**** 文档编号:91010851 上传时间:2023-05-21 格式:PPTX 页数:18 大小:393.75KB
返回 下载 相关 举报
博弈论教学课件二 混合策略与纳什均衡的存在性与多重性(研).pptx_第1页
第1页 / 共18页
博弈论教学课件二 混合策略与纳什均衡的存在性与多重性(研).pptx_第2页
第2页 / 共18页
点击查看更多>>
资源描述

《博弈论教学课件二 混合策略与纳什均衡的存在性与多重性(研).pptx》由会员分享,可在线阅读,更多相关《博弈论教学课件二 混合策略与纳什均衡的存在性与多重性(研).pptx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、混合策略纳什均衡及多重均衡的选择故事1、【吕氏春秋:宋康王是战国时期的一位暴君。这位宋康王打仗很有一套,“东伐齐,取五城,南败楚,拓地二百余里,西败魏军,取二城,灭腾,有其地”,为宋国赢得了“五千乘之劲宋”的美誉。虽然他打仗厉害,但是连年征战惹得民怨沸腾,朝野上下一片骂声。于是他整天喝酒,变得异常暴虐。有些大臣看不过去,就前去劝谏。宋康王不但不听,还将劝谏大臣们找理由撤职或关押起来,这使得臣子们对他更加反感,经常在私下非议他。有一天,他问大臣唐鞅:“我杀了那么多人,为什么臣下更不怕我了呢?”唐鞅回答说:“您所治罪的,都是一些有罪的人。惩罚他们是理所当然,没有犯法的人根本不会害怕。您要是不区分好

2、人坏人,也不管他犯法没有犯法,随便抓住就治罪,如此一来,又有哪个大臣会不害怕呢?”宋康王虽然暴虐,却是个聪明人,他听从了唐鞅的建议,随意地想杀谁就杀谁,后来连唐鞅也身首异处。大臣们果然非常害怕,没有人再敢随便说话了。】宋康王无罪的大臣宋康王原先采用的是“无罪的大臣不惩罚”策略,这时大臣都会非议他;非议不非议当宋康王开始选择“无罪的大臣也惩罚”时,大臣的最优策略就是不非议无罪的不惩-2,0 0,-1 了;但是宋康王此时却有激励偏向无罚无罪惩罚0,-2-2,-1 2、【神雕侠侣:英雄大宴中杨过与霍都王子比武的情形:忽然杨过铁剑一摆,叫道:“叫道!我要放暗器了!”霍都曾用扇中毒钉伤了朱子柳,听他如此

3、说,只道他的铁剑如自己的折扇一般,也是藏有暗器,无怪他不用利剑而用锈剑,自己既能以此手段行险取胜,想来对方亦能学样,见杨过铁剑对准自己面门而来,急忙向左跃开,却见杨过左手剑诀引着铁剑刺到,哪有什么暗器?霍都知道上了当,骂了声:“小畜生!”杨过问道:“小畜生骂谁?”霍都不再回答,催动掌力。杨过左手一提,叫道:“暗器来了!”霍都忙向右避,对方一剑恰好从右边疾刺而至,急忙缩身摆腰,剑锋从右肋旁掠过,相距不过存许,这一剑凶险之极,疾刺不中,群雄都叫:“可惜!”蒙古众武士却暗呼:“惭愧!”霍都虽然死里逃生,却吓得背生冷汗,但见杨过左手又是一提,叫道:“暗器!”便再也不去理他,自行挥掌迎击,果然对方又是行

4、诈。杨过一剑刺空,纵前扑出,左手第四次提起,大叫:“暗器!”霍都骂道:“小。”第二个字尚未出口,蓦地眼前金光闪动,这一下相距既近,又是在对方数次行诈之后毫没防备,急忙踊身跃起,只觉腿上微微刺痛,已中了几枚极细微的暗器。】杨过为什么会赢?如何用博弈论来进行分析?且让我们学习后面的理论知识,再回来分解。罪不惩罚,因为惩罚总是要付出成本混合策略纳什均衡上一讲里,我们将纳什均衡定义为一组满足所有参与人效用最大化要求的策略组合,即:ii据这一定义,有些博弈不存在纳什均衡。举例:社会福利博弈政府与流浪汉之间的博弈。流浪汉有两个策略:寻找工作或者游荡;政府也有两个策略:救济或不救济。政府想帮助流浪汉,但是前

5、提是后者必须试图寻找工作,否则就不给予帮助;流浪汉只有在得不到政府救济时才会寻找工作。流浪汉寻找工作游荡政府救济3,2-1,3 不救济-1,1 0,0 举例:猜谜游戏故事:两个小孩手里各拿着一枚硬币,决定是要显示正面向上还是反面向上。如果两枚硬币同时正面向上或向下,儿童 A 付给儿童 B 一块钱;如果两枚硬币只有一枚正面向上,儿童 B 付给 A 一块钱。儿童 B 正面反面儿童 A 正面-1,1 1,-1 反面1,-1-1,1 上述两个博弈的显著特征:每个人都想猜透对方的策略,而每一个参与人又都不能让对方猜透自己的策略。同学们请举出生活中的例子 尽管上两个博弈不存在第一讲中所定义的纳什均衡,却存

6、在下面要定义的混合策略纳什均衡。混合策略指的是参与人以一定的概率选择某种策略。比如,参与人以 0.3 的概率选择第一种策略,以 0.5 的概率选择第二种策略,以 0.2 的概率选择最后一种策略。当一个参与人采取混合策略时,他的对手就不能准确猜出他实际将选的策略。为了区别这种情况,我们将以前定义的纳什均衡称为“纯”策略均衡。再考虑社会福利博弈的例子。流浪汉寻找工作游荡政府(0.2)(0.8)救济(1/2)3,2-1,3 不救济(1/2)-1,1 0,0 是对政府所选混合策略的最优反应,特别的,其中一种最优混合策略是(0.2寻找工作,0.8游荡)。给定流浪汉的上述混合策略,政府的任何策略(纯或混合

7、)带给政府的期望效用都是-0.2,特别的,其中政府以 1/2 的概率分别选择救济或不救济当然也是最优反应。根*iss)i i是一个纳什均衡,当且只当对于所有的i,sargmaxu(s S1 ni=)s(s,.,s这个博弈不存在纳什均衡。给定政府救济,流浪汉最优策略是游荡;给定流浪汉游荡,政府最优策略是救济;给定政府不救济,流浪汉选择工作为最优,给定流浪汉需找工作,政府最优策略是救济这个博弈事实上是个零和博弈,一方所得即另一方所失,该博弈也没有纳什均衡。比如(正面,正面)不是纳什均衡,因为给定 B 选择正面,A 的最优选择是反面。类似地,其他三个策略组合也不是纳什均衡。假定政府以 1/2 的概率

8、选择救济。对流浪汉来说:寻找工作的期望效用 1/2*2+1/2*1=1.5;游荡的期望效用 3*1/2+0*1/2=1.5;选择任何混合策略的期望效用也都是 1.5。所以流浪汉任何一种策略(纯或混合)都这样我们得到一个混合策略组合(1/2救济,1/2补救);(0.2寻找工作,0.8游荡),每一个参与人的混合策略都是给定对方混合策略时的最优选择。因此这个混合策略组合是一个纳什均衡。类似地,在猜谜博弈中,每个儿童以 1/2 的概率选择正面或者反面是一个纳什均衡。纯策略与混合策略如果一个策略规定参与人在每个给定的信息情况下只选择一个特定的行动,我们称该策略为纯策略。如果一个策略规定参与人在给定信息情

9、况下以某种概率分布随机地选择不同的行动,我们称该策略为混合策略,因此在博弈策略式表示中,混合策略可以定义为在策略空间上的概率分布。定义:在n 个参与人博弈的策略式表述中G=S,.,Su,.,u,假定参与人i 有K个纯策略:这里,。1 is2 iss1=(1)混合策略是一个以概率为分量的向量,即便纯策略数为有限,混合策略也是无限的,混合策略空间可记为;(2)纯策略是混合策略的一个特例,即某个分量为 1 而其他分量为 0 的混合策略混合策略伴随着得益的不确定性,因为一个参与人不知道其他参与人的实际策略选择,此时他关心的是期望效用。以两人博弈为例,假定,即两个参与人分别有个纯策略。如果参与人 1 相

10、信参与人 2 的混合策略为=(,.,j=1 ss.故参与人 1 选择混合策略 的期望效用为:u(k=1 j=1k=1 j=1类似地,参与人 2 的期望效用为:u(j1k1k1j1有了上述期望效用函数的概念,我们现在可以重新定义纳什均衡。)k 2j(ssKJk 2j 11u)=i1iK11k2Jk 2j=(,.,)称为i 的一个混合策略,)s)u(s s)(ssi1k2j11k22j 11)u(suKJ1k2j k2j2 1k2js,那么,概率分布u(ss1k2111K 2JKJk 2(ssi1iKik212Jk 2j 12Ju(ss)u(ss)u(ss)u(s s)=u=s,.,K1iKii1

11、iKi)S2=(s,.,s)s1的期望效用:k 111K 2111K 222J K2jk 2i=(,.,)10 0 0=(1,.,0)i111K),则参与人选择纯策略的 s2s1su(ssK,)=,)=1n1nS=是指i 选择ik s 的概率。对于所有的k=1,.,.K01=1iK12iS1=(s,.,sKJJ212J21222122JkKiK=(,.,)12定义:在n 个参与人博弈的策略式表述中G=S,.,Su,.,u中,混合策略组合=u(命题(混合策略纳什均衡基本定理):每个参与人的期望效用是自己的混合策略概率的线性函数,这点意味着,如果(,.,)是相对于给定 的一个最优混合策略,那么,对

12、于所有的0,下式成立:u(也就是说,如果这个混合策略规定i以严格正的概率选择纯策略ik s,那么ik s本身一定是相对于 的一个最优策略。反证法。如果略 的概率分别是过改变原来的混合策略来获益。具体地,他可以以新的概率赋予纯策略以来赋予纯策略以提高期望收益,但是,这与原直接推论:由于所有以正的概率进入最优混合策略的纯策略都是i的最优策略,故参与人i在所有这些纯策略之间一定是无差异的,即:如果u反过来,如果参与人有几个纯策略是最优的,那么,任何以正的概率选择其中一些或所有这些纯策略的混合策略也是最优的。于是,纳什均衡也可以表述如下。定义:(,.,u(求解社会福利博弈的混合策略纳什均衡流浪汉寻找工

13、作政府救济3,2-1,3 以的概率选择不救济;相似地流浪不救济-1,1 0,0 汉的混合策略为。1政府的期望效用函数为:=51)对上述效用求微分,得到政府最优化的一阶条件:uG即在混合策略均衡中,流浪汉以 0.2 的概率选择寻找工作,以 0.8 的概率选择游荡。求解政府的优化问题,得到的却是流浪汉的混合策略!试做如下解答。,故参与人i 可以通)ikiu(s,)中对应于纯策i i1)=(,.,ikikis,i=1,2,.,ns s,记i是一个纳什均衡,如果对于所有的,下式子成立:iiku(n,),0。由于*iii)iik)u(s,),sS*ii)0,ikk,那么)=u(s,)=.=u(s,.,)

14、是一个纳什均衡,如果对于所有的参与人i,)GL*i*1iii=iiik is,=+iKi1i ii*in*=(,1),即以 的概率选择救济,(1)(,(,.,)u(,),iiks,)u(siiikikikikik s,同时保持赋予在其他纯策略上的概率不变,这样参与人i 便可i1iK0,.,0(s,=,游荡1LG1n1n*1iiiik u(siks ik=0=(,.,)是i 最优混合策略的前提矛盾。i1i*1如左图所示,假定政府的混合策略为1=u=51=0=0.2假定最优混合策略存在,给定流浪汉选择混合策略,政府选择纯策略救济()的期望效用为:。选择纯策略不救济的期望效用为:。如果一个混合策略(

15、)是政府的最优选择,那一定意味着政府在救济与不救济之间无差异,即:,于是得到混合策略()。流浪汉寻找工作政府救济3,2-1,3 G=(,1),流浪汉的期望效用函数不救济-1,1 0,0 为:1u(=(21)+3一阶条件为:如果,流浪汉的最优选择是寻找工作;如果,流浪汉的最优选择是游荡;只有当时,流浪汉才会选择混合策略或任何纯策略。纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。因此,在社会福利博弈中是唯一的纳什均衡。假定政府认为流浪汉选择寻找工作的概率严格小于,那么政府唯一最有选择是纯策略不救济;如果政府以 1 的概率选择不救济,流浪汉的最优选择是寻找工作,这有导致政府选择救

16、济,导致流浪汉选择游荡因此不构成纳什均衡;类似的,、都不构成纳什均衡。混合策略纳什均衡的反应对应图示法求解政府和流浪汉的反应对应:0if01)(0.2 0.5=2+1(1)+(1)3+0(1)=0.2时政府才会选择L不救济if0.2)G救济if0.2=(1)G=0.5=0.5;=0.2)=0,1 if=0.2(1,)=41=u(0,)=(1)=G=游荡1,=(21)=0=0.50.21if0.2()=1uG(1,)=3+(1)(1)=41uG(0,)=(1)+0(1)0,1G0.2。这就是说,只有当0,1找政府的均衡策略需要求解流浪汉的最优化问题。给定,LLuL0.5(0.20.20.50.5

17、)(NE 1 对混合策略纳什均衡的理解困惑:在均衡情况下,每个人选纯策略是无差异的,均衡却要求每个参与人以特定的概率选择纯策略;一个参与人选择不同纯策略的概率分布不是由他自己的收益定的,而是由他的对手得益决定的一个参与人选择混合策略的目的是给其他参与人造成不确定性,尽管其他参与人知道他选择某个特定纯策略的概率是多少,但他们并不能猜透他实际上会选择哪个策略:正是因为他在几个纯策略之间无差异,他的行为才难以预测,混合策略才会存在。请试着分析杨过与霍都的博弈。群体观。有许多流浪者,他们的偏好、得益函数相同,政府对他们必须一视同仁。在这一流浪者群体中,有 20%的流浪者选择工作,80%选择游荡。“有时

18、”观。从长期看,一位流浪者有时(20%的时间)会选择工作,有时会选择游荡海深义(Harsanyi,1973):混合策略均衡等价于不完全信息下的纯策略均衡。即,流浪者有两种类型,20%的可能性是寻找工作型,80%是游荡型。在这时,政府在选择自己策略时似乎面临的是一位选择混合策略的流浪汉。请同学们试举出生活中使用混合策略的例子请同学们试举出生活中使用混合策略的例子纯策略均衡和混合策略均衡同时存在的例子性别战女足球 芭蕾男除了两个纯策略纳什均衡,还有一足球2,1 0,0 概率选择芭蕾舞;女方以 1/3 的概芭蕾0,0 1,2 芭蕾舞。纳什均衡数量的奇数定理奇数定理:奇数定理:The Oddness

19、Theorem,Wilson,1971):几乎所有有限博弈都会有奇数个纳什均衡。如果一个博弈有两个纯策略均衡,那么一定存在第三个混合策略纳什均衡个混合策略纳什均衡,这就是:男方以 2/3 的概率选择足球赛,1/3 的率选择足球赛,以 2/3 的概率选择纳什均衡的存在性我们相继引入了占优策略均衡(DSE)、重复剔除的占优均衡(IEDE)、纯策略纳什均衡(PNE)和混合策略纳什均衡(MNE)四个均衡概念。每个概念依次是前一个概念的扩展,前一个概念是后一个均衡概念的特例。PNE 是策略组合中的策略概率都为 1 的 MNE IEDE 一定是 PNE,但是须博弈格局中至少一个参与人有严格劣策略DSE 一

20、定是 IEDE,但是须博弈格局中每个人都有严格劣策略纯占优均衡策略纳什均重复剔除占优均衡上述四个均衡概念统称为纳什均衡(NE),那么是否所有的博弈都存在纳什均衡呢?不一定,但是纳什证明,任何有限博弈都存在至少一个纳什均衡。中,如果n 是有限的,且iS 都是有限集,则该博弈至少存在一个纳什均衡,但可能包含混合策略。定理证明的准备上述定理的证明需要用到 Kakutani 不动点定理。Kakutani 不动点定理是 Brouwer 不动点定理在对应映射上的扩展。Brouwer 不动点定理 假定是自身对自身的映射(即f:X X),在一个,使得Brouwer 不动点定理的直观表述。考虑一维实数空间上的映

21、射f是连续函数,是闭、有界、凸的,则 Brouwer 不动点定理的条件满足,=xx 成为不动点。Xf(x),均1n1n 混合策略纳什衡衡纳什定理(Nash,1950):在一个有n 个博弈方的博弈G=S,.,S;u,.,uf(x)是定义在点集 X 上的函数,如果f(x)f(x)是连续的,X 是非空的、闭的、有界的和凸的,那么至少存x X=x 是一个不动点1()某一个条件不满足时()01(0,1),X 非凸注意:函数连续以及集合的闭、有界和凸性是保证不动点存在的充分条件,而不是必要条件,也就是说当上述(部分)条件不存在时,不动点仍有可能存在,见下页最右边的图。()=0,1)不是闭的()不是连续的K

22、akutani 不动点定理是 Brouwer 不动点定理在对应映射上的扩展。所谓对应(Correspondence),是点与集合之间的联系规则,而函数则是集合上点与点之间的联系规则。Y(x)X 库诺特模型:两人混合策略均衡中,给定对方的混合策略,参与人有无穷多个最优混合策略,是反应函数是反应函数jR(q)()Y i i1()=0,+)无界()()非连续,X 非闭,但不动点存在()q=r 定义:对应的上半连续(uhl)概念 f:S T是一个对应,分别是 和 空间上的紧集(有界、闭)。令,且y例子:x,f(x)=y:x+2yx+44 4()2 2 0-2-2-4-4 左图:当时,右图:时,定义:对

23、应的下半连续(lhc)f:S T是一个对应,分别是 和 空间上的紧集(有界、闭)。令xmx,上是下半连续的(简称 lhc)例子:,对于非 uhc lhc 0-1-3-4上图:(1),总可找到一个数列直观理解:你若已经“抓住了”,那么你必须找到一个“对应图”(灰色区域)中的序列逼近它(2)注意上图却不是上半连续的,因为对于“对应图”中逼近(0,-4)的y0=0,没有被“抓住”f(x)0 0000y 被“抓住了”,f(x)xmS,ym y时,f 在xxm,xS时,f 在x 上是上半连续的(简称 uhc)000Ky f(x),ym y f(x),那么当且仅当0y,f(x)=,+,yR0m my f(

24、x)使得)为i 的反应对应的反应对应NK00mm0 f(x)f(x)=0 非 uhc()0Ny f(x)。那么当且仅当存在x,f(x)=y:x4yxx=,f(x)=y:3y0m m00ij,TRRxmxym yy0 x=,f(x)=y:4y+4uhc非 lhc非 lhcx 0 x 0,TR00f:R R()3y1y一个数列,对应却没有抓住(0,-4)这点,因为Kakutani 不动点定理不动点定理假定的、有界的和凸的,对于所有的是非空、凸的且上半连续的,那么至少存在一个,使得(这里上半连续性等价于 Brouwer 不动点中函数的连续性)纳什定理的证明第一步(构造):假定有n 个参与人,每个参与

25、人有有限个纯策略,定义=(,.,.,)为混合策略组合,其中ir()为i 的最优反应对应,ir()将每个 映射到策略空间i 上的一个子集。定义:r 为ir 的笛卡尔集,即r=(1,.,nr)。如果存在一个不动点,使得第二步(证明 Kakutani 不动点定理的条件满足):(1)每个的(0 到 1 之间)、凸的(各个混合策略的再加权还是混合策略,即是故(2)每个参与人效用函数是混合概率的线性函数,因而是连续的,故非空(有界闭集上的连续函数一定有最大值)(3)期望效用函数是线性的,所以u果 是对应于于的 最 优 选 择,即+1,凸(4)最后,我们要证明是上半连续的,即:如果,那么。假如不是这样,即存

26、在一个序列,但是,于是,使得u当m 足够大时,有:u(,)u(,)iu(,)以 上 第 一 个 不 等 式 由及 函 数 连 续 性 得 出。【u(/u(,因此 严格优于(给定),即因此,Kakutani 不动点定理的条件是满足的,纳什定理得证。Q.E.D.,mm】。,即对于所有的i,iu 是连续的,(,/u(,),即iii12n*in)iiiii iiimmiiii】;第 三 个 不 等 式 也 类 似u(,)u(mXxf(x),是第i 个参与人的混合策略,=(,.,)。(,.,.,*ii),r(),r(),则,immii(,)iiimii*1=(,.,.,r(+1,)=(,)+1u(iim

27、mmmmi(+2iu(,)+mii,)u(,)u(,/,imiiiiiiiumiiimiiiiii纳什均衡的普遍存在性,意味着纳什均衡分析在我们所遇的大多数博弈问题中都是一种基本的分析方法。正是因为有普遍性的存在,纳什均衡是博弈结果的“一致性预测”的性质才有意义。这就是为什么约翰纳什首先证明纳什均衡存在性的这一开创性工作特别重要的原因。纳什均衡的扩展纳什最先证明的存在性定理是基于有限博弈的,即参与人的纯策略是有限的,但是经济学家使用的模型一般都是无限博弈,及参与人有无穷多个纯策略。幸运的是,上述存在性定理中,每个参与人有有限个纯策略只是纳什均衡存在的充分条件,而不是必要条件。例如古诺特模型中每

28、个企业有无穷多的纯策略,而我们知道纳什均衡也是存在的。那么,当参与人有无穷多个纯策略时,还需要那些条件才能确保一个纯策略策略纳什均衡?纳什均衡的存在性定理()(Debreu,1952;Glicksberg,1952)在n 人策略式博弈中,如果每个参与人的纯策略空间iS 是欧氏空间上的一个非空、闭的、有界的凸集,收益函数是连续的且对策略纳什均衡【拟凹意味着当收益函数拟凹条件不满足时,有:纳什均衡的存在性定理()(Glicksberg,1952)在n 人策略式博弈中,如果每个参与人的纯策略空间iS 是欧氏空间上的一个非空、闭的、有界的凸集,收益函数是连续的,那么存在一个混合策略纳什均衡。)】iu(

29、si i)minu(s),i i+1si is)u(i iui(s)is 是拟凹的,那么,存在一个纯u(ui(s)纳什均衡的多重性及其选择纳什均衡的多重性及其选择真正令博弈论专家棘手的问题并不是一个博弈是否存在均衡,而是一个博弈可能有多个均衡。事实上许多博弈都存在多个纳什均衡,有些博弈甚至有无穷多个纳什均衡。考虑两个人分一块蛋糕,每个人独立地提出自己要求的份额。设分别为第一个人和第二个人要求的份额,如果,每个人得到自己要求的份额;否则谁也得不到。这个博弈中任何满足的多个纳什均衡。12这条曲线上的任何点都是纳什均衡1均衡的多重性与一致性预测 一致性:当所有参与人预测到一个特定的纳什均衡将出现,那

30、么没有人有积极性选择非纳什均衡的策略,这个纳什均衡将出现 当博弈有多个纳什均衡时,要所有参与人预测同一个纳什均衡会出现是困难的。如果不同参与人预测的不是同一个纳什均衡,实际出现的不是纳什均衡比如性别战中,如果男的预期(足球,足球),而女的预期(芭蕾,芭蕾),实际出现(足球,芭蕾)分蛋糕博弈中,第一人预期,第二人预期,那么第一人选第二人选择,两者和大于 1,谁也得不到。非纳什均衡结果之所以会出现,是因为参与人在预测上犯了错,而不是因为参与人预测这个非纳什均衡结果会出现:如果男的预期自己选足球时非纳什均衡(足球,芭蕾)会出现,那么他就会选芭蕾(假定女方预期不变),结果就是纳什均衡(芭蕾,芭蕾),正

31、是在这个意义上,我们说只有纳什均衡是一致性预期,任何非纳什均衡都不会成为一致性预期纳什均衡的甄别在现实生活中,人们往往可以通过一些约定俗成的观念或者某种具有合理性的机制,引导博弈的结果朝着比较有利于局中人的方向发展帕累托优势标准猎鹿博弈猎人乙猎鹿打兔猎人甲两人一起去猎鹿的获益猎鹿10,10 0,4 的获益(4,4)大很多;猎打兔4,0 4,4(猎鹿,猎鹿)x)都是纳什均衡,因而这个博弈有无穷1 21=1(x,2121 2x1,xx+xx+x1x2=4x1=5x1=6x2=5(10,10)明显比各自去打兔鹿博弈最有可能的结局是风险优势标准基本思路:如果按照支付标准或者帕累托标准,难以确定局中人将

32、采用两个或多个纳什均衡中的哪一个均衡时,可以考虑不同纳什均衡之间的风险状况,风险小的优先博弈方 2 L R(1-p)p 博弈方 1 9,9 0,8 D 8,0 7,7 该博弈有两个纯策略纳什均衡(U,L)和(D,R),双方是否必然选择帕累托优势策略(U,L)?尽管双方都采用帕累托优势均衡(U,L)策略比另一个均衡多 2 个单位,但是如果另一方偏离(U,L)的可能性大于 1/8,(D,R)就是比(U,L)更明智的选择。(假定博弈方 2 以 1-p 的概率选 L,则 9*(1-p)+0*(p)1/8),如果考虑风险因素(,)就有相对优势,我们称为(D,R)具有风险优势。风险优势均衡的一种简单识别办

33、法是,如果所有博弈方在预计他方采用两种纳什均衡的概率相同时,都偏爱其中某一均衡,则该纳什均衡就是一个风险优势均衡。聚点均衡谢林(Schelling,1960)指出,在现实生活中,局中人可能会使用某些被博弈模型抽象掉的信息来达到一个均衡,这些信息往往跟社会文化习惯、局中人过去的博弈历史和经历有关。这就是聚点均衡(focal point equilibrium)概念的基本思想。性别战中存在(足球,足球)和(芭蕾,芭蕾)两个纯策略均衡,如果今天是男方的生日,(足球,足球)可能就是一个聚点均衡;而如果是女方生日,(芭蕾,芭蕾)可能是一个聚点均衡。背后的原因:在女方的生日时,男方可能认为应该讨女方欢心,

34、而女方也认为男方应该讨自己欢心,结果他们都出现在芭蕾舞厅 分蛋糕博弈中(0.5,0.5)可能是一个聚点均衡,如果每个参与人有某种公平意识的话;如果是姐弟俩分,姐姐疼爱弟弟也知道弟弟肚量大,弟弟知道姐姐疼爱自己,那么(0.4,0.6)可能是一个聚点均衡 提名博弈:假定两个人被要求同时宣布一个时刻,如果两人同时宣布的时刻相同,每人得到一定的奖励,那么“中午 12”可能是一个聚点均衡 廉价交谈(Cheap Talk)保证一个纳什均衡出现的另一个办法就是参与人在博弈开始之前进行不花什么成本的廉价交谈,尽管无法保证这种磋商会达成一个又约束力的协议,但是这种交谈确实可以促使某些纳什均衡在实际上出现。L R

35、 U 9,9 0,0 D 0,0 1,1 如果两个参与人在博弈前相遇,参与人 1 告诉参与人 2“我将选 U”,参与人 2 告诉参与人 1“我将选 R”,那么有很大可能(U,L)会出现。性别战中,男女双方事前打个电话,非纳什均衡大概不会出现。例子(到底告不告白?)女子男子一对男孩和女孩相互爱慕,但是双方都害怕告白不告白告白5,5-1,5 不告白5,-1 1,1 U 告白之后遭到对方婉拒(没有反应),这样带给双方-1 的效用(心理成本);当然对方向自己告白时,自己默认和向对方告白是一样的甜蜜,都得 5 的效用相关均衡人们在现实中遇到选择困难时,特别是在长期中反复遇到相似的选择难题时,常会通过收集

36、更多信息形成特定的机制和规则(某种形式的制度安排),从而走出困境。对于博弈中的多重均衡选择的难题,也要考虑博弈方主动去寻求方法,设计某种形式的均衡选择机制,以解决多重均衡的选择难题。相关均衡(correlated equilibrium)概念由奥曼(Aumann,1974)提出,其基本思想:局中人通过大家都能观测到的共同信号来选择行动,就有可能出现“相关均衡”并使得所有人受益。考虑以下例子。B L R A U 5,1 0,0 (晴天)D 4,4 1,5(阴天)设想这样一个均衡选择机制:双方在博弈前一天相遇,双方都同意根据天气的状况选择行动,即:如果晴天,A 选 U,B 选 L;如果是阴天,A

37、选 D,B 选 R。这样通过天气变化的信号,两个人的选择相关了。假定双方事前同意根据天气信号按上述规则行动,再假定双方都认为明天是晴天和阴天的概率相等(1/2),那么每个人期望效用:0.5*5+0.5*1=32.5,即大于他们独立选择混合策略的期望效用。问题是,双方会自愿遵循这个信号规则吗?会!因为在这个转化后的博弈中,按上述规则行动是一个纳什均衡。检查一下:如果晴天出现,给定 B 选 L,A 最优策略是 U,给定 A 选 U,B 的最优是选择是 L,阴天也类似。应用例子:如何协调性别战。情侣双方可能在事前形成这样的约定:如果天气好一起去看足球赛,如果天气不好则一起去看音乐厅看芭蕾舞表演Aum

38、ann Aumann 还发现,如果每个人收到不同但相关的信号,每个人都可以得到更高还发现,如果每个人收到不同但相关的信号,每个人都可以得到更高的期望收益 考虑以下信号规则A 1,2 3,4,5,6 U D 如果 36 出现。第三方规定 B 选 L 如果 14B 1,2,3,4 5,6 L R 相关的,但是不同。上述规则是一个纳什均衡。当 A 被告知选 U 时,他知道 12 出现,因而 B 一定被告知选 L,故 U 是A 的最优选择;当 A 被告知选 D 时,他不确定 36 哪一个出现,因而不知道 B被告知选 L 还是 R,但根据概率,他知道 B 选 L 和 R 的概率相等(给定 36出现,出现

39、 5,6(因而 B 选 R)和出现 3,4(因而 B 选 L)的概率是相等的,都为 1/2),A 选 U 的期望效用为 2.5,选择 D 的期望效用也是 2.5,因此 A 没有理由不选择 D(偏离到 L 不会有更多收益)。B 也类似。该规则的重要性质 保证最差的结果(U,R)不会出现(12 和 56 之间没有交集)(U,L)、(D,L)和(D,)各以/3 概率出现(例如,(U,L)出现的条件是1 或 2 出现,概率为 2/6),从而两博弈方期望收益达到 3+1/3 该博弈有两个纯策略均衡(U,L),D,R)及一个混合策略均衡(每人以相同概率选择两种纯策略,各得 2.5)。由于纯策略均衡下利益差

40、别太大,聚点均衡不适用。双方同意由第三方抛一个骰子,对 A 来说,第三方规定 A 选 U,如果 1 或 2 出现;选 D出现;选 R,如果 5,6 出现。假定第三方只告诉每个参与人选择什么行动,不透漏什么点数出现:每人收到的信号是抗共谋均衡以上探讨的甄别和筛选多重纳什均衡的方法,基本上局限于二人同时决策博弈的情形。如果参与人博弈的局中人多于两个,有可能发生部分局中人联合起来追求小团体利益的共谋行为,从而导致均衡情况的变化。为此,经济学家提出了抗共谋纳什均衡的概念,或者简单地称为抗共谋均衡(coalition-proof equilibrium),对纳什均衡的概念作进一步的精炼。抗共谋均衡的思想

41、可以通过下面的例子给予说明。矩阵 A 甲乙甲乙L R L R U 0,0,10-5,-5,0 U-2,-2,0-5,-5,0 D-5,-5,0 1,1,-5 D-5,-5,0-1,-1,5 A B 丙这个三人博弈共有两个纯策略纳什均衡(U,L,A)和(D,R,B),且前者帕累托优于后者。但是,该博弈的结果应当就是(U,L,A)这个均衡吗?不一定!如果丙按照纳什均衡(U,L,A)的指引选矩阵 A,只要甲和乙达成一致行动的默契,分别采用 D 和 R,他们就都能获得 1 单位的支付,大于原来的 0 和 0。纳什均衡(D,R,B)是抗共谋纳什均衡给定丙选 B 矩阵,甲和乙没偏离到 U(-2-1)和 L

42、(-2-1)的激励;给定甲选 D,丙和乙没有偏离到 A(05)和 L(-5-1)的激励给定乙选 R,丙和甲没有偏离 A(05)和 U(-5q0 选 D),B 没有激励选择 R(选 R 得益为 0,选 L 得益 1*(1-q)0);同样,无论 B 犯错概率大,A 也没有激励选择颤抖手均衡定义在一个有n 人博弈G=S,.,S;u,.,u中,我们称纳什均衡构成一个颤抖手精炼均衡,如果对于每个局中人i,存在一个严格混合策略序列,满足以下条件:()对于每个i,lim=()对于每个i,是对策略组合=(,.,.,)的最优反应,即 注意 必须是严格混合策略,即选择每个纯策略的概率严格为正。条件()意味着每个局

43、中人都会犯错误,但错误收敛到(初学投篮,如投篮次数足够多,最终你总能把球投进);()意味着,每个局中人选择的策略,不仅在他人不犯错是最优的,而且在错误选择了时也是最优的(若纳什均衡是每个人都把篮球投入,一个局中人不能因为他人可能投不进而故意要把球投偏)mi,)mi i;+argmaxu(,.,)miiimimiimi(U,L)和(D,R)都是纳什均衡。(D,R)禁得起颤抖吗?假定 B 有可能犯错,即选 L而不是 R,那么 D 仍是 A 的最优选择吗?不是!只要 B 有犯错误的可能(假定以 p0 的概率选 L),则无论这个错误发生概率多小,A 选 U 的期望支付(1*p+0)严格大于选 L(-3

44、*P+0);类似地,只要 A 有犯错可能,R1n1nnmm mmmi1i1i1n 举例左(1-2/m)中(1/m)右(1/m)s t 1-s-t 上(1-2/m),12,10,12 q 中(1/m),12,11,11 r 下(1/m),12,13 1-q-r 现在证明:(上,左)的均衡,是颤抖手均衡。()采用混合策略表达,左上方(上,左)的这个纳什均衡是,其中=是 颤 抖 手 均 衡,我 们 按 照来 构 造;根 据=成立。()考察对于每个,的最优反应。面对EUA=q4(m2)+3+2/m+0(m2)+2+1/m+(1qr)3(m2)+1+2/m=qm3(m2)+(3m3)/m由 于,故1,即

45、 策 略=的最优反应。同 样 可 知,是 局 中 人 B 对 A 的 策 略=至此我们知道是颤抖手均衡。最后需要说明的是,按照上面的定义,为了论证构成颤抖手精炼均衡,我们只需要给局中人找到一个满足条件(1)、(2)的严格混合策略序列便可,而不需要证明,对任意满足条件(1)的严格混合策略序列,略组合精炼均衡。强颤抖手精炼均衡的条件要比颤抖手精炼均衡本身要强得多,有些博弈虽然存在颤抖手精炼纳什均衡,但却不一定存在强颤抖手精炼纳什均衡。mB B,条件(1)mmA Am211m,)mAB,),),m2来构造,由于21121的最优反应。可见条件(2)也成立。=(,1s)=(1,0,0)(A,)211 1Bm=(1,),局中人 A 的期望支付为:=(1,Bmm,m211mmmBm,)B=(1,2m(,1s)=(1,1s)=(1,0,0)211=(,1qr)=(1,0,0);=(,1s)=(1,0,0)条件下的最优反应。如果后者也成立,则我们称这个颤抖手精炼均衡为强颤抖手B(,1qr)=(1,0,0),。为了说明mA(1 是不是对于策略组合ABmmmmB的 最 优 反 应 是 将 q 增 大 到(,1qr)=(1,0,0)的确是局中人 A 对 B 的策略组合B(1,Anmimi(A,)AmBmm2=m2AA=(mBm m(,.,)都是局中人i 在给定其他局中人的策

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理手册

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁