《博弈论中的经典分析及启示囚徒困境.ppt》由会员分享,可在线阅读,更多相关《博弈论中的经典分析及启示囚徒困境.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、引引 言言 20世纪90年代至2008年,诺贝尔经 济学奖五次(1994,1996,2001,2005,2007)授予了与博弈论相关的研究领域,总共有十位经济学家获奖,是获奖人数最多的领域(排在第二位的是金融)。博弈论研究的最大特点一般决策研究(数学表达):Y f(x1,x2,xn)博弈论的决策研究(数学表达):Y f(x1,x2,xn,z)(z为他人行为)特点:决策者目标函数的自变量中包含他人行为。严格地讲,博弈论是一种方法,应用范围不仅包括经济学,政治学、军事、外交、国际关系、公共选择,还有犯罪学,都涉及到博弈论。实际上,不少人把博弈论看成是数学的一个分支。纳什1951年的奠基性文章就是发
2、表在数学杂志上。夏普里1953年的文章本身也是一篇数学手稿。一、博弈论基础知识一、博弈论基础知识 1.博弈论的基本概念博弈论的基本概念 “博弈论”译自英文“Game Theory”。直译:“游戏理论”。游戏有下列特征:游戏有下列特征:(1)都有规则。(2)都有结果(赢、输、平),结果能折算成数值。(3)都有策略或者说计谋,选择不同的策略或计谋 往往带来不同的结果。(4)策略和利益有相互依存性,即每一个游戏者所 得结果的好坏,不仅取决于自身的策略选择,也取决于其他参加者的策略选择。策略本身常常没有绝对的好坏之分,只有相对于他方策略的相对好坏。博弈论也称为“对策论”。其实并不是很恰当。因为“对策”
3、在实际中常被用来表示具体的针对性反应方案,或站在某个决策方的立场上找针对其他方的对策。博弈论所研究的决策问题却是有开始、有次序、有结果的整个过程。“博弈”的通俗含意不过是弈棋、赌胜,但由于它是带有文言性质的词,因而显得学术味浓一些,既能反映这门学科的特点和实质,又给人一种高深莫测的感觉。博弈的简明定义:博弈即一些个人 或其他组织,面对一定的环境条件,在 一定的规则下,同时或先后,一次或多 次,从各自允许选择的行为或策略中进 行选择并加以实施,各自取得相应结果 的过程。博弈论,是研究决策主体的行为发 生直接相互作用时候的决策以及这种决 策的均衡问题。博弈论研究的对象是理性的参与者 如何选择策略或
4、如何作出行动的决定,使自己的目标最大化。2.构成一个博弈的基本要素构成一个博弈的基本要素 博弈的七要素参与人、行动、信息、战略、支付函数、结果、均衡。参与人是博弈中选择行动以最大化自己效用的决 策主体(可以是个人、团体等);行动是参与人的决策变量;战略是参与人选择行动的规则,它告诉参与人在什么时候选择什么行动;信息指的是参与人在博弈中的知识,特别是有关其他参与人(对手)的特征和行动的知识;支付函数是参与人从博弈中获得的效用水平,是每个参与人真正关心的东西;结果是指博弈分析者感兴趣的要素的集合;均衡是所有参与人的最优战略或行动的组合。博弈的三要素1)博弈的参加者2)博弈方各自可选择的全部策略 或
5、行动的集合3)博弈方的得益3.博弈的表述形式博弈的表述形式(1)标准形式(策略形式)标准形式(策略形式)被擒,中计(主观)胜利(客观)逃脱,和被擒,胜利逃脱,和守城弃城 攻城退兵诸诸葛葛亮亮司马懿司马懿捉住曹操,被捉 扑空,逃脱 扑空,逃脱 捉住曹操,被捉 华容道 大 路 华容道 大路诸诸葛葛亮亮曹曹 操操(2)扩扩展形式(博弈展形式(博弈树树)诸葛亮诸葛亮司司 马马 懿懿弃城弃城守城守城进攻进攻退兵退兵 进攻进攻退兵退兵擒住擒住孔明孔明胜利胜利 和和和和 司马懿司马懿诸诸 葛葛 亮亮攻城攻城退兵退兵 守城守城弃城弃城 守城守城弃城弃城逃脱逃脱被擒被擒被擒被擒逃脱逃脱(3)联盟形式(特殊函数形
6、式)联盟形式(特殊函数形式)4.博弈的类别博弈的类别 博弈的分类表 行动顺序信 息 静 态 动 态完全信息 完全信息静态博弈 完全信息动态博弈 不完全信息 不完全信息静态博弈 不完全信息动态博弈二、博弈论中的经典分析及启示二、博弈论中的经典分析及启示1.囚徒困境囚徒困境 “囚徒困境”博弈是1950年图克(Tucker)提出的。它非常简单,却反映了博弈的根本特征,是阐释众多经济社会问题的经典范式。警察抓住两个罪犯,分别关押,并与罪犯讲清:如果一人坦白,一人抗拒,坦白者立即释放,抗拒者判刑 8 年;若两人都坦白,按律从轻各判 5 年。罪犯知道,他们若抗拒,警察掌握的证据只能各判 1 年。最后的结果
7、会怎样?-5-5,-5-5 0 0,-8-8 -8-8,0 0 -1-1,-1-1乙乙乙乙抗拒抗拒抗拒抗拒坦白坦白坦白坦白甲甲甲甲抗拒抗拒抗拒抗拒坦白坦白坦白坦白 -5-5,-5-5 0 0,-8-8 -8-8,0 0 -1-1,-1-1乙乙乙乙抗拒抗拒抗拒抗拒坦白坦白坦白坦白甲甲甲甲抗拒抗拒抗拒抗拒坦白坦白坦白坦白此博弈的“均衡”为(坦白,坦白)该均衡就是大名鼎鼎的“纳什均衡”纳什均衡:在对方策略确定的情况下,每个参与者的策略都是最好的,没有人愿意先改变自己的策略。假如博弈中的所有参与人事先达成一项协议,这个协议是否可以自动实施?若当事人都会自觉遵守这个协议,这个协议就构成纳什均衡:没有人有
8、积极性偏离协议。换句话说,如果一个协议不构成纳什均衡,它就不可能自动实施,因为至少有一个参与人会违背这个协议。结论:一种制度安排要生效,必须是 纳什均衡。不满足纳什均衡要求的制 度没有意义。类似囚徒困境 应试教育 公共产品供给不足(修路、公 寓楼道 的路灯)卡特尔的内在不稳定性产量限制、价格限制)商业诚信商业诚信此博弈的纳什均衡为(3,3)乙乙诚信 欺诈 10,10 0,18 18,0 3,3 诚信甲甲 欺诈 交通规则交通规则 乙乙守规 违规10,100,1818,03,3 守规甲甲 违规 启示:启示:个人理性与集体理性的矛盾;冤假错案是怎样产生的;个人的最优决策不一定带来集体的最优结果,集体
9、的最优结果未必来源于个人的最优决策。领导的政绩?改变博弈结果的根本方法是改变博弈的支付 矩阵。囚徒困境的解脱有这样一个博弈 此时,两者的纳什均衡为(不合作,不合作)。奖励 假如对采取“合作”策略的博弈方奖励3奖励矩阵为:最终结果为上述两个矩阵相加:博弈的纳什均衡为(合作,合作),解开了囚徒困境。惩罚 思拉恩埃格特森在新制度经济学中举 的例子。非洲努埃尔人部落间有两个大家庭X、Y,每家拥有同样的武力潜能和侵犯倾向,每家拥 有相当于10头牛的财产。每家都拥有两种策略:侵犯对方,不侵犯对方。博弈表述为:纳什均衡为(侵犯,侵犯),双方的收益为(4,4)。通过联姻,努埃尔人引入了一个惩罚矩阵:由于亲戚关
10、系,侵犯者遭受成本(包括心理成本)的损失。此时,X、Y就由非合作均衡变为合作均衡。上述方阵变为:2.赌胜博弈赌胜博弈 赌胜博弈属于“零和博弈”的范畴,是 具有某种对称性的零和博弈。猜硬币博弈猜硬币博弈 -1,1 1,-1 1,-1 -1,1 正面 反面 出出硬硬币币方方正面 反面猜猜 硬硬 币币 方方石头石头.剪子剪子.布布 博弈博弈 0,0 1,-1 -1,1 -1,1 0,0 1,-1 1,-1 -1,1 0,0 石头 剪子 布 博博弈弈方方 1 石头 剪子 布博弈方博弈方 2齐威王、田忌赛马齐威王、田忌赛马3,-31,-11,-11,-1-1,11,-11,-1 3,-31,-11,-1
11、1,-1-1,11,-1-1,13,-31,-11,-11,-1-1,11,-11,-13,-31,-11,-11,-11,-11,-1-1,13,-31,-11,-11,-1-1,11,-11,-1 3,-3齐齐威威王王上中下田田 忌忌上下中中上下中下上下上中下中上上中下下中上上下中中上下中下上下上中 以上三个博弈是零和博弈,没有纯策略纳什均衡。纯策略:单一的确定的策略。0,0 1,-1 -1,1 -1,1 0,0 1,-1 1,-1 -1,1 0,0 石头 剪子 布 博博弈弈方方 1 石头 剪子 布博弈方博弈方 2取胜原则:保密(不泄漏自己的策略);避免自己的决策有倾向性;让对方琢磨不透。
12、混合策略:以一定的概率分布在备选策略中随机选取。启示:当博弈是零和博弈时,只有混合策略均衡。什么样的决策是科学决策?随机决策(当面对零和博弈时)科学吗?3.警卫与小偷警卫与小偷 案例1 两地巡逻 警卫负责A、B两地保安,A地财产2万元,B地1万元。警卫一次只能在一个地方巡逻,小偷一次也只能去一个地方。警卫在某地巡逻,小偷也去了该地,便不会失窃;小偷去了警卫没去的地方,则偷盗成功。警卫怎么巡逻效果最好?3 ,0 2,1 1 ,2 3,0 巡逻A地 巡逻B地 盗窃A地盗窃B地 警警卫卫 小小 偷偷 这个博弈是零和博弈,没有纯策略纳什均衡点,但有混合策略均衡点。当警卫去A地巡逻时,小偷有 的机会去A
13、 地,的机会去B地,此时,A的得益为:3+2=万元;当警卫去B地时,同样小偷有 的机会去A 地,的机会去B地,此时,B的得益为:1+3=万元。警卫总的得益为:+=万元。同理,我们可得小偷的总的得益为 万元。警卫的最优策略是:掷骰子决定去A地还是B地巡逻。掷l4点去A地,掷5、6两点去B地,这样警卫有23的机会去A地,13的机会去B地。警卫的期望得益是:7/3大于2。小偷的最优策略是:同样掷骰子决定去A地还是B地偷盗,掷到14点去B地,掷5、6两点去A地,即小偷有l/3的机会去A地,2/3的机会去B地,期望收益为2/3万元 启示:当博弈是零和博弈时,即一方所得是另外一方的所失时,只有混合策略均衡
14、。博弈方的策略应当是随机的,不能让对方知道自己的策略,哪怕是“倾向性”的策略。如果对方知道你出其中一个策略的“可能性”大,你失败的可能性就大。案例2 小偷和守卫:此案例为塞尔顿(1994年诺贝尔经济学奖得主)1996年3月在上海讲演中举的例子。有一仓库,小偷行窃时守卫睡觉,可获价值 V 的财物,小偷行窃时守卫没睡觉,则被抓,被抓后要坐牢,效用为 P。守卫睡觉而未遭偷窃有 S 的效用,因睡觉被窃遭解雇,得益为 D。小偷不偷,守卫无得也无失。守卫不睡,出一份力挣一份钱,也无得失。V,-D -P,0 0,S 0,0小偷不偷偷 守 卫睡 不睡 分析:这个博弈不存在纯策略纳什均衡。小偷的策略D PtPt
15、 S0守卫得益(睡)小偷偷的概率1 小偷有“偷”与“不偷”两种策略。图中横轴表示小偷选择“偷”的概率 Pt,“不偷”的概率等于 1Pt。守卫的策略P PgPg S0小偷得益(偷)守卫睡的概率1V 守卫有“睡”与“不睡”的策略,其概率分布也可用图表示。激励悖论(政策目标和政策结果的意外关系)P PgPg S0小偷得益(偷)守卫睡的概率1V Pg P 加重对小偷的惩罚,相当于 P 向下移动到 P。短期内小偷会停止“偷”窃,但长期中,小偷减少“偷”窃会使守卫更多地选择“睡”觉。加重对小偷惩罚的主要作用是守卫可以更多地偷懒。D PtPt S0守卫得益(睡)小偷偷的概率1Pt D 加重对失职守卫的处罚,
16、意味着 D 增大到 D。短期效果是守卫更加尽职,长期中的真正作用,恰恰是会降低盗窃发生的概率。启示:怎样避免激励悖论?怎样运用激励悖论!4.智猪博弈智猪博弈 猪圈里有一大一小两头猪。食槽在一头,按钮在另一头。按一次有10个单位食品进入食槽,但按者要支付2个单位。若同时按,同时跑向食槽,各支付2 个单位,大猪吃7个单位,小猪吃3个单位。大猪按,小猪坐吃,大猪吃6个单位(支付2个单位),小猪吃4个单位。小猪按,大猪坐吃,大猪吃9,小猪吃1(支付2 个单位)。都坐等,都没吃。5,1 4,4 9,-1 0,0小猪小猪 坐吃坐吃按按大猪大猪 坐吃坐吃 按按智猪博弈(扣除支付)此博弈的纳什均衡:大猪按,小猪坐吃(4,4)启示:启示:多劳并不多得;要推动工作,就要想办法找到“大猪”;若你是“大猪”,做了好不仅不要想 得好,还要能受委屈。(大德无名)