《博弈论的几个经典模型 (2)讲稿.ppt》由会员分享,可在线阅读,更多相关《博弈论的几个经典模型 (2)讲稿.ppt(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于博弈论的几个经典模型(2)第一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 第二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型引 言第三页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型引 言第四页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型失火了,你往哪个门跑失火了,你往哪个门跑这就是博弈论这就是博弈论 一天晚上,你参加一个派对,屋里有很多人,你玩得一天晚上,你参加一个派对,屋里有很多人,你玩得很开心。这时候,屋里突然失火,火势很大,无法扑很开心。这时候,屋里突然失火,火势很大,无法扑灭。此时你想逃生。你的面前有两个门,左门和右门,灭
2、。此时你想逃生。你的面前有两个门,左门和右门,你必须在它们之间选择。但问题是,其他人也要争抢你必须在它们之间选择。但问题是,其他人也要争抢这两个门出逃。如果你选择的门是很多人选择的,那这两个门出逃。如果你选择的门是很多人选择的,那么你将因人多拥挤、冲不出去而烧死;相反,如果你么你将因人多拥挤、冲不出去而烧死;相反,如果你选择的是较少人选择的,那么你将逃生。这里我们不选择的是较少人选择的,那么你将逃生。这里我们不考虑道德因素,你将如何选择?考虑道德因素,你将如何选择?第五页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 引 言第六页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经
3、典模型 引 言第七页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型引 言第八页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型海萨尼(海萨尼(John C.HarsanyiJohn C.Harsanyi)引 言第九页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型第十页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型基本术语基本术语第十一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 参与者在不同策略组合下会得到一定的支付(参与者在不同策略组合下会得到一定的支付(payoffpayoff)。)。对于博弈参与者来说,存在着一博弈结果。对于博
4、弈参与者来说,存在着一博弈结果。博弈涉及均衡。博弈涉及均衡。重要的均衡重要的均衡纳什均衡。纳什均衡。基本术语基本术语第十二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 非合作性博弈非合作性博弈:是指参与者在行动选择时无法达:是指参与者在行动选择时无法达成约束性的协议。人们分工与交换的经济活动就成约束性的协议。人们分工与交换的经济活动就是合作性的博弈,而囚徒困境则是非合作性的博是合作性的博弈,而囚徒困境则是非合作性的博弈。弈。博弈的类型博弈的类型第十三页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 博弈的类型博弈的类型第十四页,讲稿共八十一页哦博弈论的几个经典模型博
5、弈论的几个经典模型 博弈的类型博弈的类型第十五页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 模型一、智猪博弈模型一、智猪博弈/完全信息静态博弈完全信息静态博弈 小猪小猪大猪大猪按按不按不按(等待等待)按按(5(5,1)1)(5(5,3)3)不按不按(等待等待)(9(9,-1)-1)(0(0,0)0)大猪和小猪分别该如何选择。第十六页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型选择等待是小猪的占优策略。选择等待是小猪的占优策略。大猪的最佳选择取决于小猪的行动,如果小猪去按大猪的最佳选择取决于小猪的行动,如果小猪去按,大猪最好选择等待;如果小猪不去按,大猪最好选择等待
6、;如果小猪不去按,则最佳选则最佳选择是大猪亲自去按。择是大猪亲自去按。也就是说,在智猪博弈中,大猪没有占优策略也就是说,在智猪博弈中,大猪没有占优策略,而小猪而小猪有占优策略,它的最佳选择就是耐心等待大猪去按有占优策略,它的最佳选择就是耐心等待大猪去按钮,才能获得最佳结果。钮,才能获得最佳结果。“小猪躺着大猪跑小猪躺着大猪跑”的现象是由于故事中的游戏规的现象是由于故事中的游戏规则所导致的。规则的核心指标是则所导致的。规则的核心指标是:每次落下的事每次落下的事物数量和踏板与投食口之间的距离。物数量和踏板与投食口之间的距离。模型一、智猪博弈模型一、智猪博弈/完全信息静态博弈完全信息静态博弈第十七页
7、,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型如果改变一下核心指标,猪圈里还会出现同样的如果改变一下核心指标,猪圈里还会出现同样的“小小猪躺着大猪跑猪躺着大猪跑”的景象吗?试试看。的景象吗?试试看。改变方案一:减量方案。改变方案一:减量方案。改变方案二:增量方案。改变方案二:增量方案。改变方案三:减量加移位方案。改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食板。等待者不得食,而多劳者多得。每次的收获刚好而多劳者多得
8、。每次的收获刚好消费完。消费完。对于游戏设计者,这是一个最好的方案。成本不高对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。,但收获最大。模型一、智猪博弈模型一、智猪博弈/完全信息静态博弈完全信息静态博弈第十八页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 在博弈论中,含有占优战略均衡的一个著名例在博弈论中,含有占优战略均衡的一个著名例子 是 由 塔 克 给 出 的子 是 由 塔 克 给 出 的“囚 徒 困 境囚 徒 困 境”(prisonersdilemmaprisonersdilemma)博弈模型。该模型用一种特别)博弈模型。该模型用一种特别的方式为我们讲述了一个警
9、察与小偷的故事。的方式为我们讲述了一个警察与小偷的故事。模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈第十九页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型假设:有两个小偷假设:有两个小偷A A和和B B联合犯事、私入民宅被警察联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一物,于是证据确凿,两人都被判有罪。
10、如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑个犯罪嫌疑人也作了坦白,则两人各被判刑8 8年年;如果另一个犯罪嫌人没有坦白而是抵赖;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍则以妨碍公务罪(因已有证据表明其有罪)再加刑公务罪(因已有证据表明其有罪)再加刑2 2年,而年,而坦白者有功被减刑坦白者有功被减刑8 8年,立即释放。如果两人都抵年,立即释放。如果两人都抵赖赖,则警方因证据不足不能判两人的偷窃罪,但则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱可以私入民宅的罪名将两人各判入狱1 1年。年。模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈第二十页,讲稿共八十一
11、页哦博弈论的几个经典模型博弈论的几个经典模型 不难看出,不难看出,“坦白坦白”是任一犯罪嫌疑人的占优战略是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。,而(坦白,坦白)是一个占优战略均衡。模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈 乙乙 甲甲坦白坦白抵赖抵赖坦白坦白(-8(-8,-8)-8)(0(0,-10)-10)抵赖抵赖(-10(-10,0)0)(-1(-1,-1)-1)第二十一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 对于两个犯罪嫌疑人总体而言,他们设想的对于两个犯罪嫌疑人总体而言,他们设想的最好的策略可能是都不交代。但任何一个犯罪嫌最好
12、的策略可能是都不交代。但任何一个犯罪嫌疑人在选择不交代的策略时,都要冒很大的风险疑人在选择不交代的策略时,都要冒很大的风险,一旦自己不交代而另一犯罪嫌疑人交代了,自,一旦自己不交代而另一犯罪嫌疑人交代了,自己就将可能处于非常不利的境地。对于己就将可能处于非常不利的境地。对于A A而言而言,不不管管B B采取何种策略,他的最佳策略都是交代。对于采取何种策略,他的最佳策略都是交代。对于B B而言也是如此。最后两人都会选择交代。而言也是如此。最后两人都会选择交代。模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈第二十二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型该博弈刻划了两大
13、难题:该博弈刻划了两大难题:冲突情形下,参与人的目标是什么?是采用冲突情形下,参与人的目标是什么?是采用(作为个人作为个人)他自己的最好策略,还是采用他自己的最好策略,还是采用(作为集体的一员作为集体的一员)他们共他们共同的最好策略?前者导致均衡策略同的最好策略?前者导致均衡策略(坦白,坦白坦白,坦白),支付,支付为为(-8(-8,-8)-8);后者的最好策略是;后者的最好策略是(抵赖,抵赖抵赖,抵赖),支付为,支付为(-1(-1,-1)-1)。这里反映了个体理性行为与集体理性行为。这里反映了个体理性行为与集体理性行为之间的矛盾、冲突。之间的矛盾、冲突。此博弈只进行一次还是重复进行?如果博弈只
14、进行此博弈只进行一次还是重复进行?如果博弈只进行一次,参与人似乎只有坦白才是最好的策略,因为一次,参与人似乎只有坦白才是最好的策略,因为没有理由相信对手会对你有信心,他总认为你自己没有理由相信对手会对你有信心,他总认为你自己会坦白;因此,双方都采取坦白策略。然而,若博会坦白;因此,双方都采取坦白策略。然而,若博弈进行多次,则结论将会发生变化。弈进行多次,则结论将会发生变化。模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈第二十三页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型囚徒困境可以用来说明许多现象。囚徒困境可以用来说明许多现象。寡头定价寡头定价拍卖出价拍卖出价推销员的努
15、力推销员的努力政治上的讨价还价政治上的讨价还价军备竞赛等(冲突中出现两败俱伤的情况军备竞赛等(冲突中出现两败俱伤的情况,往往往要考虑到囚徒困境)往要考虑到囚徒困境)*(纯策略)纳什均衡(纯策略)纳什均衡模型二、囚徒困境模型二、囚徒困境/非合作博弈非合作博弈第二十四页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型某年在荷兰召开了一次某年在荷兰召开了一次“合作及社会两难困境研讨会合作及社会两难困境研讨会”,与会者都是博弈论的专家。与会者都是博弈论的专家。当大会结束之后,有两个学者,麦息克和路特提议大家当大会结束之后,有两个学者,麦息克和路特提议大家玩一个游戏。玩一个游戏。他们将一个大信
16、封拿出来,请在场的位专家拿出金钱他们将一个大信封拿出来,请在场的位专家拿出金钱装到这个信封里。如果到最后这信封里的钱超过元装到这个信封里。如果到最后这信封里的钱超过元,麦息克和路特将自己掏腰包,退还每人元。不过,麦息克和路特将自己掏腰包,退还每人元。不过,如果最后信封内的钱不足元,就统统没收,大家拿如果最后信封内的钱不足元,就统统没收,大家拿不到半毛钱。不到半毛钱。仔细想一想,如果你也在场,你会奉献多少钱呢?仔细想一想,如果你也在场,你会奉献多少钱呢?问题与思考问题与思考第二十五页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型什么是海萨尼转换?什么是海萨尼转换?海萨尼提出了一种处理
17、不完全信息博弈的方法海萨尼提出了一种处理不完全信息博弈的方法,即引即引入一个虚拟的局中人入一个虚拟的局中人“自然自然”。自然首先行动。自然首先行动,它决定每个局中人的特征。每个局中人知道自,它决定每个局中人的特征。每个局中人知道自己的特征,但不知道别的局中人特征。这种方法己的特征,但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈将不完全信息静态博弈变成一个两阶段动态博弈,第一个阶段是自然,第一个阶段是自然N N的行动选择,第二阶段是除的行动选择,第二阶段是除N N外的局中人的静态博弈。这种转换被称为外的局中人的静态博弈。这种转换被称为“海萨尼海萨尼转换转换”,这个转换
18、把,这个转换把“不完全信息不完全信息”转变成为完全但转变成为完全但不完美信息,从而可以用分析完全信息博弈的方法进不完美信息,从而可以用分析完全信息博弈的方法进行分析。行分析。模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈第二十六页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 海萨尼转换的具体方法海萨尼转换的具体方法一个虚拟的参与人一个虚拟的参与人“自然自然”,自然首先决定参与人自然首先决定参与人的类型,赋予各参与人的类型向量的类型,赋予各参与人的类型向量 ,其中,其中 ;自然告知参与者自己的类型,却不告诉其他参与者的
19、类自然告知参与者自己的类型,却不告诉其他参与者的类型;型;参与者同时选择行动参与者同时选择行动,每一参与者每一参与者 从可行集从可行集 中选择行中选择行动方案动方案 ;各方得到收益各方得到收益 。借助于第一步和第二步中虚构的参与者借助于第一步和第二步中虚构的参与者“自然自然”的行的行动,我们可以把一个不完全信息的博弈表述为一个不动,我们可以把一个不完全信息的博弈表述为一个不完美信息的博弈。完美信息的博弈。模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈t12(,)ntt tt12(,)iiiA a aa tiiA第二十七页,讲稿共八
20、十一页哦博弈论的几个经典模型博弈论的几个经典模型 海萨尼转换分析海萨尼转换分析 海萨尼转换是处理不完全信息博弈的标准方法。一海萨尼转换是处理不完全信息博弈的标准方法。一般地般地,“,“自然自然”在博弈开始的时候选择参与人的类在博弈开始的时候选择参与人的类型,参与人的某个类型包括表征类型的各个特征型,参与人的某个类型包括表征类型的各个特征如策略空间、信息集、得益函数等,这些又称为如策略空间、信息集、得益函数等,这些又称为该类型参与人所拥有的个人信息。该类型参与人所拥有的个人信息。不完全信息意味着博弈各方中至少有一个参与人有不完全信息意味着博弈各方中至少有一个参与人有多个类型。多个类型。模型三、独
21、立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈第二十八页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 通过海萨尼转换,博弈开始时,所有参与人通过海萨尼转换,博弈开始时,所有参与人有关有关“自然自然”的行动有一致的信念,即都知道所的行动有一致的信念,即都知道所有参与人类型的概率分布函数,此即有参与人类型的概率分布函数,此即“海萨尼公海萨尼公理理”。模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈第二十九页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型经典案
22、例解析经典案例解析例:某一市场原来被例:某一市场原来被A A企业所垄断。现在企业所垄断。现在B B企业考虑是否进入。企业考虑是否进入。B B企业知道,企业知道,A A企业是否允许它进入,取决于企业是否允许它进入,取决于A A企业阻挠企业阻挠B B企企业进入所花费的成本。如果阻挠的成本低,那么,正如业进入所花费的成本。如果阻挠的成本低,那么,正如下表后两列所表示的,下表后两列所表示的,A A企业的占优战略是阻挠,博弈企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡有重复剔除的占优战略均衡AA阻挠,阻挠,B B不进入。如果阻不进入。如果阻挠的成本高,那么,正如下表前两列所表示的,挠的成本高,那么
23、,正如下表前两列所表示的,A A企业的占优企业的占优战略是默许战略是默许B B进入,博弈有重复剔除的占优战略均衡进入,博弈有重复剔除的占优战略均衡AA默默许,许,B B进入。进入。B B企业所不知道的,是企业所不知道的,是A A企业的阻挠成本是高是企业的阻挠成本是高是低。这里,某一参与人本人知道、其他参与人则不知道的低。这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在本例中,阻挠成本就是为他的类型。在本例中,阻挠成本就是 A A的私人信息。高阻的私人信息。高阻挠成本和低阻挠成本则是两
24、种不同的类型。挠成本和低阻挠成本则是两种不同的类型。模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈第三十页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型海萨尼转换后的市场进入博弈:海萨尼转换后的市场进入博弈:模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈 A A B B高成本高成本低成本低成本默许默许阻挠阻挠默许默许阻挠阻挠进入进入(40,50)(40,50)(-10,0)(-10,0)(30,100)(30,100)(-10,140)(-10,140)不
25、进入不进入(0,300)(0,300)(0,300)(0,300)(0,400)(0,400)(0,400)(0,400)显然,在这里,B所遇到的,是不确定性条件下的选择问题。因为B不仅不知道A的类型 (是高还是低),而且不知道不同类型的分布概率。第三十一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 按照海萨尼的方法,所有参与人的真实类型都按照海萨尼的方法,所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真是给定的。其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。用
26、本例来说,公共知识而且这种概率是公共知识。用本例来说,公共知识不仅意味着不仅意味着B B企业知道企业知道A A企业高阻挠成本与低阻挠企业高阻挠成本与低阻挠成本的分布概率,而且意味着成本的分布概率,而且意味着A A也清楚也清楚B B知道这一知道这一概率。概率。模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈第三十二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型模型三、独立私人价值下的一级密模型三、独立私人价值下的一级密封拍卖封拍卖/不完全信息静态博弈不完全信息静态博弈N低成本高成本ABB(50,40)(300,0)(0,
27、-10)(300,0)(100,30)(400,0)(140,-10)(400,0)ABB默许默许阻挠阻挠进入不进入进入进入进入不进入不进入不进入*贝叶斯纳什均衡 第三十三页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 言语博弈中的言语博弈中的“威胁威胁”与与“承诺承诺”在现实中,我们经常看到声称的策略决定,但是这些在现实中,我们经常看到声称的策略决定,但是这些声称的策略可信吗?声称的策略可信吗?声称的策略包括声称的策略包括“威胁威胁”与与“承诺承诺”。在国际核。在国际核武器问题上武器问题上,我国及其他一些国家承诺我国及其他一些国家承诺“不首先使用核不首先使用核武器武器”就是一种
28、言语承诺。就是一种言语承诺。博弈论中博弈论中,经常用经常用“可置信可置信”和和“不可置信不可置信”的的“威威胁胁”或或“承诺承诺”来区分行动者说出来的策略,我们在来区分行动者说出来的策略,我们在对动态博弈的分析中会分析什么样的策略是可置信的对动态博弈的分析中会分析什么样的策略是可置信的,什么样的策略是不可置信的。而分析什么样的策略是不可置信的。而分析“威胁威胁”或或“承诺承诺”是可置信的还是不可置信的方法是倒推法。是可置信的还是不可置信的方法是倒推法。模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第三十四
29、页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 倒推法(倒推法(backward inductionbackward induction)也叫逆向归纳法)也叫逆向归纳法。那么什么是倒推法?。那么什么是倒推法?要理解什么是倒推法,先来看一下商界里经常要理解什么是倒推法,先来看一下商界里经常见到的博弈。见到的博弈。在某个城市假定只有一家房地产开发商在某个城市假定只有一家房地产开发商A,A,我们我们知道任何没有竞争下的垄断利润是很高的,假定知道任何没有竞争下的垄断利润是很高的,假定A A此此时每年的垄断利润是时每年的垄断利润是1010亿元。亿元。模型四、模型四、StackelbergS
30、tackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第三十五页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 现在假定有另外一个企业现在假定有另外一个企业B B,准备从事房地产,准备从事房地产开发。面对着开发。面对着B B要进入其垄断的行业,要进入其垄断的行业,A A想:一旦想:一旦B B进入,进入,A A的利润将受损很多,的利润将受损很多,B B最好不要进入。所以最好不要进入。所以A A向向B B表示,你进入的话,我将阻挠你进入。假定表示,你进入的话,我将阻挠你进入。假定当当B B进入时进入时A A阻挠的话阻挠的话,A,A的利润降低到的
31、利润降低到2 2,B B的利润是的利润是-1 1。而如果。而如果A A不阻挠的话,不阻挠的话,A A的利润是的利润是4 4,B B的利润也是的利润也是4 4。模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第三十六页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型这样一个博弈可用下图表示:这样一个博弈可用下图表示:模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 B进入不进入AA:10;B:0阻挠不阻挠A:2;B
32、:1A:4;B:4第三十七页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 上图称之为博弈树。由上图可见,这个博弈由上图称之为博弈树。由上图可见,这个博弈由两阶段构成。我们称之为动态博弈,或者两阶段的两阶段构成。我们称之为动态博弈,或者两阶段的动态博弈。博弈树是表示动态博弈的一个好方法。动态博弈。博弈树是表示动态博弈的一个好方法。现在让我们回到房地产开发商之间的博弈问题。现在让我们回到房地产开发商之间的博弈问题。A A的最好结局是的最好结局是“B B不进入不进入”,而,而B B的最好结局是的最好结局是“进入进入”而而A“A“不阻挠不阻挠”。这两个最好的结局不能构成。这两个最好的结局
33、不能构成均衡。那么结果是什么呢?均衡。那么结果是什么呢?模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第三十八页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型A A向向B B发出威胁:如果你进入,我将阻挠。而对发出威胁:如果你进入,我将阻挠。而对B B来说,来说,如果进入,如果进入,A A真的阻挠的话,它将受损失真的阻挠的话,它将受损失-1-1(假定(假定-1-1是它的机会成本),当然此时是它的机会成本),当然此时A A也有损失。对于也有损失。对于B B来说,问题是:来说,问题是:A A的威胁
34、可置信吗?的威胁可置信吗?B B通过分析得出:通过分析得出:A A的威胁是不可置信的。原因是:当的威胁是不可置信的。原因是:当B B进入的时候,进入的时候,A A阻挠的收益是阻挠的收益是2 2,而不阻挠的收益是,而不阻挠的收益是4 4。4242,理性人是不会选择做非理性的事情的。,理性人是不会选择做非理性的事情的。也就是说,一旦也就是说,一旦B B进入,进入,A A的最好策略是合作,而的最好策略是合作,而不是阻挠。因此,通过分析,不是阻挠。因此,通过分析,B B选择了进入,而选择了进入,而A A选选择了合作。双方的收益各为择了合作。双方的收益各为4 4。模型四、模型四、StackelbergS
35、tackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第三十九页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 在这个博弈中,在这个博弈中,B B采用的方法为倒推法,或者说逆采用的方法为倒推法,或者说逆向归纳法,即:当参与者作出决策时,他要通过对最后向归纳法,即:当参与者作出决策时,他要通过对最后阶段的分析,准确预测对方的行为,从而确定自己的行阶段的分析,准确预测对方的行为,从而确定自己的行为。为。在这里,双方必须都是理性的。如果不满足这在这里,双方必须都是理性的。如果不满足这个条件,就无法进行分析了。个条件,就无法进行分析了。这个例子只是
36、简单的两阶段博弈,而三阶段或更这个例子只是简单的两阶段博弈,而三阶段或更多阶段的博弈,可用同样方法加以分析。多阶段的博弈,可用同样方法加以分析。在动态博弈中,涉及在动态博弈中,涉及“威胁威胁”与与“承诺承诺”是不是可是不是可信的问题。静态地看,一博弈存在许多均衡。信的问题。静态地看,一博弈存在许多均衡。模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第四十页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型上述上述“进入进入阻挠阻挠”问题的博弈树可用支付矩阵表示:问题的博弈树可用支付矩阵表示:模型四
37、、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 B B A A进入进入阻挠阻挠阻挠阻挠(2(2,-1)-1)(10(10,0)0)不阻挠不阻挠(4(4,4)4)(10(10,0)0)在这个矩阵中,纳什均衡点有两个:(合作,进入)和(阻挠,不进入)。我们可以验证,在这两点上谁都不愿意改变策略。然而(阻挠,不进入)这个均衡是达不到的。因为这是动态博弈,在这个动态博弈中,存在着先后策略选择顺序。第四十一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 这里分析的是完全且完美信息下的动态博弈。这里分析的是完全
38、且完美信息下的动态博弈。所谓完全信息是指:博弈的支付函数是所谓完全信息是指:博弈的支付函数是“公共知识公共知识”。本书中未涉及不完全信息的博弈问题,如囚徒。本书中未涉及不完全信息的博弈问题,如囚徒困境这样的静态博弈也是完全信息博弈。完美信息困境这样的静态博弈也是完全信息博弈。完美信息是针对动态博弈而言的,指参与者知道博弈的所有是针对动态博弈而言的,指参与者知道博弈的所有历史。历史。倒推法是动态博弈中有用的工具,它可以说是理性倒推法是动态博弈中有用的工具,它可以说是理性的人自然的推理方式。然而倒推法面临着一个困难的人自然的推理方式。然而倒推法面临着一个困难,这这就是就是蜈蚣博弈蜈蚣博弈的悖论。的
39、悖论。模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第四十二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 前面我们分析了前面我们分析了“威胁威胁”是否可信,我们也可用是否可信,我们也可用同样的思路分析一个同样的思路分析一个“承诺承诺”是否可信。是否可信。“不不首先使用核武器首先使用核武器”的承诺可信吗?的承诺可信吗?*子博弈完美纳什均衡子博弈完美纳什均衡模型四、模型四、StackelbergStackelberg双寡头竞争模型双寡头竞争模型/完全且完美信息动态博弈完全且完美信息动态博弈 第
40、四十三页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 光天化日之下的违法行为为什么总能成功?光天化日之下的违法行为为什么总能成功?人类有许多关于猴子的故事,比如朝三暮四,杀鸡人类有许多关于猴子的故事,比如朝三暮四,杀鸡给猴看。其实猴子是没有思维的给猴看。其实猴子是没有思维的,它们有一定的群体意识它们有一定的群体意识,但没有社会意识,人们关于它们的故事其实是说人,但没有社会意识,人们关于它们的故事其实是说人自己的。我们这里也讲一个猴子的故事自己的。我们这里也讲一个猴子的故事。在现实社会中,窃贼在公共场所比如公共汽车在现实社会中,窃贼在公共场所比如公共汽车上偷东西时,车上的乘客看到了
41、,但不敢吭声。没上偷东西时,车上的乘客看到了,但不敢吭声。没有被偷的人想,反正被偷的待宰猴群的结局人不是有被偷的人想,反正被偷的待宰猴群的结局人不是我,我反抗了,我得不到任何好处我,我反抗了,我得不到任何好处,反而遭到伤害反而遭到伤害;而不反抗虽不得益,但也不受损,我何必要反抗;而不反抗虽不得益,但也不受损,我何必要反抗呢?这就是光天化日之下的偷窃行为为什么总能成呢?这就是光天化日之下的偷窃行为为什么总能成功的原因。功的原因。模型五、信号博弈模型五、信号博弈/不完全信息动态博弈不完全信息动态博弈第四十四页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 窃贼在偷东西时发出这样的信号:
42、如果谁反窃贼在偷东西时发出这样的信号:如果谁反抗,将殴打谁。乘客想,窃贼的威胁是可信的:抗,将殴打谁。乘客想,窃贼的威胁是可信的:因为如果个别乘客反抗,而窃贼不殴打该乘客的因为如果个别乘客反抗,而窃贼不殴打该乘客的话,就会有更多的乘客抓窃贼,窃贼将有可能被话,就会有更多的乘客抓窃贼,窃贼将有可能被抓,因此窃贼必然欧打反抗的乘客。抓,因此窃贼必然欧打反抗的乘客。乘客的策乘客的策略及可能的支付为:反抗略及可能的支付为:反抗,有可能被殴打甚至受伤有可能被殴打甚至受伤;不反抗,无所得也无所失。;不反抗,无所得也无所失。模型五、信号博弈模型五、信号博弈/不完全信息动态博弈不完全信息动态博弈第四十五页,讲
43、稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型乘客反抗不反抗偷东西窃贼窃贼殴打不殴打乘客:受伤窃贼:可能被抓,可能逃脱乘客:无所得,无所失窃贼:被抓窃贼殴打不殴打乘客:受伤窃贼:得到赃物乘客:无所得,无所失窃贼:得到赃物第四十六页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 对于乘客来说,窃贼的威胁是可信的,因而乘客的对于乘客来说,窃贼的威胁是可信的,因而乘客的最优策略是最优策略是“不反抗不反抗”;而对于窃贼来说,乘客;而对于窃贼来说,乘客“不反不反抗抗”下的下的“不殴打不殴打”策略为最忧。策略为最忧。这一博弈的结果是,窃贼偷东西时这一博弈的结果是,窃贼偷东西时“乘客不反
44、抗,乘客不反抗,窃贼不敢打窃贼不敢打”,这是一,这是一“子精炼纳什均衡子精炼纳什均衡”。这样一种群体不反抗的结果将使社会风气恶化,这样一种群体不反抗的结果将使社会风气恶化,偷窃之风盛行。对个体来说,虽然这一次被偷的不偷窃之风盛行。对个体来说,虽然这一次被偷的不是你是你,但下次你被偷的几率增加了。这使得我们都如但下次你被偷的几率增加了。这使得我们都如同待宰的猴子,我们不知道什么时候轮到我们自己同待宰的猴子,我们不知道什么时候轮到我们自己。这样,我们每个人的处境比以前更差。这样,我们每个人的处境比以前更差。模型五、信号博弈模型五、信号博弈/不完全信息动态博弈不完全信息动态博弈第四十七页,讲稿共八十
45、一页哦博弈论的几个经典模型博弈论的几个经典模型如何从这种困境中摆脱出来?如何从这种困境中摆脱出来?我们看到,使乘客采取我们看到,使乘客采取“反抗反抗”策略,而非策略,而非“不不反抗反抗”策略在于加大采取策略在于加大采取“反抗反抗”策略的获益,策略的获益,而减少不反抗的获益。当而减少不反抗的获益。当“反抗反抗”策略下的获益策略下的获益大于大于“不反抗不反抗”策略下的获益时,乘客就会采取策略下的获益时,乘客就会采取“反抗反抗”的策略。的策略。加大道德宣传,培养人的道德感可以解决这个囚加大道德宣传,培养人的道德感可以解决这个囚徒困境。徒困境。模型五、信号博弈模型五、信号博弈/不完全信息动态博弈不完全
46、信息动态博弈第四十八页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型乘客反抗不反抗偷东西窃贼窃贼殴打不殴打乘客:受伤,但没有 道德满足感窃贼:可能被抓,可能逃脱乘客:没有受伤 并有道德 满足感窃贼:被抓窃贼殴打不殴打乘客:受伤,并有 道德耻辱感窃贼:得到赃物乘客:道德耻 辱感窃贼:得到赃物上述博弈过程为:第四十九页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 这样,当小偷偷东西时,尽管乘客认为窃贼的威胁是这样,当小偷偷东西时,尽管乘客认为窃贼的威胁是可信的,但是如果乘客是道德感强的人可信的,但是如果乘客是道德感强的人,那么博弈结果那么博弈结果是是“乘客反抗,小偷殴打乘
47、客反抗,小偷殴打”,从而小偷有可能被抓从而小偷有可能被抓住,这也是一住,这也是一“子精炼纳什均衡子精炼纳什均衡”。博弈论对不合作的博弈结果的预测是令人悲哀博弈论对不合作的博弈结果的预测是令人悲哀的。但是,从这个例子我们看到,道德就是由群体的。但是,从这个例子我们看到,道德就是由群体实施的对所谓实施的对所谓“非道德非道德”的行为进行非强制性的惩的行为进行非强制性的惩罚机制,而法律及实施法律的国家的形成与改进就罚机制,而法律及实施法律的国家的形成与改进就是建立一个对所谓是建立一个对所谓“违法行为违法行为”实施的中心惩罚机实施的中心惩罚机制。制。*精炼贝叶斯纳什均衡;混同均衡;分离均衡精炼贝叶斯纳什
48、均衡;混同均衡;分离均衡模型五、信号博弈模型五、信号博弈/不完全信息动态博弈不完全信息动态博弈第五十页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 哪种策略更能赢哪种策略更能赢?假定我们的社会已经形成约束行动者的道德规范假定我们的社会已经形成约束行动者的道德规范。如果对不道德的行为不能产生即时的惩罚,不。如果对不道德的行为不能产生即时的惩罚,不道德的行为在社会中往往能给行为者带来好处。道德的行为在社会中往往能给行为者带来好处。这表现在一次性的非合作的博弈中这表现在一次性的非合作的博弈中,行为者理性地行为者理性地选取对自己有利的行动。但是,如果存在重复博弈选取对自己有利的行动。但是
49、,如果存在重复博弈,参与者之间对不合作行为就会形成惩罚机制。,参与者之间对不合作行为就会形成惩罚机制。对囚徒困境进行无限次的重复博弈,什么样的对囚徒困境进行无限次的重复博弈,什么样的策略会赢策略会赢?模型六、有效工资率模型六、有效工资率/重复博弈重复博弈 第五十一页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 这里涉及参与者以什么样的态度对待对方的不合作这里涉及参与者以什么样的态度对待对方的不合作策略。在博弈论里,有两个著名的策略。策略。在博弈论里,有两个著名的策略。如果一方采取不合作的策略另一方随即也采取如果一方采取不合作的策略另一方随即也采取不合作策略并且永远采取不合作策略,
50、在博弈论里不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略,或称冷酷策略,英文叫面称之为触发策略,或称冷酷策略,英文叫trigger trigger strategystrategy。模型六、有效工资率模型六、有效工资率/重复博弈重复博弈 乙乙 甲甲不合作不合作合作合作不合作不合作(1(1,1)1)(4(4,0)0)合作合作(0(0,4)4)(2(2,2)2)第五十二页,讲稿共八十一页哦博弈论的几个经典模型博弈论的几个经典模型 如果对方知道你的策略是触发策略,那么对方如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作将不敢采取不合作策略,因为一旦他