《第6讲:演化博弈论简介ppt课件.ppt》由会员分享,可在线阅读,更多相关《第6讲:演化博弈论简介ppt课件.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第6 6讲:讲:演化博弈论简介演化博弈论简介浙江工业大学经贸管理学院浙江工业大学经贸管理学院曹柬曹柬A在前面的学习中,我们都假设博弈参与人为完全理性的人;但在前面的学习中,我们都假设博弈参与人为完全理性的人;但在现实中,不存在完全理性的人。在现实中,不存在完全理性的人。A每个人都有学习和改进过错的经历;每个人学习和改进错误的每个人都有学习和改进过错的经历;每个人学习和改进错误的速度是有差异的。速度是有差异的。A具有具有快速学习能力快速学习能力的的小群体小群体成员之间的反复博弈,可以采用成员之间的反复博弈,可以采用“最优反应动态最优反应动态”。A学习速度较慢学习速度较慢的成员组成的的成员组成的
2、大群体大群体中的反复博弈,可以采用中的反复博弈,可以采用“复制动态复制动态”。第6讲:演化博弈论简介(一)协调博弈(一)协调博弈NENE: (A,A) (A,A) , (B,B) (B,B) ,(11/61(11/61,11/61)11/61) 其中,其中,(B,B)(B,B)为为paretopareto最优,但最优,但(A,A)(A,A)为风险上策均衡为风险上策均衡60,600,4949,050,5060,600,4949,050,50甲甲乙乙ABAB第6讲:演化博弈论简介最优反应动态最优反应动态:能根据对方的上期策略调整自己的策略。:能根据对方的上期策略调整自己的策略。 5 5个博弈方,相
3、邻者彼此博弈,初始策略组合为个博弈方,相邻者彼此博弈,初始策略组合为3232种。种。 实际上为实际上为8 8种:无种:无A A,1A1A,相邻,相邻2A2A,不相邻,不相邻2A2A,3 3连连A A,非,非3 3连连A A,4A4A,5A5A60,600,4949,050,5060,600,4949,050,50甲甲乙乙ABAB1 15 54 43 32 2例如:例如:令令xi(t)为为t时期博弈方时期博弈方i 的的采用策略采用策略A的邻居的数量,则的邻居的数量,则xi(t) = 0,1,2. 50249AiiUx tx t 0260BiiUx tx t 可知,当可知,当x xi i(t (t
4、)22/61)22/61时,时,U UA AUUB B 在在t t时期,当时期,当2 2个邻居中只要有个邻居中只要有1 1个邻个邻居采用策略居采用策略A A,则,则i i在在t+1t+1时期必然采用时期必然采用A A第6讲:演化博弈论简介 例举如下:例举如下:1 1、当初始情况为、当初始情况为1A1A时时A AB BB BB BB BB BA AB BB BA AA AB BA AA AB BB BA AA AA AA AA AA AA AA AA A 综上可知,综上可知,3232种初始情况下,种初始情况下,只有只有1 1种情况稳定于种情况稳定于5B5B,其余,其余3131中情况最后都将稳定于
5、中情况最后都将稳定于5A5A。( (此时,此时,A A为为“进化稳定策略进化稳定策略”,即,即ESSESS, , evolutionary stable strategyevolutionary stable strategy) )2 2、当初始情况为、当初始情况为2 2连连A A时时A AA AB BB BB BA AA AA AB BA AA AA AA AA AA A3 3、当初始情况为、当初始情况为3 3连连A A时时A AA AB BB BA AA AA AA AA AA A第6讲:演化博弈论简介(一)连续型的古诺调整过程(一)连续型的古诺调整过程则调整过程为:则调整过程为:反应函数
6、:反应函数:1232qq2132qq企业企业1企业企业22.53.01.51.752.2152.251.18751.9375则最终的进化稳定则最终的进化稳定策略(策略(ESS)为)为: q1=2,q2=2第6讲:演化博弈论简介(一)签协议博弈(一)签协议博弈假设:群体中假设:群体中“Y”的比例为的比例为x,“N”的比例为的比例为1-x0 , 00, 00 ,01 , 1,0,0,甲甲乙乙YNYNY Y:同意:同意N N:不同意:不同意110YUxxx 0100NUxx 21YNUx Ux Ux设:群体比例的动态变化速度为设:群体比例的动态变化速度为Ydxx UUdt23dxxxdt当当x=0时
7、,稳定;时,稳定;当当x0时,最终稳定于时,最终稳定于x*=1则:则:复制动态方程复制动态方程第6讲:演化博弈论简介dx/dtx01图图1 1 签协议博弈的复制动态相位图签协议博弈的复制动态相位图x*=0,x*=1为稳定状态,此时,为稳定状态,此时,dx/dt=0但但x*=1为为ESS,即最终所有人都将选择,即最终所有人都将选择“Y”0 , 00, 00 ,01 , 1,0,0,甲甲乙乙YNYN23dxxxdt第6讲:演化博弈论简介(二)一般两人对称博弈(二)一般两人对称博弈群体中采用群体中采用S1的比例为的比例为x,S2的比例为的比例为1-x11Ux axb 21Ux cxd 121Ux U
8、x U 1dxF xx UUdt 11xxx acxbd当当F(x) =0时,时,复制动态稳定状态为:复制动态稳定状态为:x*=0,x*=1,x*=(d-b)/(a-b-c+d)则复制动态方程则复制动态方程F(x):d , dc, bb ,ca , a,甲甲乙乙S1S2S1S2第6讲:演化博弈论简介稳定性定理稳定性定理若若x0;若若xx*,为使,为使xx*,应满足,应满足F(x)0.F(x)=dx/dt,t,则,则xF(x)=dx/dt,t,则,则xx*F(x)x0这意味着:这意味着:当当F(x*)0,x*为为ESS第6讲:演化博弈论简介(三)协调博弈的复制动态和(三)协调博弈的复制动态和ES
9、SESS 1116111dxF xxxx acxbddtxxx当当F(x) =0时,时,x*=0,x*=1,x*=11/61为稳定状态为稳定状态复制动态方程复制动态方程F(x):60,600,4949,050,5060,600,4949,050,50甲甲乙乙ABAB图图2 2 协调博弈的协调博弈的复制动态相位图复制动态相位图11/61dx/dtx01可知,当可知,当F (0) 0, F(1)0,则,则 x*=0和和x*=1为为ESS这意味着:这意味着:当初始当初始x11/61时,时,ESS 为为x*=1.第6讲:演化博弈论简介111612n当当n3复制动态与最优反应动态的比较:复制动态与最优反
10、应动态的比较:n 所以,在有限理性程度下,理性程度较高的一方不一定能得到比所以,在有限理性程度下,理性程度较高的一方不一定能得到比理性程度较低的一方更理想的结果。理性程度较低的一方更理想的结果。学习速度慢学习速度慢理性程度低理性程度低学习速度快学习速度快理性程度高理性程度高第6讲:演化博弈论简介(四)鹰鸽博弈的复制动态和(四)鹰鸽博弈的复制动态和ESSESS令令x为采用为采用“鹰鹰”策略的群体比例策略的群体比例,1-x为采用为采用“鸽鸽”策略的群体比策略的群体比例例 111122dxF xxxx acxbddtvcvxxxx则复制动态方程则复制动态方程F(x):v/2,v/20 ,vv ,0,
11、甲甲乙乙鹰鹰鸽鸽鹰鹰鸽鸽(v-c)/2(v-c)/2当当F(x) =0时,时,x*=0,x*=1,x*=v/c为稳定状态为稳定状态第6讲:演化博弈论简介 假设假设v=2v=2,c=12c=12(表示种群间发生冲突导致的损失很大,大于和平共处所得到的收益)表示种群间发生冲突导致的损失很大,大于和平共处所得到的收益)F (0) 0, F(1)0,而,而F(1/6)0,则则ESS为:为: x*=1/6n 当冲突损失严重时,例如当冲突损失严重时,例如c/v=6时,两个种群发生战争的可能性为时,两个种群发生战争的可能性为1/36;和平共处的;和平共处的可能性为可能性为25/36;一方霸道、一方忍让的可能
12、性为;一方霸道、一方忍让的可能性为10/36。n 发生战争的可能性随着发生战争的可能性随着c/v比值的增加而降低,即:和平共处的可能性也随着增加。比值的增加而降低,即:和平共处的可能性也随着增加。v/2,v/20 ,vv ,0,甲甲乙乙鹰鹰鸽鸽鹰鹰鸽鸽(v-c)/2(v-c)/2 1122dxvcvF xxxxxdt1/6dx/dtx01第6讲:演化博弈论简介 假设假设v=8v=8,c=8c=8(表示种群间和平共(表示种群间和平共处所得到的收益等于两者冲突导致的损失)处所得到的收益等于两者冲突导致的损失)ESS: x*=1n 当当cv时,种群间宁可发生冲突,也不愿意和平共处以获得更多的收益。主
13、要原时,种群间宁可发生冲突,也不愿意和平共处以获得更多的收益。主要原因在于当一方忍让时,另一方可获得更多收益。因在于当一方忍让时,另一方可获得更多收益。n 这是一种悲剧。目前,人类的现状和理性尚不能解决这种悲剧。这是一种悲剧。目前,人类的现状和理性尚不能解决这种悲剧。v/2,v/20 ,vv ,0,甲甲乙乙鹰鹰鸽鸽鹰鹰鸽鸽(v-c)/2(v-c)/2 1122dxvcvF xxxxxdtdx/dtx01 假设假设v=8v=8,c=4c=4(表示种群间和平共(表示种群间和平共处所得到的收益大于两者冲突导致的损失)处所得到的收益大于两者冲突导致的损失)dx/dtx01ESS: x*=1第6讲:演化
14、博弈论简介(四)蛙鸣博弈的复制动态和(四)蛙鸣博弈的复制动态和ESSESS令令x为采用为采用“鸣鸣”策略的群体比例策略的群体比例,1-x为采用为采用“不鸣不鸣”策略的群体策略的群体比例比例 11dxF xxxmzP xdt则复制动态方程则复制动态方程F(x):0,蛙蛙A A蛙B蛙B鸣鸣不鸣不鸣P-zP-z鸣鸣不鸣不鸣m-zm-z1-m1-m0 m、P为求偶成功的概率为求偶成功的概率 z为机会成本为机会成本(体力消耗、危险性等体力消耗、危险性等)满足:满足:m (0.5,1,mm-z1-Pm-z00ESS: x*= (m-z)/(1-P) n 在这种情况下,无论初始状况如何,最后总有在这种情况下
15、,无论初始状况如何,最后总有(m-z)/(1-P)比例的雄蛙鸣叫。比例的雄蛙鸣叫。 n 当个别雄蛙当个别雄蛙“搭便车搭便车”的收益大于群体雄蛙的收益大于群体雄蛙“鸣叫鸣叫”所获得的收益时,则总会存所获得的收益时,则总会存在搭便车在搭便车“不鸣叫不鸣叫”的雄蛙。的雄蛙。0,蛙蛙A A蛙B蛙B鸣鸣不鸣不鸣P-zP-z鸣鸣不鸣不鸣m-zm-z1-m1-m0 11dxF xxxmzP xdtdx/dtx011mzP第6讲:演化博弈论简介 若若(m-z)/(1-P) mESS: x*=0n 显然,当机会成本小于收益时,所有的雄蛙将选择显然,当机会成本小于收益时,所有的雄蛙将选择“不鸣叫不鸣叫”。n 当当
16、“鸣叫鸣叫”的收益大于群体鸣叫而个别雄蛙的收益大于群体鸣叫而个别雄蛙“搭便车搭便车”的收益时,所有雄蛙都将鸣的收益时,所有雄蛙都将鸣叫。叫。 若若(m-z)/(1-P) 1,即,即m-z1-Pdx/dtx01ESS: x*=10,蛙蛙A A蛙B蛙B鸣鸣不鸣不鸣P-zP-z鸣鸣不鸣不鸣m-zm-z1-m1-m0 11dxF xxxmzP xdtdx/dtx01第6讲:演化博弈论简介 对称博弈:相似对称博弈:相似/相同群体中的演化博弈行为相同群体中的演化博弈行为 非对称博弈:不同群体间的演化博弈行为非对称博弈:不同群体间的演化博弈行为有两个群体:竞争者和在位者有两个群体:竞争者和在位者1 1,竞竞
17、争争者者在位者在位者进入进入不进不进0 00 0打击打击不打击不打击2 25 51 12 25 5竞争者竞争者不进入不进入进入进入在位者在位者不打击不打击打击打击(1,5)(1,5)(2,2)(2,2)(0,0)(0,0)第6讲:演化博弈论简介( (一)一) 市场阻入博弈市场阻入博弈A:“进入进入”的群体比例为的群体比例为x “不进不进”的群体比例为的群体比例为1-xB:“打击打击”的群体比例为的群体比例为y “不打击不打击”的群体比例为的群体比例为1-y1 1,A AB B进入进入不进不进0 00 0打击打击不打击不打击2 25 51 12 25 5对对A而言:而言:01222AeUyyy
18、111 1AnUyy 1211AAeAnUx Ux Uxyx则竞争者群体的复制动态方程则竞争者群体的复制动态方程FA(x): 112AAeAdxFxx UUxxydt采用采用A表示竞争者,表示竞争者,B表示在位者表示在位者假设:假设:第6讲:演化博弈论简介竞争者群体的复制动态方程:竞争者群体的复制动态方程:A:“进入进入”的群体比例为的群体比例为x “不进不进”的群体比例为的群体比例为1-xB:“打击打击”的群体比例为的群体比例为y “不打击不打击”的群体比例为的群体比例为1-y1 1,A AB B进入进入不进不进0 00 0打击打击不打击不打击2 25 51 12 25 5 112AAeAd
19、xFxx UUxxydt竞争者的群体复制动态相位图为:竞争者的群体复制动态相位图为:(b) y1/2ESS: x*=0dx/dtx01dx/dtx01(a) y=1/2x*0,1dx/dtx01(c) y5/6ESS: x*=0dx/dtx01dx/dtx01(a) y=5/6x*0,1dx/dtx01(c) y1/6ESS: y*=0dx/dtx01dx/dtx01(a) x=1/6y*0,1dx/dtx01(c) x1/6ESS: y*=1A:“进入进入”的群体比例为的群体比例为x “不进不进”的群体比例为的群体比例为1-xB:“打击打击”的群体比例为的群体比例为y “不打击不打击”的群体
20、比例为的群体比例为1-y1 1,A AB B进入进入不进不进0 00 0打击打击不打击不打击2 25 51 12 25 5最后,得到竞争者和在位者两群体复制动态的关系和稳定性图例最后,得到竞争者和在位者两群体复制动态的关系和稳定性图例? 当初始状态落在当初始状态落在A区域,区域,ESS为为x*=0,y*=1=1? 当初始状态落在当初始状态落在D区域,区域,ESS为为x*=1,y*=0? 当初始状态落在当初始状态落在B、C区域,为不稳定状态,区域,为不稳定状态,但可以确定最终大部分结果是落在但可以确定最终大部分结果是落在D区。区。A5/6yx0111/6BCD!落在区域落在区域A A的概率为的概率为1/361/36,区域,区域DD的概率的概率为为25/3625/36。剩下的。剩下的10/3610/36的可能性中绝大部的可能性中绝大部分也会稳定在分也会稳定在D D区域。区域。第6讲:演化博弈论简介