《运筹学决策论》PPT课件.ppt-淘文阁

资源描述

《《运筹学决策论》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《运筹学决策论》PPT课件.ppt（94页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第11章章决策论决策论TheoryofDecision11.1决策分析的基本问题决策分析的基本问题11.2确定型和非确定型决策确定型和非确定型决策11.3风险型决策风险型决策11.4效用理论效用理论11.5马尔可夫决策马尔可夫决策运运筹筹学学 OperationsResearch 11.1决策分析的基本问题决策分析的基本问题决策决策(DecisionMaking)是一种对已知目标和方案的选择过程，是一种对已知目标和方案的选择过程，当人们已知确定需实现的目标是什么，根据一定的决策准则，当人们已知确定需实现的目标是什么，根据一定的决策准则，在供选方案中做出决策的过程。诺贝尔奖获得者西蒙认为

2、，管在供选方案中做出决策的过程。诺贝尔奖获得者西蒙认为，管理就是决策，他认为决策是对稀有资源备选分配方案进行选择理就是决策，他认为决策是对稀有资源备选分配方案进行选择排序的过程。学者排序的过程。学者Gregory在决策分析中提及，决策是对决在决策分析中提及，决策是对决策者将采取的行动方案的选择过程。策者将采取的行动方案的选择过程。决策科学包括决策心理学、决策的数量化方法、决策评价以决策科学包括决策心理学、决策的数量化方法、决策评价以及决策支持系统、决策自动化等。及决策支持系统、决策自动化等。随着计算机和信息通信技术的发展，决策分析的研究也得到随着计算机和信息通信技术的发展，决策分析的研究也得到

3、极大的促进，随之产生了计算机辅助决策支持系统（极大的促进，随之产生了计算机辅助决策支持系统（DecisionSupportSystem），许多问题在计算机的帮助下得以解决，在一），许多问题在计算机的帮助下得以解决，在一定程度上代替了人们对一些常见问题的决策分析过程。定程度上代替了人们对一些常见问题的决策分析过程。11.1决策分析的基本问题决策分析的基本问题11.1.1决策分析基本概念决策分析基本概念决策决策狭义决策认为决策就是作决定，单纯强调最终结果；广义狭义决策认为决策就是作决定，单纯强调最终结果；广义决策认为将管理过程的行为都纳入决策范畴，决策贯穿于整个管决策认为将管理过程的行为都纳入决策

4、范畴，决策贯穿于整个管理过程中。理过程中。决策目标决策目标决策者希望达到的状态，工作努力的目的。一般而言，决策者希望达到的状态，工作努力的目的。一般而言，在管理决策中决策者追求的当然是利益最大化。在管理决策中决策者追求的当然是利益最大化。决策准则决策准则决策判断的标准，备选方案的有效性度量。决策判断的标准，备选方案的有效性度量。决策属性决策属性决策方案的性能、质量参数、特征和约束，如技术指决策方案的性能、质量参数、特征和约束，如技术指标、重量、年龄、声誉等，用于评价它达到目标的程度和水平。标、重量、年龄、声誉等，用于评价它达到目标的程度和水平。科学决策过程科学决策过程任何科学决策的形成都必须执

5、行科学的决策程序，任何科学决策的形成都必须执行科学的决策程序，如图如图11-1所示。决策最忌讳的就是决策者拍脑袋决策，只有经历所示。决策最忌讳的就是决策者拍脑袋决策，只有经历过图过图11-1所示的所示的“预决策预决策决策决策决策后决策后”三个阶段，才有可能三个阶段，才有可能产生科学的决策产生科学的决策11.1决策分析的基本问题决策分析的基本问题11.1决策分析的基本问题决策分析的基本问题调查研究调查研究确定决策目标确定决策目标搜集有关的信息资料搜集有关的信息资料预测技术预测技术预测未来的可能情况预测未来的可能情况拟订各种可行方案拟订各种可行方案可行性研究可行性研究方案评估方案评估决策准则决策准

6、则方案选择方案选择方案实施方案实施预预决决策策决决策策实实施施情情况况反反馈馈意意见见决策后决策后图图11-1科学决策过程科学决策过程11.1决策分析的基本问题决策分析的基本问题决策系统决策系统状态空间、策略空间、损益函数构成了决策系统。状态空间、策略空间、损益函数构成了决策系统。状态空间状态空间不以人的意志为转移的客观因素，设一个状态为不以人的意志为转移的客观因素，设一个状态为Si，有，有m种不同状态，其集合记为：种不同状态，其集合记为：S称状态空间，称状态空间，S的元素的元素Si称为状态变量。称为状态变量。策略空间策略空间人们根据不同的客观情况，可能做出主观的选择，人们根据不同的客观情况，

7、可能做出主观的选择，记一种策略方案为记一种策略方案为Ui，有，有n种不同的策略，其集合为：种不同的策略，其集合为：U称为策略空间；称为策略空间；U的元素的元素Uj称为决策变量。称为决策变量。损益函数损益函数当状态处在当状态处在Si情况下，人们做出情况下，人们做出Uj决策，从而产生的决策，从而产生的损益值损益值Vij，显然，显然Vij是是Si，Uj的函数，即：的函数，即：11.1决策分析的基本问题决策分析的基本问题当状态变量是离散型变量时，损益值构成的矩阵叫损益矩阵当状态变量是离散型变量时，损益值构成的矩阵叫损益矩阵上述三个主要素组成了决策系统，决策系统可以表示为三个主上述三个主要素组成了决策系

8、统，决策系统可以表示为三个主要素的函数：要素的函数：DD（S,U,V）人们将根据不同的判断标准原则，求得实现系统目标的最优人们将根据不同的判断标准原则，求得实现系统目标的最优（或满意）决策方案。（或满意）决策方案。11.1决策分析的基本问题决策分析的基本问题11.1.2决策分析基本原则决策分析基本原则1.最优化（满意）原则最优化（满意）原则2.系统原则系统原则3.可行性原则可行性原则4.信息对称、准全原则信息对称、准全原则11.1.3决策分析基本分类决策分析基本分类表表111按影响范围按影响范围战略决策、战役决策、战术决策战略决策、战役决策、战术决策按状态空间按状态空间确定型决策、非确定型决策

9、、风险型决策确定型决策、非确定型决策、风险型决策按决策时间按决策时间程序化决策、半程序化决策、非程序化决策程序化决策、半程序化决策、非程序化决策按描述方法按描述方法定性化决策、定量化决策定性化决策、定量化决策按目标数量按目标数量单目标决策、多目标决策单目标决策、多目标决策按连续性按连续性单级决策、序贯决策单级决策、序贯决策按决策者数量按决策者数量个人决策、群决策个人决策、群决策按问题大小按问题大小宏观决策、微观决策宏观决策、微观决策表表112程序化、非程序化、半程序化决策程序化、非程序化、半程序化决策决策类型决策类型传统方法传统方法现代方法现代方法程序化程序化现有的规章制度现有的规章制度运筹学

10、、管理信息系统（运筹学、管理信息系统（MIS）半程序化半程序化经验、直觉经验、直觉灰色系统、模糊数学等方法灰色系统、模糊数学等方法非程序化非程序化经验、应急创新能力经验、应急创新能力人工智能、风险应变能力培训人工智能、风险应变能力培训11.1决策分析的基本问题决策分析的基本问题下一节：确定型和非确定型决策下一节：确定型和非确定型决策11.1决策分析的基本问题决策分析的基本问题11.2确定型和非确定型决策确定型和非确定型决策11.2确定型和非确定型决策确定型和非确定型决策11.2.1确定型决策确定型决策确定型决策确定型决策是指决策的未来状态是已知的，只需从备选的决策方是指决策的未来状态是已知的，

11、只需从备选的决策方案中，挑选出最优方案。案中，挑选出最优方案。【例【例11.1】某企业根据市场需要，需添置一台数控机床，可采】某企业根据市场需要，需添置一台数控机床，可采用的方式有三种：用的方式有三种：甲方案：引进外国进口设备，固定成本甲方案：引进外国进口设备，固定成本1000万元，产品每件万元，产品每件可变成本为可变成本为12元；元；乙方案：用较高级的国产设备，固定成本乙方案：用较高级的国产设备，固定成本800万元，产品每件万元，产品每件可变成本为可变成本为15元；元；丙方案：用一般国产设备，固定成本丙方案：用一般国产设备，固定成本600万元，产品每件可变万元，产品每件可变成本为成本为20元

12、；元；试确定在不同生产规模情况下的购置机床的最优方案。试确定在不同生产规模情况下的购置机床的最优方案。【解】【解】此题为确定型决策利用经济学知识，选取最优决策此题为确定型决策利用经济学知识，选取最优决策最优决策也就是在不同生产规模条件下，选择总成本较低的方最优决策也就是在不同生产规模条件下，选择总成本较低的方案各方案的总成本线如图案各方案的总成本线如图11.2图图11.2TC甲甲F甲甲Cv甲甲Q100012QTC乙乙F乙乙Cv乙乙Q80015QTC丙丙F丙丙Cv丙丙Q60020Q图中出现了图中出现了A、B、C三个交点，三个交点，其中其中A点经济意义：在点经济意义：在A点采用甲点采用甲方案与丙方

13、案成本相同方案与丙方案成本相同TC甲甲TC丙丙，F甲甲Cv甲甲QAF丙丙Cv丙丙QAQ5011.2确定型和非确定型决策确定型和非确定型决策同理：同理：B点点TC乙乙TC丙丙，F乙乙Cv乙乙QBF丙丙Cv丙丙QBC点：点：TCL甲甲TC乙乙，F甲甲Cv甲甲QCF乙乙Cv乙乙QCB点经济意义为：当生产点经济意义为：当生产40万件时，采用乙方案和采用丙方案成万件时，采用乙方案和采用丙方案成本相同均为本相同均为1400万元万元图图11.211.2确定型和非确定型决策确定型和非确定型决策得到生产规模最优方案为：当得到生产规模最优方案为：当生产规模产量小于生产规模产量小于40万件时，万件时，采用丙方案；当

14、生产规模产量采用丙方案；当生产规模产量大于大于40万件，小于万件，小于200/3万件万件时，采用乙方案；当生产规模时，采用乙方案；当生产规模产量大于产量大于200/3万件时，采用万件时，采用甲方案甲方案其经济意义为：当生产规模为万件时，采用甲、乙方案成本相其经济意义为：当生产规模为万件时，采用甲、乙方案成本相同从图中可知：当生产规模同从图中可知：当生产规模QB时，采用丙方案；当时，采用丙方案；当QB 生生产规模产规模QC时，采用乙方案；当时，采用乙方案；当QC 0,则对任何概率不则对任何概率不为零的事件为零的事件B，有，有11.3风险型决策风险型决策更一般地更一般地此公式为后验概率此公式为后验

15、概率11.3风险型决策风险型决策产品需求量产品需求量x0100200300400先验概率先验概率p(xi)0.050.150.30.250.25例如，根据以往的经验，产品需求量的概率为例如，根据以往的经验，产品需求量的概率为产品进入市场产品进入市场2个月的试销后，需求量的样本信息个月的试销后，需求量的样本信息(比例比例)为为产品需求量产品需求量0100200300400需求量比例需求量比例0.050.150.350.250.20贝叶斯公式：贝叶斯公式：若若A1、A2、构成一个完备事件，构成一个完备事件，P（Ai)0,则对任何概率不则对任何概率不为零的事件为零的事件B，有，有11.3风险型决策风

16、险型决策【例】盒子里有【例】盒子里有100枚均匀的硬币，有枚均匀的硬币，有60枚是正常的，枚是正常的，40枚两面枚两面都是徽。从盒子中任取一枚让你猜是哪一类硬币。猜中得都是徽。从盒子中任取一枚让你猜是哪一类硬币。猜中得5元，元，猜不中不得钱。你猜是哪一类？猜不中不得钱。你猜是哪一类？B1(正常正常)B1(双徽双徽)3/52/5A1(猜正常猜正常)50A2(猜双徽猜双徽)05获利的期望值获利的期望值V(A1)=53/5+02/5=3V(A2)=03/5+52/5=2正确的决策是：应该选择猜正常正确的决策是：应该选择猜正常11.3风险型决策风险型决策如果现在抛掷如果现在抛掷3次，次，3次都出现徽，

17、你又如何猜？该硬币是正常次都出现徽，你又如何猜？该硬币是正常的概率为多少，是双徽的概率为多少。的概率为多少，是双徽的概率为多少。设设H为为3次出现反面这一随机事件，次出现反面这一随机事件，B1为硬币是正常，为硬币是正常，B2为硬币为硬币是双徽，则是双徽，则3次都出现双徽的概率为：次都出现双徽的概率为：11.3风险型决策风险型决策B1(正常正常)B1(双徽双徽)3/1916/19A1(猜正常猜正常)50A2(猜双徽猜双徽)05用后验概率代替原来的概率，决策矩阵为：用后验概率代替原来的概率，决策矩阵为：获利的期望值获利的期望值V(A1)=53/19+02/5=15/19V(A2)=03/5+516

18、/19=80/19正确的决策是：应该选择猜双徽正确的决策是：应该选择猜双徽11.3风险型决策风险型决策根据过去经验可知当自然状态为根据过去经验可知当自然状态为Nj条件下调查结果为条件下调查结果为Zk的条件概率的条件概率再利用贝叶斯公式和全概率公式，求当结果为再利用贝叶斯公式和全概率公式，求当结果为ZK的条件下自然状的条件下自然状态为态为Nj的条件概率的条件概率11.3风险型决策风险型决策在后验分析中用在后验分析中用代替先验分析中的代替先验分析中的P（Nj），利用期望值准则计算出），利用期望值准则计算出Ek再根据全概率公式，可知结果为再根据全概率公式，可知结果为Zk的概率为的概率为因此，后验分析

19、的效益期望值为因此，后验分析的效益期望值为11.3风险型决策风险型决策当状态只有两个时，后验概率及期望收益可用快捷公式计算。当状态只有两个时，后验概率及期望收益可用快捷公式计算。记先验概率向量为记先验概率向量为P，条件概率矩阵为，条件概率矩阵为A，后验概率矩阵为，后验概率矩阵为B，收益矩阵为，收益矩阵为V，有，有则先验收益期望值向量为则先验收益期望值向量为EMV1PTV后验收益期望值矩阵为后验收益期望值矩阵为EkBV11.3风险型决策风险型决策【例【例11.6】某厂对一台机器的换代问题做决策，有三种方案：某厂对一台机器的换代问题做决策，有三种方案：A1为买另为买另一台新机器；一台新机器；A2为

20、对老机器进行改建；为对老机器进行改建；A3是维护加强输入不同质量的是维护加强输入不同质量的原料，三种方案的收益见表原料，三种方案的收益见表11.8约有约有30%的原料是质量好的，还可以的原料是质量好的，还可以花花600元对原料的质量进行测试，这种测试可靠性见表元对原料的质量进行测试，这种测试可靠性见表11.9求最优方案求最优方案11.3风险型决策风险型决策原料的实际质量原料的实际质量N1好好N2差差测试结果测试结果Z1好好0.80.3Z2差差0.20.7原料质量原料质量Ni购新机器购新机器A1改建老机器改建老机器A2维护老机器维护老机器A3N1好（好（0.3）31.00.8N2差（差（0.7）

21、-1.50.50.6表表11.9测试可靠性测试可靠性表表11.8收益表收益表(单位：万元单位：万元)11.3风险型决策风险型决策【解】【解】（1）若不做测试，各方案的先验收益应选方案应选方案3，维护老机器。，维护老机器。(2)计算后验概率计算后验概率已知已知联合概率为：联合概率为：11.3风险型决策风险型决策边际概率为边际概率为代入（代入（11.2）从而可得后验概率）从而可得后验概率11.3风险型决策风险型决策则有则有即当测试结果为原料的质量好，则购买新机器；若测试结果为即当测试结果为原料的质量好，则购买新机器；若测试结果为原材料的质量差，则维护老机器。原材料的质量差，则维护老机器。决策为

22、：应花决策为：应花600元进行测试，测试后若质量好，购入新机器生元进行测试，测试后若质量好，购入新机器生产；若质量差，维护老机器生产产；若质量差，维护老机器生产【例】石油开发决策问题【例】石油开发决策问题收益收益勘探勘探250钻探钻探150卖出收益卖出收益90有油时收益有油时收益800干涸时收益干涸时收益011.3风险型决策风险型决策11.3风险型决策风险型决策自然状态自然状态先验概率先验概率好好(FSS)不好不好(USS)有油有油(Oil)P(O)=0.6P(F|O)=0.8P(U|O)=0.2干涸干涸(Dry)P(D)=0.4P(F|D)=0P(U|D)=1P(Finding 勘探结果勘探

25、材P269T3711.3风险型决策风险型决策11.4效用理论效用理论UtilityTheory11.4.1效用效用贝努利贝努利(D.Berneulli)首次提出效用概念，他用图首次提出效用概念，他用图11.7表示出表示出人们对钱财的真实价值的考虑与其钱财拥有量之间有对数关人们对钱财的真实价值的考虑与其钱财拥有量之间有对数关系系效用是一种相对的指标值，它的大小表示决策者对于风险的效用是一种相对的指标值，它的大小表示决策者对于风险的态度，对某事物的倾向、偏差等主观因素的强弱程度用于量态度，对某事物的倾向、偏差等主观因素的强弱程度用于量度决策者对于风险的态度度决策者对于风险的态度.效用效用U货币货币

26、M图图117贝努利效用曲线贝努利效用曲线11.4效用理论效用理论UtilityTheory【例】【例】（1）方案）方案A1；稳获稳获100元。方案元。方案B1：用抛掷硬币的方法，猜对得：用抛掷硬币的方法，猜对得250元，猜错不得钱。元，猜错不得钱。（2）方案）方案A2；稳获稳获100元。方案元。方案B2：用抛掷硬币的方法，直到出现：用抛掷硬币的方法，直到出现正面为止，第正面为止，第n次出现正面得到次出现正面得到2n元。元。大多数选择大多数选择A1、A2.通过计算有通过计算有E(B1)E(A1)，E(B2)E(A2)一般来说效用值在一般来说效用值在0,1之间取值之间取值.凡是决策者最看好、最凡是

27、决策者最看好、最倾向、最愿意的事物（事件）的效用值可取倾向、最愿意的事物（事件）的效用值可取1；反之，效；反之，效用值取用值取0当各方案期望值相同时，一般用最大效用值决当各方案期望值相同时，一般用最大效用值决策准则，选择效用值最大的方案策准则，选择效用值最大的方案11.4效用理论效用理论UtilityTheory通过效用指标将某些难于量化、有质的区别的事件给予量化，通过效用指标将某些难于量化、有质的区别的事件给予量化，得到各方案的综合效用值，选择效用值最大的方案作为决策准得到各方案的综合效用值，选择效用值最大的方案作为决策准则。则。11.4.2效用曲线效用曲线确定效用曲线的基本方法有两种：一种

28、是直接确定效用曲线的基本方法有两种：一种是直接提问法提问法，需要决，需要决策者回答提问，主观衡量应用较少；第二种是策者回答提问，主观衡量应用较少；第二种是对比提问法对比提问法，此法使用较多此法使用较多设现有设现有A0，A1两种方案供选两种方案供选A0表示决策者不需要花费任何风表示决策者不需要花费任何风险可获益险可获益x0；而；而A1有两种自然状态，可以概率有两种自然状态，可以概率P获得收益获得收益x1，以，以概率（概率（1P）获得收益）获得收益x2；且；且x1x0 x2令令yi表示效益表示效益xi的效用值则的效用值则x0，x1，x2的效用值分别表示为的效用值分别表示为y0，y1，y2若在某条件

29、下，决策者认为若在某条件下，决策者认为A0,A1两方案等价，则有：两方案等价，则有：11.4效用理论效用理论UtilityTheory4个数个数p，x0，x1，x2中给定中给定3个，提问第个，提问第4个变量由决策者确定，个变量由决策者确定，求出效用值。求出效用值。一般采用改进一般采用改进VM(VonNeumannMorgenstern)方法，固定方法，固定P0.5，x1，x2改变改变x0三次，得出相应的三次，得出相应的y的值，确定三点，作出效用的值，确定三点，作出效用曲线曲线11.4效用理论效用理论UtilityTheory【例【例11.7】x1=100，x2=400,取取y(x1)=0,y(

30、x2)=1-100400第一次提问：第一次提问：x0为何值时，上式成立？答：为何值时，上式成立？答：“0”y(0)=0.50+0.510.51(0,0.5)第二次提问：第二次提问：x0为何值时，上式成立？答：为何值时，上式成立？答：“200”y(200)=0.5y(0)+0.51=0.50.5+0.510.75第三次提问：第三次提问：x0为何值时，为何值时，上式成立？答：上式成立？答：“100”y(100)=0.5y(0)+0.5y(200)=0.50.5+0.50.750.625(200,0.75)(100,0.625)100200 300011.4效用理论效用理论UtilityTheory

31、不同决策者对待风险态度不同，因而会得到不同形状的效用曲不同决策者对待风险态度不同，因而会得到不同形状的效用曲线一般可分为保守型线一般可分为保守型、中间型、中间型、风险型、风险型，如下图，如下图y1IIIx(Xmax,1)(Xmin,0)XmaxXmin011.4.3效用曲线类型效用曲线类型图中图中I为保守型，其特点为：当收益为保守型，其特点为：当收益值较小时，效用值增加较快；随收值较小时，效用值增加较快；随收益值增大时，效用值增加速度变慢，益值增大时，效用值增加速度变慢，表明决策者不求大利，谨慎小心，表明决策者不求大利，谨慎小心，保守保守图中图中II为中间型，其特点为：收为中间型，其特点为：收

32、益值和效用值成正比，表明决策益值和效用值成正比，表明决策者完全按机遇办事，心平气和者完全按机遇办事，心平气和图中图中III为风险型，其特点为与为风险型，其特点为与I保守型恰好相反，当收益值较小保守型恰好相反，当收益值较小时，效用值增加较慢；随收益值时，效用值增加较慢；随收益值增大时，效用值增加速度变快，增大时，效用值增加速度变快，表明决策者对增加收益反应敏感，表明决策者对增加收益反应敏感，愿冒较大风险，谋求大利，不怕愿冒较大风险，谋求大利，不怕冒险冒险III11.4效用理论效用理论UtilityTheory常用的效用函数：常用的效用函数：11.4效用理论效用理论UtilityTheory11.

33、4.4效用值的应用效用值的应用【例【例11.8】若某决策问若某决策问题的决策树如下图所示，题的决策树如下图所示，其决策者的效用期望值其决策者的效用期望值同时附在效益期望值后，同时附在效益期望值后，请做出决策请做出决策E(2)=0.53000.5(200)=50E(3)0.52000.5(100)=50根据最大效益期望值准则，无法判断优劣根据最大效益期望值准则，无法判断优劣y2=0.510.500.5，y3=0.50.9+0.50.3=0.6解：解：(1）计算效益期望值分别为）计算效益期望值分别为11.4效用理论效用理论UtilityTheoryA2方案效用值方案效用值A1方案效用值，因此取方案

34、效用值，因此取A2方案为决策方案方案为决策方案绘制效用曲线图见下图，可知，该决策者偏向于保守型，不求大绘制效用曲线图见下图，可知，该决策者偏向于保守型，不求大利，谨慎小心利，谨慎小心11.4效用理论效用理论UtilityTheory-20030010100200-100yx11.5马尔可夫决策马尔可夫决策MarkovDecision11.5马尔可夫决策马尔可夫决策MarkovDecision11.5.1马尔可夫链马尔可夫链用用X(t)表示随机系统在时刻表示随机系统在时刻t的状态，状态序列的状态，状态序列为一随机过程，如果系统当前的转移概率只与当前的运行状为一随机过程，如果系统当前的转移概率只与

35、当前的运行状态有关，而与以前的状态无关，即：对随机过程态有关，而与以前的状态无关，即：对随机过程若对任意的若对任意的0t1t2tntn+1及及tiT，X（tn+1）关于）关于X（t1）,X（tn）的条件概率恰好等于）的条件概率恰好等于X（tn+1）关于）关于X（tn）的条件）的条件概率，用数学符号表示为：概率，用数学符号表示为：则称则称具有马尔可夫性随机过程称为马尔可夫过程。具有马尔可夫性随机过程称为马尔可夫过程。所有可能的全体取值称为过程的状态空间。所有可能的全体取值称为过程的状态空间。若马氏过程的状态空间为非负整数集若马氏过程的状态空间为非负整数集E0，1，2，称为马，称为马氏链。例如，今

36、天下雨这一状态用氏链。例如，今天下雨这一状态用“0”表示，不下雨用表示，不下雨用“1”表表示，则状态空间为示，则状态空间为E0，1。天气变化过程符合马。天气变化过程符合马Markov性。性。11.5.2转移概率转移概率记记Pij为从状态为从状态X(n)=i转移到下一个状态转移到下一个状态X（n+1）=j的概率，一的概率，一步转移概率矩阵为步转移概率矩阵为11.5马尔可夫决策马尔可夫决策MarkovDecision【例【例11.9】有】有3家电器公司分别生产三种不同牌子的空调。各自家电器公司分别生产三种不同牌子的空调。各自开展广告攻势促销本公司产品。各公司所占的市场比例是随时开展广告攻势促销本公

37、司产品。各公司所占的市场比例是随时间变化的。间变化的。XXn，n0构成一个以构成一个以E1,2,3为为状态空间的状态空间的Markov链。假设在任一时刻，公司链。假设在任一时刻，公司1能留住它的能留住它的1/2的老顾客，其余的则的老顾客，其余的则对半购买另两个公司的产品；公司对半购买另两个公司的产品；公司2的一半顾客能留下，其余转的一半顾客能留下，其余转向公司向公司1；公司；公司3有有3/4能留下，其余流向公司能留下，其余流向公司2。Markov链的转链的转移概率矩阵和转移图：移概率矩阵和转移图：1/21/41/41/21/21/43/411.5马尔可夫决策马尔可夫决策MarkovDecisi

38、on求求n期后公司期后公司i的市场占有率，的市场占有率，n时的市场占有率。时的市场占有率。记记Pj(n)=P(Xn=j)为为Markov链链X时刻时刻n处于状态处于状态j的概率，的概率，P为初为初始分布。始分布。【定理】【定理】XXn，n0为一个为一个Markov链，则有链，则有对任意对任意m，n0，有，有对任意对任意i，jE，有，有此方程称为此方程称为Champan-Kolmogorov方程，简称方程，简称CK方程方程11.5.3转移状态转移状态11.5马尔可夫决策马尔可夫决策MarkovDecision【例【例11.10】假设】假设3个公司开始的市场占有率为个公司开始的市场占有率为(0.3

39、，0.35，0.35),求求5个月后的市场占有率个月后的市场占有率(状态状态)。【解】【解】P0(0.3，0.35，0.35)11.5马尔可夫决策马尔可夫决策MarkovDecision遍历性：如果一个齐次的马尔可夫链遍历性：如果一个齐次的马尔可夫链X(n),n=1,2,的的n步转移步转移概率为概率为Pij(n)，对于一切状态，对于一切状态i,j，存在着不依赖于初始状态，存在着不依赖于初始状态i的常的常数数Pj，使得，使得成立，则称此马尔可夫链具有遍历性也就是说，一个具有遍成立，则称此马尔可夫链具有遍历性也就是说，一个具有遍历性的马尔可夫链，当转移的次数历性的马尔可夫链，当转移的次数n极大时，

40、此系统转移到状极大时，此系统转移到状态态j的概率为一个常数的概率为一个常数Pj，而与初始状态无关，而与初始状态无关求求【引理】设【引理】设m 阶矩阵阶矩阵P具有具有m个线性无关的特征向量个线性无关的特征向量B(b1,b2,bm)对应的特征值为对应的特征值为1，2，m，则，则B可逆且有可逆且有PBB1，Pn=BnB1.其中其中diag(1，2，m)11.5马尔可夫决策马尔可夫决策MarkovDecision上例中，求上例中，求Pn及及求转移概率矩阵求转移概率矩阵P的特征值及特征向量。由的特征值及特征向量。由|IP|=0得得特征值及特征向量矩阵为特征值及特征向量矩阵为11.5马尔可夫决策马尔可夫决

41、策MarkovDecision则有则有11.5马尔可夫决策马尔可夫决策MarkovDecision长期后市场占有率各占长期后市场占有率各占1/3由由得得解方程得到稳定状态的概率解方程得到稳定状态的概率G11.5马尔可夫决策马尔可夫决策MarkovDecision【例【例11.10】设某公司有两种状态：设某公司有两种状态：1和和2，1为盈利，为盈利，2为亏损为亏损当其处于当其处于1时，下一年仍为时，下一年仍为1的概率是的概率是1/2，因此下一年转为，因此下一年转为2的概的概率也是率也是1/2当公司处于状态当公司处于状态2时，下一年经过努力回到状态时，下一年经过努力回到状态1的的概率为概率为2/5

42、，仍处于亏损状态的概率为，仍处于亏损状态的概率为3/5若公司现处于状态若公司现处于状态1，问经过，问经过n年后该公司处于状态年后该公司处于状态1和和2的概率各是多少？的概率各是多少？解解：显然，系统有两个状态，设显然，系统有两个状态，设S为状态空间，则：为状态空间，则：S=i,j=1,2此处，此处，p11=1/2,p12=1/2,p21=2/5,p22=3/5因此因此设设G(g1，g2)，由，由GGP11.5马尔可夫决策马尔可夫决策MarkovDecision设设G(g1，g2)，由，由GGP11.5马尔可夫决策马尔可夫决策MarkovDecision11.5.4收益预测模型收益预测模型设系统

43、在第设系统在第n个时期处于状态个时期处于状态X(n)=i，转移到过程终结时的总期，转移到过程终结时的总期望收益为望收益为rij 表示从状态表示从状态X(n)=i 转移到下一个状态转移到下一个状态X（n+1）=j 相应的收益，相应的收益，则有：则有：n表示从第表示从第n个时期到过程终结的决策规则个时期到过程终结的决策规则的序列的序列其中其中n为第为第n个时期的决策规则，个时期的决策规则，11.5马尔可夫决策马尔可夫决策MarkovDecisionq(i)表示由状态表示由状态i 作一次转移的期望报酬，即状态的即时期望报作一次转移的期望报酬，即状态的即时期望报酬则酬则令令或或11.5马尔可夫决策马尔

44、可夫决策MarkovDecision若记数从末端开始，上式的逆序写法为：若记数从末端开始，上式的逆序写法为：则则11.7马尔可夫决策马尔可夫决策MarkovDecision11.7马尔可夫决策马尔可夫决策MarkovDecision【例】商品的转移概率矩阵和利润表如下【例】商品的转移概率矩阵和利润表如下畅销畅销滞销滞销畅销畅销0.50.5滞销滞销0.40.6畅销畅销滞销滞销畅销畅销5010滞销滞销2020转移概率表转移概率表利润表利润表(万元万元)q1=0.550+0.51030，q2=0.420+0.6(20)4n123456f1(n)304454.365.4376.54387.6543f2

45、(n)45.616.5627.65638.765649.87656期利润预测期利润预测11.5.5最优策略模型最优策略模型Markov决策由五重组来描述：决策由五重组来描述：1.状态状态 i2.策略集策略集，状态，状态i 的策略规则为的策略规则为3.转移概率矩阵转移概率矩阵P4.报酬，状态报酬，状态i 的策略规则为的策略规则为转移到状态转移到状态j 的报酬为的报酬为期望即时报酬为期望即时报酬为5.目标函数目标函数V(n)11.5马尔可夫决策马尔可夫决策MarkovDecisionMarkov决策（决策（MD）描述）描述在某一时刻（阶段）随机变量在某一时刻（阶段）随机变量X处于状态处于状态i ，

46、决策者选择某个，决策者选择某个策略使目标最优。策略使目标最优。MD常用的目标有常用的目标有3种：种：1.有限阶段目标；有限阶段目标；2.折扣目标；折扣目标；3.平均目标平均目标有限阶段目标最大。通过有限阶段目标最大。通过Z变换：变换：11.5马尔可夫决策马尔可夫决策MarkovDecision记记i=1,2,m (11.18)解方程组求出变量解方程组求出变量fi 与与v采用迭代计算：采用迭代计算：（1）选择一个初始策）选择一个初始策，每一个状态，每一个状态i（i=1，2，m）选择）选择一个决策规则一个决策规则使其决策使其决策，令，令n=0；(2)对已知策略，令对已知策略，令，求解方程组，求解方

47、程组(11.18)，得相应，得相应的策略获利的策略获利v（n）和相对值和相对值f（n），（，（i=1,2,m；n=0,1,2）；）；11.5马尔可夫决策马尔可夫决策MarkovDecision（3）应用上一策略已求得的）应用上一策略已求得的，寻求一个新的策略规则，寻求一个新的策略规则n+1，对每一个状态，对每一个状态i，使，使由此得新的策略由此得新的策略（4）若所得策略）若所得策略与前次迭代所得策略与前次迭代所得策略完全相等，则完全相等，则停止迭代，已得到了最优策略；否则回到步骤停止迭代，已得到了最优策略；否则回到步骤2，令，令n=n+111.5马尔可夫决策马尔可夫决策MarkovDecisi

48、on【例【例11.12】某水泥厂有一台窑炉处于两种运行状态，即运转和】某水泥厂有一台窑炉处于两种运行状态，即运转和故障，窑炉工人每年定期检查设备一次若窑炉正常则选择维故障，窑炉工人每年定期检查设备一次若窑炉正常则选择维护或不维护；若窑炉故障则选择大修或常规维修，其转移概率护或不维护；若窑炉故障则选择大修或常规维修，其转移概率与相应的报酬如下表，试求该厂应采取的最佳策略使在无限期与相应的报酬如下表，试求该厂应采取的最佳策略使在无限期的未来每年所获平均收入最大的未来每年所获平均收入最大表表11.12转移概率和报酬转移概率和报酬状态状态I决决策策转移概率转移概率报报酬酬期望期望即时报酬即时报酬1运转

49、运转1.(不维护不维护)2.(维护维护)0.50.90.50.15048002543.22故障故障1.(大修大修)2.(常修常修)0.80.60.20.4530041.811.5马尔可夫决策马尔可夫决策MarkovDecision【解】【解】此问题共有两种状态，每个状态有两种决策，因此共有此问题共有两种状态，每个状态有两种决策，因此共有四种可行决策。四种可行决策。为运转时不维护；为运转时不维护；为运转时维护；为运转时维护；为故障时大修；为故障时大修；为故障时进行常规维修为故障时进行常规维修(1)选取初始策略选取初始策略即当运转时不维护即当运转时不维护,而故障时大修，则有而故障时大修，则有11.

50、7马尔可夫决策马尔可夫决策MarkovDecision11.5马尔可夫决策马尔可夫决策MarkovDecision(2)开始定值运算，并估计初始策略开始定值运算，并估计初始策略令令f2=0，解上述方程组，得，解上述方程组，得v（0）=13.85，(3)进入策略改进程序，求改进策略进入策略改进程序，求改进策略对状态对状态1，寻求策略，寻求策略,使使选取决策选取决策,，当窑炉运转，采取维护策略，当窑炉运转，采取维护策略，对状态对状态2，寻求新策略，寻求新策略,使使选取决策选取决策，当窑炉故障时，采取大修策略，当窑炉故障时，采取大修策略求得改进策略为：求得改进策略为：策略策略与与策略不同，所以还没有

展开阅读全文