《第11讲概率统计模型数据拟合方法分解ppt课件.ppt》由会员分享,可在线阅读,更多相关《第11讲概率统计模型数据拟合方法分解ppt课件.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概率模型概率模型(一)报童的诀窍(一)报童的诀窍(二)航空公司的超额订票问题(二)航空公司的超额订票问题 确定性因素和随机性因素确定性因素和随机性因素随机因素可以忽略随机因素可以忽略随机因素影响可以简单随机因素影响可以简单地以平均值的作用出现地以平均值的作用出现随机因素影响必须考虑随机因素影响必须考虑概率模型概率模型统计回归模型统计回归模型马氏链模型马氏链模型随机模型随机模型确定性模型确定性模型随机性模型随机性模型数学期望数学期望离散型随机变量离散型随机变量 X 的概率分布为的概率分布为), 2 , 1()(nipxXPii则随机变量则随机变量 X 的数学期望值为的数学期望值为), 2 , 1
2、()(nipxXEii连续型随机变量连续型随机变量 X 的概率密度函数为的概率密度函数为)(xf则随机变量则随机变量 X 的数学期望值为的数学期望值为dxxxfXE)()(期望值反映了随机变量取值的期望值反映了随机变量取值的“平均平均”意义!意义!报童的诀窍报童的诀窍1.确定设计变量和目标变量确定设计变量和目标变量2.确定目标函数的表达式确定目标函数的表达式l每天的总收入为目标变量每天的总收入为目标变量l每天购进报纸的份数为设计变量每天购进报纸的份数为设计变量3.寻找约束条件寻找约束条件l寻找设计变量与目标变量之间的关系寻找设计变量与目标变量之间的关系l设计变量所受的限制设计变量所受的限制若每
3、天购进若每天购进 0 份,份, 则则收入为收入为 0。若每天购进若每天购进 1 份,份,售出,则售出,则收入为收入为 a- -b。退回,则退回,则收入为收入为 (b-c)。若每天购进若每天购进 2 份,份,售出售出1份,则份,则收入为收入为 a-b (b-c) 。退回,则退回,则收入为收入为 2( (b- -c)。售出售出2份,则份,则收入为收入为 2(a-b) 。收入还与每天的需求量有关,而需求量是随机变量收入还与每天的需求量有关,而需求量是随机变量则收入也是随机变量,通常用均值,即期望表示。则收入也是随机变量,通常用均值,即期望表示。1 设每天购进设每天购进 n 份,份,日平均收入为日平均
4、收入为 G(n)3 每天需求量为每天需求量为 r 的概率的概率 f(r), r=0,1,22 售出一份赚售出一份赚 a- -b;退回一份赔;退回一份赔 b- -cnr nr nrnrrnfbarfrncbrbanG01)()()()()()(求求 n 使使 G(n) 最大最大每天的收入函数记为每天的收入函数记为U(n),则,则rnnbarnrncbrbarnU )()()(),(收入函数的期望值为收入函数的期望值为rbar)(赚售出)(rncbrn赔退回nban)( 赚售出nndrrnpbadrrprncbrbanG0)()()()()()(将r视为连续变量概率密度)()()(rprfdndG
5、nndrrpbadrrpcb0)()()()(ndrrpbannpba)()()()(ndrrpcbnnpba0)()()()(0dndGcbbadrrpdrrpnn)()(0dndGnndrrpbadrrpcb0)()()()(使报童日平均收入达到最大的购进量使报童日平均收入达到最大的购进量n应满足上式。应满足上式。因为cabadrrpn0)( 10drrp 10drrpdrrpnn售完的售完的概率概率cbbadrrpdrrpnn)()(0因为当购进n份报纸时, drrpPn01是需求量r不超过n的概率 drrpPn2是需求量 超过rn的概率售不完的售不完的概率概率上式上式意义为:意义为:购
6、进的份数购进的份数n之比,恰好等于卖出一份赚的钱之比,恰好等于卖出一份赚的钱ba与退回一份赔的钱与退回一份赔的钱cb之比。之比。应该使卖不完与卖完应该使卖不完与卖完的概率的概率根据需求量的概率密度 rp的图形可以确定购进量n在图中用21,PP分别表示曲线下的两块面积,则cbbaPP21 rpO n r1P2Pcbbadrrpdrrpnn)()(0当报童与报社签订的合同使报童每份赚钱与赔钱之比当报童与报社签订的合同使报童每份赚钱与赔钱之比越越大大时,报童购进的份数就应该越多。时,报童购进的份数就应该越多。结论注意注意l求解技巧:求解技巧:连续化连续化l建模方法:建模方法:从特殊到到一般从特殊到到
7、一般归纳抽象归纳抽象1998年年B题题 灾情巡视路线灾情巡视路线单旅行商到多旅行商单旅行商到多旅行商1999年年B题题 钻井布局钻井布局网格的平行移动到旋转运动网格的平行移动到旋转运动2000年年B题题 钢管的订购与运输钢管的订购与运输线形到树形线形到树形2000年年C题题 飞越北极飞越北极球形到椭球形球形到椭球形人口模型,战争模型人口模型,战争模型l随机变量的目标函数:随机变量的目标函数:期望值期望值航空公司的超额订票模型航空公司的超额订票模型 利用上述模型计算,若每份报纸的购进价利用上述模型计算,若每份报纸的购进价为为0.750.75元,售出价为元,售出价为1 1元,退回价为元,退回价为0
8、.60.6元,元,需求量服从均值需求量服从均值500500份,均方差份,均方差5050份的正态份的正态分布,报童每天应购进多少份报纸才能使平分布,报童每天应购进多少份报纸才能使平均收入最高,最高收入是多少?均收入最高,最高收入是多少?cbbadrrpdrrpnn)()(03515.025.0)(1)(00cbbadrrpdrrpnncbbadrrpdrrpnn)()(03515.025.0)(1)(00cbbadrrpdrrpnn625.085)(0ndrrp625. 0)0()(n625. 0)10()50500(n125.0 5 .0625.0)50500(n32.050500n516n查
9、概率积分表得1 问题的提出问题的提出航空公司为了提高经济效益开展了一项预订票业务。随之带来一系列的问题:若预订票的数量恰等于飞机的容量,则由于总会有部分已订票的乘客不按时前来登机,致使飞机因不满员而利润降低,或亏本;若不限制订票的数量,那些本已订好了某家航空公司的某趟航班的乘客,却被意外地告知此趟航班已满,公司不管以什么方式补救总会引起乘客的抱怨,导致荣誉受损。试建立航空公司订票决策的数学模型,解决以上的问题。试建立航空公司订票决策的数学模型,解决以上的问题。 2 问题分析问题分析公司的经济利益公司的经济利益公司的社会声誉公司的社会声誉利润利润 = = 收入收入- -成本成本- -赔偿金赔偿金
10、已订票但被挤掉的乘客的数量已订票但被挤掉的乘客的数量怎样确定预订票数量限额,使得利润最大,同时被挤怎样确定预订票数量限额,使得利润最大,同时被挤掉的乘客的数量尽可能小。掉的乘客的数量尽可能小。问题转化为问题转化为以预订票数量为决策变量的双目标随机规划问题。以预订票数量为决策变量的双目标随机规划问题。订票策略:订票策略:为了航空公司的经济利益与社会声誉,为了航空公司的经济利益与社会声誉,确定预订票的最佳数量。确定预订票的最佳数量。3 模型假设模型假设l飞机容量为常数 n,机票价格为常数 g,飞行 费用为常数 r。机票价格按照 来制订,其中 是利润调节因子,如 表示飞机60%满员就不亏本。nrg)
11、 1(6 . 0l预订票数量的限额为常数 m(n) ,每位乘客不按时前来登机的概率为 p,各位乘客是否按时登机是相互独立的。l每位被挤掉的乘客获得的赔偿金为常数b。4 模型建立模型建立l先不考虑社会声誉的影响。公司的经济利益用平均利润(数学期望) 来衡量订票的总人数是 m,m有可能超出 n航空公司可能从航班中得到的利润为nkmbnkmrngsnkmrgkms ,)(,当有 k个人误机时,k个人误机的概率是 ,由假设2 kP平均利润 即 ( 数学期望值),S10)()(nmkmnmkkkrgkmPbnkmrngPmS设有 pqqpCPkmkkmk1,s1 ,00mkkmkkPmpkP10)(nm
12、kkknmPgbrqmgmS由得当 给定后,可以求 m 使 最大。 bprgn,)(mS10)()(nmkmnmkkkrgkmPbnkmrngPmS1010nmkknmkkrgkmPrgkmP100)()()(nmkmkkkrgkmPrgkmbnkmrngPmS10)(nmkkknmPgbrqmgmS1000)()()()(nmkmkmkkkkrmgPgkPnkmPgbmS10)()()(nmkkrmgmpgnkmPgbmS考虑到社会声誉,应该要求被挤掉的乘客不能太多。而由于被挤掉者的数量是随机的。用被挤掉的乘客数超过若干人的概率作为衡量标准。设被挤掉的乘客数超过 人的概率为 ,则j)(mPj
13、10)(jnmkkjPmP被挤掉的乘客数超过 j 人等价于m位预订票的乘客中不按时前来登机的不超过 m-n-j 人。l从社会声誉和经济利益两方面考虑nm-njm-n-j所建模型为双目标的优化模型10)(maxnmkkknmPgbrpmgmS10)(minjnmkkjPmP116 . 0110nmkkknmPgbpmnrS模型变形航空公司综合考虑大量的因素,得出的临界人数大约是航班载客量的60%,即rng 6 . 0116 . 01)(max10nmkkknmPgbpmnrSmJ10)(minjnmkkjPmP10)(.jnmkkjPmPts116 . 01)(max10nmkkknmPgbpm
14、nrSmJ10计算一架载客量为300的飞机所能得到的预期利润,假设 05. 0p20./gb5 模型求解模型求解m300302304306308310312314316P5000000.00050.00440.02320.0791J10.58330.59390.60440.61500.62540.63550.64450.65190.6568m318320322324326328330332334P50.19310.36270.55580.72950.85650.93350.9730J10.65940.66000.65920.65770.65580.65370.6517结果表明:当超额订票的乘客
15、数分别为20和39时,可以达到最大的预期利润。有超过5名乘客发生座位冲撞的概率分别为36%和54%。当超额订票的乘客数分别为18和36时,可以达到较大的预期利润。有超过5名乘客发生座位冲撞的概率却分别为20%和30%。1 . 0p20./gbm300302304306308310312314316P5000000000J20.50000.51000.52000.53000.54000.55000.56000.57000.580031832032232432632833033233433600.00020.00080.00300.00930.02430.05470.10740.18690.292
16、20.59000.59990.60970.61930.62830.63650.64360.64920.65330.65596 模型推广模型推广1)酒店酒店接受房间预订主要是建立在诚信之上,因此通常不会再接受有过失信记录的顾客的预订。一些酒店在接受预订时会要求顾客交纳押金,以此来确保顾客住房的概率(施行这种方案的一般是低价酒店,因为它们的周转资金往往不多),而另一些酒店则可能会给长期订房或是预付房费的顾客打折。这种多价格系统的经营方式是可以考虑的。3)图书馆图书馆都有可能购买一些畅销书籍的多种版本。特别是在学院或大学图书馆里,时常购买一系列课本。某些版本极有可能仅限在图书馆内,以方便学生们的使用
17、。可以尝试建立书籍使用的模型。2)汽车出租公司汽车出租公司一般会保留固定数量的汽车(至少在短期内)以出租给顾客。出租公司可能会为频繁租借汽车的顾客打折,以此来确保公司能有最低量的收入。而一些长期出租品(一次出租一周或一个月)也会标上优惠的价格,因为这给出了一个至少确定了未来的一段日子会有收入的策略。在预测一些车辆的预订可能会被取消的情况下,一间公司有可能充分地留出比它们计划中要多的汽车。 求解双(多)目标的优化模型求解双(多)目标的优化模型l根据对多目标的偏好程度,通过加权组合形式,化为单目标规划问题。l把一个目标作为约束条件,解另一个目标的规划问题。7 注意注意 假设在某一高校里只有两类餐厅
18、,一类是学校假设在某一高校里只有两类餐厅,一类是学校公办餐厅,另一类是私人的承包餐厅,通过调查发现,公办餐厅,另一类是私人的承包餐厅,通过调查发现,在公办餐厅就餐的学生有在公办餐厅就餐的学生有60%60%会回到这类餐厅,而在承会回到这类餐厅,而在承包餐厅就餐的学生有包餐厅就餐的学生有50%50%的回头率,试建立数学模型求的回头率,试建立数学模型求解学生在每类餐厅长期就餐的百分比。解学生在每类餐厅长期就餐的百分比。 课堂练习课堂练习学生就餐问题学生就餐问题 数据拟合方法数据拟合方法最小二乘法最小二乘法数据拟合建模数据拟合建模 给定一组有序的数据点,这些点可以是从实验中测量得到的,也可以是设计员给
19、出的。 构造一条曲线顺序通过这些数据点,称为对这些点进行插值,所构造的曲线称为插值曲线。构造插值曲线所采用的数学方法称为曲线插值法。1002003004002025303540希望 测量所得或设计员给出的数据点本身就很粗糙,要求构造一条曲线严格通过给定的一组数据点就没有什么意义。注意到 构造一条曲线使之在某种意义下最接近给定的数据点将更为合理,称之为对这些点进行曲线逼近。1002003004001020304050构造逼近曲线所采用的数学方法称为曲线逼近法。相应的有曲面插值(逼近)问题。 常用的拟合方法有:常用的拟合方法有: 1、一般插值法、一般插值法 2、样条插值法、样条插值法 3、最小二乘
20、法、最小二乘法 10020030040010203040501002003004002025303540最小二乘法的基本原理在实验中收集到一组数据miyxii, 2 , 1),(可以由这组数据分析出一个经验公式:),(cbaxfy其中 为一组待定参数,使得cba,21),(cbaxfyimii取到最小值,从而确定出参数 的值。cba,这样就得到由这组数据确定的拟合函数。 假设我们预想到一个确定形式的模型,并且已经收集了数据并进行分析。在这里用最小二 乘准则来估计各种类型曲线的参数。miiimiiibaxyxfyS1212)(拟合直线baxyBAxy 用 记作 的最小二乘估计。这时运用最小二乘准
21、则 ,则要求极小化最优的必要条件是miiimiiiibaxybSbaxyxaS110)(20)(2mimiiimiimiimiiiymbxayxxbxa111112改写为将 和 的值全部代入,方程组就变为二元一次代数方程组ixiymiiimiiibaxyxfyS1212)(mimiiimimiimiiiixxmyxyxma1212111)(mimiiimimiimiiimiiixxmxyxyxb121211112)(斜率截距例1 在钢线碳含量对电阻的效应研究中,得到以下数据:BAxy 碳含量碳含量 x0.1 0.3 0.4 0.55 0.7 0.8 0.95电阻效应电阻效应y15 18 19
22、21 22.6 23.8 26试求其线性拟合曲线 ,并估计在碳含量的这一改变过程中对电阻的总效应。对给定的数据点集用最小二乘准则拟合直线设A与B最小二乘估计为 a ,b计算得5503.12)(77712712717171iiiiiiiiiiixxyxyxa9584.13)(7712712717171712iiiiiiiiiiiiixxxyxyxb最小二乘近似模型为xy5503.129584.13利用Mathematics 软件,可得data0.1, 15 ,0.3, 18 ,0.4, 19 ,0.55, 21 ,0.7, 22.6 ,0.8, 23.8 ,0.95, 26;dplotListP
23、lot data, PlotStylePointSize 0.02;0.40.60.8182022242613.958412.5503 x0.20.40.60.81510152025fFit data,1, x , x ;gPlot f,x, 0, 1.1;Chop fShow dplot, g, PlotRange0, 26;Integrate 13.958412.5503 x,x, 0.1, 0.9517.4652拟合幂曲线 对给定的数据点集用最小二乘准则拟合形式的曲线, 为确定的数,现在来估计 的值 即研究模型 的最小二乘估计。naxy nAxy Aan运用最小二乘准则要求极小化mini
24、imiiiaxyxfyS1212)(最优的必要条件是miniiniaxyxaS10)(2minimiinixyxa121为确定的数n注意 类似的,可以将最小二乘准则用于其它模型。类似的,可以将最小二乘准则用于其它模型。应用该方法的限制在于计算最优化过程中要求的应用该方法的限制在于计算最优化过程中要求的各种导数,令这些导数为零,解这些方程组,求各种导数,令这些导数为零,解这些方程组,求出模型类型中的参数。出模型类型中的参数。例2 用下表给出的数据拟合二次曲线 ,2Axy 并预测 x=2.25时 y 的值。 x0.5 1.0 1.5 2.0 2.5 y0.7 3.4 7.2 12.4 20.1mi
25、nimiinixyxa121最小二乘估计 a ,由 确定。计算得5141875.61iix5120 .195iiiyx2n最小二乘近似模型为21869. 3xy 由此模型可计算当 x=2.25 时,预测 y 的值为16.13370.51.522.551015200.511.522.55101520data0.5, 0.7 ,1, 3.4 ,1.5, 7.2 ,2, 12.4 ,2.5, 20.1;dplotListPlot data, PlotStylePointSize 0.02;fFit data,x2 , x ;gPlot f,x, 0, 2.5;Chop fShow dplot, g,
26、 PlotRange0, 20.2;0.51.522.551015200.511.522.551015200.511.522.551015203.18693 x2经变换的最小二乘拟合例如,用最小二乘准则拟合模型 BxAey bxaexf)(最优化的必要条件是mibximiiiiaeyxfyS1212)( 在理论上最小二乘准则很易应用,但在实践上可能是有困难的。研究模型的最小二乘估计 许多简单的模型会产生很复杂的求解过程,或者很难解的方程组。基于这一原因,我们要使用变换,得出近似的最小二乘模型。mibxibximibxibxiiiiaeyexabSaeyeaS110)(20)(2解这个非线性方程
27、组是不容易的。通过对数据分析研究,发现先变换数据再对变换后的数据拟合直线很方便。例如,图形拟合 ,可以作变换xAey xAy lnln而对于 和x的图却是直线。对变换后的数据拟合直线,可用于最小二乘准则,简化拟合过程的计算。yln特别地,如果找到一个方便的变换,问题变成在变换后的变量X和Y间采用 的形式。BxAy方程两边取对数得假设我们想对这数据点集拟合幂曲线 用 记的估计, 记的估计。NAxy naxy xnaylnlnln在变量对 的图中,上方程构成一条直线。yln是此直线的截距, 是此直线的斜率。用变换后变量和个数据点,有aln x0.5 1.0 1.5 2.0 2.5 y0.7 3.4
28、 7.2 12.4 20.1对于数据5mxlnann从所给的数据得到512512515151)ln()(ln5)ln)(ln()(ln(ln5iiiiiiiiiiixxyxyxn512512515151512)ln()(ln5ln)(ln(lnln)(lnlniiiiiiiiiiiiixxxyxyxa3217558.1ln51iix359597801.8ln51iiy所以方程的最小二乘最佳拟合为9648967.1)(ln251iix542315175. 5)(ln(ln51iiiyx产生062809314. 2n126613508. 1lna085190815. 3a0628. 20852.
29、3xy 由此模型可计算当 x=2.25 时,预测 y 的值为16.4348假设仍想对这数据点集拟合二次曲线 仍用 记的估计,对方程 两边取对数得2Axy 2axy xayln2lnln x0.5 1.0 1.5 2.0 2.5 y0.7 3.4 7.2 12.4 20.1对于数据在变量对 的图中,上方程是一条斜率为2截距为 的直线。利用最小乘法计算得ylnxlnaln14321724. 1lna136844129. 3aa所以方程的最小二乘最佳拟合为21368. 3xy 由此模型可计算当 x=2.25 时,预测8801.15y思考:21368. 3xy 21869. 3xy 没有变量代换经变量
30、代换这两个模型哪个更好?2001年全国大学生数学建模竞赛赛题年全国大学生数学建模竞赛赛题A血管的三维重建血管的三维重建曲线拟合2005年全国大学生数学建模竞赛赛题年全国大学生数学建模竞赛赛题A长江水质的评价和预测长江水质的评价和预测2006年全国大学生数学建模竞赛赛题年全国大学生数学建模竞赛赛题A艾滋病疗法的评价及疗效的预测艾滋病疗法的评价及疗效的预测实验目的:实验目的: 练习掌握曲面拟合、等值线的有关知识,学会利用Mathematical软件解决实际的问题能力。实验题目实验题目 水道测量问题水道测量问题表1 给出了在以码为单位的直角坐标为X,Y的水面一点处的以英尺记的水深 Z。水深是在低潮时测得的。船的吃水深度为 5 英尺。在矩形区域(75,200)X(-50,150)里的哪些地方船要避免进入。实验问题:实验问题:水道测量问题水道测量问题X 129.0 140.0 103.5 88.0185.5 195.0105.5Y 7.5141.5 23.0147.022.5137.585.5Z 4868688表1 水道测量数据X 157.5 107.5 77.0 81.0162.0 162.0117.5Y -6.5-81.03.056.5-66.584.0-33.5Z 9988949