《概率统计法.pdf》由会员分享,可在线阅读,更多相关《概率统计法.pdf(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 2005 温州 1 数学建模讲座 概率统计 在数学建模中的应用 浙江工业大学应用数学系 邬学军 2005 温州 2 1、概率论在数学建模中的应用(1)利用期望把随机问题转化为确定性问题,考虑平均意义下的最优问题(2)生灭过程的应用 2、多元统计分析(1)回归分析 (2)判别分析 (3)聚类分析 3、随机模拟 2005 温州 3 概率论在数学建模中的应用 1、利用期望把随机问题转化为确定性问题,考虑平均意义下的最优问题 在一般的数学建模教材中都有相关模型介绍,例如姜启源 数学模型(三版)第 9 章;在往年的竞赛题中涉及的有:1997 年 A 题“零件的参数设计”、1999年 A 题“自动化车床
2、管理”等。2005 温州 4 例例 1:零件的参数设计(:零件的参数设计(1997 年赛题年赛题 A)问题简述:问题简述:一件产品由若干零件组装而成,标志产品性能的某个参数取决于这些零件的参数。零件参数包括标定值和容差两部分。进行零件参数设计,就是确定标定值和容差。考虑两方面因素:一是当各零件组装成产品时,产品参数偏离设定的目标值,就造成质量损失,偏离越大,损失越大;二是零件容差的大小决定了其制造成本,容差设计越小,成本越高。y 对如下具体问题给出零件参数设计方法。某参数由 7 个零件的参数71xx决定,经验公式为,.,1.50.561.16440.8522312216712.62 1 0.3
3、6174.42xxxxxxyxxxx x=2005 温州 5 y的目标值0150y=。当y偏离00.1y 时,产品为次品,质量损失 1000,当偏离时,产品为废品,质量损失 9000,零件参数的标定值有一定的容许变化范围分为 A、B、C 三个等级,用与标定值的相对值表示,A等为,B 等为y00.3y 1%5%,C 等为10%。7 个零件参数标定值的容许范围,及不同容差等级零件的成本表(略)现进行成批生产,每批产量 1000 个。在原设计中,7 个零件的标定值给定,容差取最便宜的等级,请你综合考虑y偏离0y造成的损失和零件成本,重新设计零件参数(包括标定值和容差)。2005 温州 6 问题的讨论
4、:问题的讨论:显然这是一个优化问题,目标函数应为成批生产时(平均每件)产品的质量损失与零件成本之和,决策变量是零件的标定值和容差。可以合理地假设零件参数是相互独立的随机变量,从而产品参数127(,.,)yf x xx=也是随机变量,大量生产时(平均每件)产品的质量损失费用应该用损失函数()L y的期望来度量,它取决于零件参数标定值0 x和容差t,我们记为0(,)()Q x tE L y=.零件成本只取决于容差,第 种零件的成本记为,则零件总成本为.于是该优化问题的目标函i()iiC t71()()iiICtCt=数可表示为 0(,)()()Z x tE L yC t=+.对损失函数,根据题意可
5、以合理地假设为二次损失,。()L y20()()L yk yy=510k=接下去就是讨论目标函数0(,)Z x t的具体表达式,也就是期望和零件总成本的计算,然后求最优解。()E L y()C t 2005 温州 7 例 2:零件的预防性更换 例 2:零件的预防性更换 问题简述:问题简述:在生产设备中长期运行的零部件,会发生故障或损坏,即使是及时更换也已经造成了一定的经济损失如果在零件运行一定时期后,就对尚属正常的零件做预防性更换,以避免一旦发生故障带来的损失,从经济上看是否更为合算?如果合算,做这种预防性更换的时间如何确定呢?解决问题的关键:解决问题的关键:解决这个问题的关键在于恰当地估计零
6、件能够正常运行的时间,即恰当估计零件的寿命这一随机变量通过试验数据的统计处理和理论分析,确定零件寿命的分布函数和平均寿命等数字特征 2005 温州 8 两个基本概念:两个基本概念:可靠度:可靠度:用随机变量表示零件的寿命,其分布函数X)()(tXPtF=表示零件寿命不超过时间t的概率(即在时刻t之前失效)X的概率密度记为寿命大于)(tft的概率记为,即 )(tR)(1)1()(tFXPtR=(1)称为零件的可靠度,显然有1)0(=R,0)(=R从而平均寿命即X的期望为:(2)=00)()(dttRttdFEX 2005 温州 9 失效率:失效率:设零件运行到时刻t仍然正常,则它在),(ttt+
7、内失效的概率为()()()(|)1()()F ttF tf ttP Xtt XtF tR t+=(3)定义 )()()(tRtftr=(4)称为失效率,是条件概率密度,当t很小时ttr)(表示零件在t以前正常运行条件下,在),(ttt+内失效的概率在实际应用中让 N 个零件同时运行,记为时刻)(tnt以前失效的个数,)(tn为这时单位时间内失效的个 数,则 )()()(trtnNtn 2005 温州 10 典型的失效率曲线呈浴盆形状,分三个阶段典型的失效率曲线呈浴盆形状,分三个阶段 第阶段:早期失效期 主要由材料或工艺制造上的缺陷引起,应通过检验剔除一批不合格品,待零件渡过这一阶段后再投入运行
8、 第阶段:偶然失效期)(tr 基本上保持不变,是零件的最佳使用阶段 第阶段:老化失效期 由于磨损、老化等原因失效率迅速上升,应采取维修或更换等手段维持设备的正常运行 2005 温州 11 几种常见的连续型寿命分布:几种常见的连续型寿命分布:1.指数分布(无记忆性)指数分布(无记忆性)设失效率为常数,即当零件正常运行到)(trt时刻后,在),(ttt+内失效的概率为t,与t无关,那么用=)(tr代入(4)、(1)式可得 )(1 tFdtdF=(5)在初始条件下方程(5)的解为 0)0(=F ,tetF=1)(ot,0 (6)零件寿命X称为服从参数的指数分布 2 分布 分布 3威布尔分布威布尔分布
9、(Weibull)2005 温州 12 预防性更换策略:预防性更换策略:即确定一个时间 T,当零件寿命 X)1c2c 2005 温州 14 满足)(Tc极小值的 T 应满足(求导得)=TcccTFdttRTr0212)()()(10)左端记为 (11)0()()()()Th Tr TR t dtF T=显然0)0(=h,又平均寿命,有=0)(dttR()()1hr=,并且 =TdttRdTdrdTdh0)(用,和)0(h)(hdTdh的结果考察(10)(11)式,2005 温州 15 可以得到如下的结论:1、若为增函数且)(tr112()crcc 则存在唯一的有限的 T 满足(10),使)(T
10、c达到最小,且)()()(21TrccTc=2、如果这样的 T 找不到,我们就说不存在预防性更换策略,即不存在比故障后更换平均损失更小的预防性更换策略 2005 温州 16 2、生灭过程的应用 各种排队现象、电梯的升降和交通路口的通过,都可以在适当的假设下用生灭过程的模型来描述。随机人口、传染病等也可以用生灭过程来描述模型。2005 温州 17 例 3:SARS 的传播(2003 年赛题 A)例 3:SARS 的传播(2003 年赛题 A)问题简述:问题简述:?对题目中所提供的一个早期的 SARS 传播的模型,评价其合理性和实用性?对 SARS 的传播建立自己数学模型?收集 SARS 对经济某
11、个方面影响的数据,建立相应的数学模型并进行预测?题目提供的模型t(认为病例随时间按照指数规律增长)KNtN)1()(0+=注::初始时刻的病例数 0N K:平均每病人每天可传染人数(K一般为小数)t:时间 2005 温州 18 该模型基本思想就是认为病例随时间按照指数规律增长。缺点不一而足:过于简单,所有因素的对 SARS 传播的影响都体现在 K 上。没有考虑一般人群感染 SARS 的几个阶段等等。与题目已提供的模型类似,利用生灭过程,类似随机人口模型建立的方法,从宏观角度出发建立模型。时刻的病人人数用表示,记为在时刻 时的概率。t()X t()kP tt()X tk 下面模型是一篇解决该问题
12、论文的部分内容,称为模型一。2005 温州 19 模型假设:模型假设:?人群均匀混合,这一点只有在较小的社区中才能近似满足,更大的区域可以通过分割成几个小的相互关联的区域来达到各小区域近似均匀混合的目的?SARS 传播方式为接触式传染,正常人接触一名感染类病人后感染的概率是()t?病人移出传染系统的概率为()t 2005 温州 20 SARS 病程分析:病程分析:前提:假设已经存在 个病人。k 那么在时间(,)t tt+内:?有一个病人移出传染病系统的概率:()()kttot+?有两个(或两个以上)病人移出系统的概率:()ot?有一个病人加入传染病系统的概率:()()kttot+?有两个(或两
13、个以上)病人加入传染病系统的概率:()ot?病人数不变的概率为:1()()()kttkttot +2005 温州 21 则在tt+时刻,可求出病人人数为 的概率(全概率公式):k()kP tt+病人人数不变的概率+t 时刻病人人数 k-1,在t内增加了一个病人的概率+t 时刻病人人数 k+1,在t内减少了一个病人的概率 t内增加了 n 个病人的概率+t 时刻病人人数 k-n,在+t 时刻病人人数 k-n,在t内减少了 n 个病人的概率()kP t(1()()kttktt +1()kPt(1)()ktt+1()kPt+(1)()ktt+()ot 可得微分方程 11()()()(1)()()(1)
14、()()kkkkdPktt P tkt Ptkt Ptdt+=+2005 温州 22 简单情况的解:简单情况的解:简化:假定()t,()t与时间无关,即退化成,,且在初始时刻0t=有个病人。0N用生成函数法可对前面的微分方程求解得到:01(,)()|!kkukd G u tP tkdu=()()()(1)(,)()(1)tituu eG u tuu e +=+其中生成函数 由概率求得病人人数的数学期望为(或从微分方程直接求期望):()01(,)()tuG u tE X tN eu=2005 温州 23 多元统计分析 1、回归分析 从建模应用的角度来说,我们推荐阅读:姜启源数学模型(三版)第 1
15、0 章 统计回归模型。特点:结合具体例子,对以下几个方面都有比较详细的讨论?具体回归模型的选择?变量的选择和处理?Matlab 软件在统计方面的使用?结果的分析,模型的改进 2005 温州 24 2、判别分析 一般提法:一般提法:设有个类别,对任意一个样品k1G2GkGixG(1,2,.,ik=),其指标(p 维)的值是可观测的。现给定一个由已知所属类别的一些样本,X1x2x,nx 组成所谓“学习样本”,要求对一个来自这 个类别的某样本kx,根据其指标的值作出其所属类别的判断。X 具体实现:具体实现:具体计算工作可以由统计软件 SPSS、Statistica 等完成。2005 温州 25 例
16、1:蠓虫的分类(AMCM89A)例 1:蠓虫的分类(AMCM89A)问题简述:问题简述:两种蠓 Af 和 Apf 已根据它们的触角长度和翼长加以区分,现给出 9 只 Af 蠓用“”标记,6 只 Apf 蠓用“”标记(见图),根据给出的触角长度和翼长识别出一只标本是 Af 还是 Apf。2005 温州 26 问题细分:问题细分:(1)给定一只 Af 族或 Apf 族的蠓,如何正确区分它属于哪一族?(2)将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)的三个标本。(3)若 Af 是传粉益虫,Afp 是某种疾病的载体,是否应该修改分类方法?若需修
17、改,如何改?问题解决的步骤:问题解决的步骤:?得到学习样本的具体数据?模型的建立与求解?模型的改进 2005 温州 27 18个数据的散点图1.101.151.201.251.301.351.401.451.501.551.60触角1.601.651.701.751.801.851.901.952.002.052.10 2005 温州 28 学习样本的具体数据:学习样本的具体数据:Af(1)Apf(2)触角长1x 翼长2x 触角长1x 翼长2x 1.24 1.72 1.14 1.78 1.36 1.74 1.18 1.96 1.38 1.64 1.20 1.86 1.38 1.82 1.26
18、2.00 1.38 1.90 1.28 2.00 1.40 1.70 1.30 1.96 1.48 1.82 1.54 1.82 1.56 2.08 样本均值向量 ,11.4131.804a=21.2271.927a=样本离差矩阵 ,10.07840.06470.06470.1350L=20.01970.02170.02170.0389L=2005 温州 29 模型的建立与求解:模型的建立与求解:模型模型 马氏距离判别法马氏距离判别法 距离判别法的基本思想:距离判别法的基本思想:利用距离的概念(距离可以是多样的),若x距Af 类的“距离”小于距 Apf 类的“距离”,则判断xxAf,反之则判断
19、。xApf在这个距离判别模型中,把每个样本视为二维空间中的一个点,我们可算得代表Af的9个点的集合与代表Apf的6个点的集合各自的中心(样本均值):,1a2a 2005 温州 30 针对本问题的马氏距离判别:针对本问题的马氏距离判别:显然这是样本离差阵21LL的情形,判别函数,是二次函数,其中i2(;)(,)iW i xdx G=21(,)()()iidx Gxa Vxa=,。/(1)iiVLn=1,2i=由具体数据计算可得:22112212(1;)189.90182110.25208.33140.61274.02Wxxx xxxx=+22112212(2;)790.02881.4400.08
20、240.24460.42590.89Wxxx xxxx=+根据判别规则:若(;)min(;)|1,2.W k xW i xir=,则xkG,回代检验所有的已知样本,结果都正确,对未知样本检验的结果如下:(1;1.24,1.80)5.57(2;1.24,1.80)6.47WW=(1;1.28,1.84)4.37(2;1.28,1.84)9.30WW=(1;1.40,2.04)6.71(2;1.40,2.04)11.56WW=x对未知样本检验的结果如下:(1.24,1.80)4.0976Wc=(1.28,1.84)4.2287Wc=结果:结果:所检验的三个未知样本中,样本(1.24,1.80)属于
21、 Apf 族;样本(1.28,1.84)属于 Apf 族;样本(1.40,2.04)属于 Af 族。2005 温州 33 模型模型 Bayes 判别法判别法 在正态总体假设下,可得判别结果(过程略)。结果:结果:样本(1.24,1.80)属于 Apf 族;样本(1.28,1.84)属于 Apf 族;样本(1.40,2.04)属于 Af 族。此判别法得到的结果和 Fisher 判别法得到的结果相同。2005 温州 34 三类模型的分析:三类模型的分析:?用上述三种判别法(模型)得到的结果不太一样,存在着差异,即存在着错判。?对每一种判别都存在一个错判概率的问题,对具体问题哪一种判别方法好,错判概
22、率是一个指标,它应该尽量的小,进一步应该讨论错判概率,但是最终的判别结果往往需要综合考虑。?上面使用的三类判别方法都可以作为细分问题(1)的答案;Fisher判别法和 Bayes 判别法所得结果可以作为细分问题(2)的答案。2005 温州 35 模型改进(三方面考虑):模型改进(三方面考虑):1、如果 Af 是传粉益虫,Afp 是某种疾病的载体,那么可对原来的15 个学习样本进行重新分类,利用聚类分析的方法,把原来 15 个样本分成 5 类按 AfApf(115)的次序分成:1;2,3,4,5,6,7,8;9;10;11,12,13,14,15 再用马氏距离判别法进行判别,但判别规则可改为:当
23、(;)iW i xc时,判别阀值的选取不仅与原来的 15 个样本有关,而且是与保护传粉益虫 Af 重要,还是消灭传病害虫 Apf 重要有关。ixGic2、也可以通过调整 Fisher 判别法中的阀值 来进行判别的控制。c3、综合考虑各种判别法所得到的结果。注:利用统计软件求解要注意软件中判别函数的定义及判别方式。注:利用统计软件求解要注意软件中判别函数的定义及判别方式。2005 温州 36 例 2:DNA 序列分类(2000 年赛题 A)例 2:DNA 序列分类(2000 年赛题 A)问题简述:问题简述:有 20 个已知类别的人工制造的序列,其中序列标号 110 为 A 类,11-20 为 B
24、 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外 20 个未标明类别的人工序列(标号 2140)进行分类,把结果用序号标明它们的类别。下面是利用判别分析的方法求解这一问题的一篇优秀论文的基本思路。具体模型可参阅发表的优秀论文 2005 温州 37 简单思路描述:简单思路描述:?衡量分类方法优劣的标准:分类的正确率。?用判别分析方法建模的关键:序列特征提取(特征如何选择又如何提取,它直接影响了分类的正确率)。?单纯使用“单个碱基丰度”(即 A,T,C,G 四个字符在字符串中出现的频率)这一特征结果不太理想,故采用将这种特征提取后形
25、成四维特征向量,对分别用欧氏距离、马氏距离判别分类法和 Fisher判别分类法得到的分类进行了综合考虑,在此基础上引入了相关度分类判别算法及反馈机制来比较碱基的相对位置,最后得到了很高的分类正确率。2005 温州 38 3、聚类分析 聚类分析(又称群分析):是研究样品(或指标)分类问题的一种多元统计法。主要方法有:?系统聚类法?有序样品聚类法?动态聚类法?模糊聚类法?图论聚类法?聚类预报法 2005 温州 39 例 3:蠓虫的分类(AMCM89A)(续)例 3:蠓虫的分类(AMCM89A)(续)利用系统聚类分析(马氏距离)的方法,把原来 15 个样本按样本的“接近程度”分成 5 类,按 AfA
26、pf(115)的排列次序的分类是:1;2,3,4,5,6,7,8;9;10;11,12,13,14,15 利用 Statistica 统计软件得到的这 15 个样本的系统聚类图(冰柱图),从图中可以发现样本 9 比较独立,其次是样本 1,这从数据(或原始坐标图)也可以看出。2005 温州 40 15个样本(马氏距离)聚类图0.000.050.100.150.200.250.30C_9C_15C_14C_13C_12C_11C_10C_8C_7C_5C_4C_3C_6C_2C_1 2005 温州 41 如果我们分别把每个新样本加入,用 16 个数据进行聚类,分别可以得到 3 张系统聚类图(冰柱图
27、):添加样本(1.24,1.80)的聚类图0.000.050.100.150.200.250.30C_9C_8C_7C_5C_4C_3C_6C_2C_10C_15C_14C_13C_11C_16C_12C_1 2005 温州 42 添加样本(1.28,1.84)的聚类图0.000.050.100.150.200.250.30C_9C_10C_15C_14C_13C_16C_12C_11C_8C_7C_5C_4C_3C_6C_2C_1 2005 温州 43 添加样本(1.40,2.04)的聚类图0.0000.0250.0500.0750.1000.1250.1500.1750.2000.225C
28、_9C_16C_15C_14C_13C_12C_11C_10C_8C_7C_5C_4C_3C_6C_2C_1 2005 温州 44 添加样本(1.24,1.80)的聚类图0.000.050.100.150.200.250.30C_9C_8C_7C_5C_4C_3C_6C_2C_10C_15C_14C_13C_11C_16C_12C_1添加样本(1.28,1.84)的聚类图0.000.050.100.150.200.250.30C_9C_10C_15C_14C_13C_16C_12C_11C_8C_7C_5C_4C_3C_6C_2C_1添加样本(1.40,2.04)的聚类图0.0000.0250
29、.0500.0750.1000.1250.1500.1750.2000.225C_9C_16C_15C_14C_13C_12C_11C_10C_8C_7C_5C_4C_3C_6C_2C_1 三张图的分析三张图的分析 分析三张聚类图,可以得到如下结论:?样本(1.24,1.80)属于 Apf 族?样本(1.28,1.84)属于 Apf 族?样本(1.40,2.04)比较独立,不能判定 此结果和前面用 Fisher 判别和 Bayes 判别得到的结果比较接近。2005 温州 45 例 4:奥运会临时超市网点设计(2004 年赛题 A)例 4:奥运会临时超市网点设计(2004 年赛题 A)问题简述:
30、问题简述:奥运会期间,如何在比赛主场馆的周边地区建设由小型商亭构建的临时商业网点(迷你超市,记做 MS),综合考虑其地点、大小类型和总量,以满足奥运会期间的购物需求,分布基本均衡并达到商业上赢利。对图(略)标有 A1-A10、B1-B6、C1-C4 的黄色区域是规定的设计MS 网点的 20 个商区。通过对观众的问卷调查已经采集了相关数据。请你对图的 20 个商区设计 MS 网点。2005 温州 46 2005 温州 47 在已发表的文章中有一篇部分采用了聚类分析的方法对数据做出处理和进行分类的优秀论文。下面简单介绍一下这篇论文中和聚类分析有关的部分。简单分析:简单分析:?此问题是一个离散优化设
31、计问题?问题解决的关键是如何对问卷调查已经采集的相关数据进行处理?根据选用的数学方法从数据中提取相关信息和指标 2005 温州 48 优秀论文思路:优秀论文思路:?对所给数据用统计学方法进行处理,得出观众在出行、用餐和购物等方面的规律?提出消费人流量和消费额的概念并提取得到了相关数据?在分析了消费人流量和消费额的相关性以后,认为两者是相关的?利用聚类分析的方法对商区消费额进行聚类,把商区按消费额分成四类或者三类?用人流量的指标对分类结果进行适当调整?最后建立了整数规划模型,求得到 20 个商区内 MS 网点分布的具体方案 2005 温州 49 从采集到的相关数据,最后提取得到的 20 个商区日
32、消费额如下:游泳中心C1 C2 C3 C4 消费额 2677799 2772803 2677799 7937990 国家体育馆 B1 B2 B3 B4 B5 B6 消费额 3174513 2516111 4603797 2516111 3174513 8115546 国家体育场A1 A2 A3 A4 A5 消费额 5483743 2600470 2592235 3031304 4027143国家体育场A6 A7 A8 A9 A10 消费额 10180737 4027143 3031304 2592235 2600470 2005 温州 50 对这组数据利用统计软件进行单变量聚类,得到 MS 的
33、分类,具体分为几类可讨论,在每类中各个商业区中超市的分布是相似的。从分类图中可得具体的分类结果(按 C1C4,B1B6,A1A10次序排列)(1)分为四类:第 1 类(13)第 2 类(4)第 3 类(2)第 4 类(1)分类结果 1,2,3,5,6,8,9,12,13,14,18,19,20 7,11,15,174,10 16 (2)分为三类:第 1 类(13)第 2 类(4)第 3 类(2)分类结果 1,2,3,5,6,8,9,12,13,14,18,19,20 7,11,15,174,10,16 2005 温州 51 20个MS分类冰柱图0100200300400500600700800
34、C_16C_10C_4C_11C_17C_15C_7C_18C_14C_9C_5C_19C_13C_20C_12C_8C_6C_2C_3C_1 在此分类的基础上,引入第 i 类期望人流量,建立了一个整数线性规划模型,求解该模型,得到了具体的 MS 网点设计方案。2005 温州 52 随机模拟 主要介绍蒙特卡罗(monte carlo)方法。蒙特卡罗(monte carlo)方法,又称随机抽样或统计试验方法。优点:可以比较真实地模拟实际过程,从而弥补传统的经验方法不能逼近真实的实际过程这一缺陷。在实际问题中我们往往要进行模拟的是一系列随机现象,也就是随机变量的模拟,而随机变量的模拟是通过计算机产生随机数来实现的。2005 温州 53 一篇完整的优秀建模论文往往不只是单单一种数学方法的使用,而是需要多种数学思想、方法和工具的综合运用。我们知道都数学建模及数学建模竞赛是一种综合能力的体现,我们在对学生进行培训时应该特别注意这种能力的培养。上面介绍的只是在数学建模过程中与概率统计有关的部分内容的应用,主要是从应用角度出发讨论的,重在用,相关的理论知识还需参考有关文献资料。2005 温州 54 谢 谢!