《2022年概率统计模型 .pdf》由会员分享,可在线阅读,更多相关《2022年概率统计模型 .pdf(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概率统计模型自然界中存在两种现象:确定性现象和不确定性现象同一实验或者试验在不同次重复中,可能出现不同的结果的现象称为随机现象 随机现象的结果尽管是不确定的,但是,同一随机现象的多次重复却表现出某种规律性,即同一事件在不同次试验或者实验中出现的概率是确定的、唯一的因此,随机现象中包含确定性现象对随机现象的研究可以通过对随机现象的某些事件的发生概率来研究变量之间也存在两种关系:确定性关系和不确定性关系确定性关系:可用一个表达式确切描述,如圆的面积与半径之间的关系描述确定性关系的数学模型有函数,微分方程,差分方程等不确定性关系:不可用一个表达式确切描述,如人的体重与身高等不确定性关系在现实生活中大
2、量存在,即使许多看来是确定性关系的变量,在实际中也会受到各种不同随机因素的影响而变得不确定,确定性关系只是它们的一种近似,如自然科学的很多规律本章主要介绍利用概率统计知识分析随机现象和随机数据,建立随机模型,求解随机模型,并对得到的结果进行分析,最后运用于实际第一节介绍几个直接利用概率知识的建模问题,如赌博问题,巴拿赫(Banach)火柴盒问题,信与信封的配对问题,切割机的收益问题;第二节回归分析模型,主要介绍施肥效果分析问题;第三节判别分析模型,主要介绍螨虫分类问题;第四节时间序列分析,主要介绍Chesapeake 海湾的收成预测问题;第五节随机模拟模型,主要介绍利用随机模拟方法产生随机数据
3、及模拟随机现象的方法;第六节排队论模型,主要介绍用排队论的方法分析,处理等候问题通过以上这些模型和方法的学习,使读者了解和掌握一些处理随机问题的一般思想和方法,如果读者想进一步学习和了解随机数学的专业理论与方法,可阅读随机数学的一些分支的专门著作,如:随机过程,时间序列分析,回归分析,多元统计分析等名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 30 页 -4-1 几个直接利用概率知识的建模问题对随机现象的研究可以通过对随机现象的某些事件的发生概率来研究本节就来介绍几个概率模型,主要利用的基本知识就是古典概率模型的概率计算及其相关问题,随机变量的概率分布及其计算可以参看任意一本大
4、学理工科的概率论与数理统计教科书7,也可以参考周义仓、赫孝良两位老师编写的教科书6问题描述问题 1:赌博问题均匀正方体骰子的六个面分别编号1,2,3,4,5,6现将一对骰子抛掷6 次以决定胜负,请问将赌注押在“出现两个点”和“完全不出现两个点”哪个更有利?问题 2:巴拿赫(Banach)火柴盒问题波兰数学家巴拿赫随身带着两盒火柴,分别放在两个衣袋里,每盒有n 根火柴使用时,每次随机地从其中一盒中取出一根试求他将一盒火柴用完时,另一盒剩余火柴根数的分布律问题 3:信与信封的配对问题某人给它的 N 个朋友写信,写好后,分别将这些信装入N 个信封中,并在信封上随机、不重复地写上N 个收信人的地址 问
5、他一个都没写正确和恰有r 个写正确的概率各是多少?问题 4:切割机的收益问题3一台线切割机把金属线切割成规定的长度由于切割机的某种不准确性,切割线的长度X 可以看作是在区间11.5,12.5上的均匀分布的随机变量规定的长度是 12cm如果 11.712.2X,该种线能卖出去而获利润0.25元如果12.2X,可以重切,并且最后得到0.10元的利润,而如果11.7X,则以 0.02元的损失丢弃试计算:如果切割N 段金属线,那么,请估计平均每根金属线为老板贡献的利润是多少?问题求解1.问题的求解问题是一个古典概率模型的概率计算问题解决这样的问题的关键就是事件的表示 为此,我们令kiA分别表示第 i
6、次抛掷骰子时第k枚骰子(1,2k)名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 30 页 -出现点的事件那么,在第i 次抛掷中,两枚骰子都出现点的事件iA表示为12iiiAA A(4.1.1)而 6 次抛掷中至少出现一次两个点的事件B 可以表示为6121iiiBA A(4.1.2)这样,事件 B 的对立事件是661211iiiiiBAAA(4.1.3)所以1P BP B(4.1.4)由于事件12,1,2,3,4,5,6iiAAi相互独立,于是有6111iiP BP BP A(4.1.5)而212125553566636iiiiiP APAP AP AP A所以661351110
7、.155536iiP BP BP A(4.1.6)这样,出现两个一点的概率是0.1555,大大小于完全不出现两个一点的概率0.8445因此,应将赌注押在完全不出现两个一点上2.问题 2 的求解设巴拿赫总共取出的火柴根数为Z,而分别来自于两个火柴盒,设从左右口袋的两个火柴盒中分别取出的火柴根数分别是,X Y,于是ZXY(4.1.7)而用 U 表示总共剩余的火柴根数,于是,UkXk YnYk Xn(4.1.8)那么,我们要计算的随机变量U 的分布列设巴拿赫发现左口袋火柴刚好取完时,右口袋里还剩Yk根火柴,因此,右口袋已经被取了nk根这样,当巴拿赫首次发现左口袋没有火柴时,已经进行了2nknnk次随
8、机试验在这2nk次试验中,事件A,即火柴取自左口袋出现了n 次,事件A,即火柴取自右口袋出现了nk次对右口袋先取完,我们又类似的讨论这样,这个名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 30 页 -问题实际上是一个二项分布的概率计算问题于是2222,|111111112222221,0,1,2,2nknnknnnnknknknnkP UkP Xk YnP Yk XnP Xk Yn P YnP Yk Xn P XnCCCkn(4.1.9)3.问题 3 的求解经过分析,问题相当于将N 封写好的信放到写着正确地址的信封问题要求,计算所有的信都没有正确放到该放的信封的事件的概率,以及
9、计算恰有r封信正确放到该放的信封的概率这是一个古典概型问题我们分别用,rA B表示没有正确放到该放的信封的事件以及恰有r 封信正确放到该放的信封的事件用iA表示第 i 封信能正确放对信封的事件,1,2,iN,那么12NAA AA(4.1.10)这里特别要注意:1,NAA不是相互独立的,而事件121rrNiiiiiA AA AA是互不相容(12,Niii是1,2,N的一个排列)的 因此,不能利用下式计算概率P A12NP AP AP AP A(4.1.11)但是,注意到公式111NiiP AP APA(4.1.12)而111,1,1,1,1,1,1112112311|1|.1111111112N
10、NNNNiiijijkNii jiji j kijkiNNijiijikiji jiji j kij kNNNNNNPAP AP A AP AA AP AANP A P AAP A P AAP AA ANP AP AA AACCNNNNN11111111!kNkNNk(4.1.13)名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 30 页 -所以,由(4.1.12),有01!kNkPAk(4.1.1)用rC表示恰好指定的r 封信装对信封,则由乘法原理,rB中的样本点数为(这里()rn B和()rn C分别是事件,rrBC的基本事件个数,或称样本点数)rrNrn BC n C(4.
11、1.15)而!rrrrNn Bn CP BCNN(4.1.16)根据前面的分析和结论,有01!kNrrkP Ck(4.1.17)而由古典概率的计算公式,有01!kNrrrkn CP CkNr(4.1.18)于是,得到01!kNrrkn CNrk(4.1.19)011,0,1,2,!kNrrkP BkNrk(4.1.20)4.问题 4 的求解我们只要知道了在三类区间的线段的数目,就可以计算出总的收益设长度在区间 11.712.2X、区间12.2X和区间11.7X上的切割线的数目分别是,pglNNN,而总数目为N,则pglNNNN(4.1.21)如果总利润是I,那么平均每根金属线的利润为0.250
12、.100.02pglNNNIwNNNN(4.1.22)我们知道,,pglNNNNNN分别是随机变量X 落在如上三个区间的频率,而频率具有稳定性,当N 充分大时,频率近似等于相应的概率值,即名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 30 页 -12.211.712.512.211.711.5111.711.20.512.5 11.5112.20.312.5 11.5111.70.212.5 11.5pglNPXdxNNP XdxNNP XdxN所以,平均来说,单根金属线的利润为0.25 0.50.10 0.30.02 0.20.151w(元)(4.1.23)研究性问题4-2-
13、1 供电问题:设某车间有200 台车床相互独立地工作,由于经常需要维修、测量、调换刀具、变换位置等种种原因要停车若每台车床有60%的时间在开动,而每台车床在开动时要耗电1KW,问应供给这个车间多少电力才能保证在 h 生产中大约仅有0.5min 因电力不足而影响生产?4-2-2 钓鱼问题:为了估计湖中鱼的数量,先从湖中钓出r条鱼做上记号,并放回湖中过一段时间后再从湖中钓出S条鱼,结果发现其中有x 条鱼标有记号问应该如何估计湖中鱼的数量N4-2 农作物施肥量与产量的关系问题描述某地区农作物生长所需的营养素主要是氮(N)、磷(P)、钾(K),农作物研究所在该地区对土豆与生菜做了一定数量的实验,实验数
14、据如表4.2.1,其中:ha表示公顷,t 表示吨,kg 表示公斤当一个营养素的施肥量变化时,将另二个营养素的施肥量保持在第七水平,如对土豆关于N 的施肥量做实验时,P与 K 的施肥量分别取196kg/ha(第七水平)与 372kg/ha(第七水平)表 4.2.1 施肥量与产量实验数据土豆N P K 施肥量(kg/ha)产量(t/ha)施肥量(kg/ha)产量(t/ha)施肥量(kg/ha)产量(t/ha)0 15.18 0 33.46 0 18.98 34 21.36 24 32.47 47 27.35 名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 30 页 -67 25.72
15、 49 36.06 96 34.86 101 32.29 73 37.96 140 38.52 135 34.03 98 41.04 186 38.44 202 39.45 147 40.09 279 37.73 259 43.15 196 41.26 372 38.43 336 43.46 245 42.17 465 43.87 404 40.83 294 40.36 558 42.77 471 30.75 342 42.73 651 46.22 生菜N P K 施肥量(kg/ha)产量(t/ha)施肥量(kg/ha)产量(t/ha)施肥量(kg/ha)产量(t/ha)0 11.02 0 6
16、.39 0 15.75 28 12.70 49 9.48 47 16.76 56 14.56 98 12.46 93 16.89 84 16.27 147 14.33 140 16.24 112 17.25 195 17.10 185 17.56 168 22.59 294 21.94 279 19.20 224 21.63 391 22.64 372 17.97 280 19.34 489 21.34 465 15.84 336 16.12 587 22.07 558 20.11 392 14.11 685 24.53 651 19.40 试建立模型分析施肥量与产量的关系,并对所得结果从应用
17、价值与如何改进等方面作出分析问题分析农作物的产量与施肥量之间存在密切的关系,但很难用一个确定的函数关系来表达,故可考虑用回归分析方法来研究其相关关系,建立回归方程近似描述产量与施肥量之间的相关关系.模型假设1.实验中,只考虑施肥量对农作物产量的影响,其它因素:如温度,湿度,其它微量元素的含量,均处于相同水平,不预考虑.2.各次实验相互独立,结果互不影响,观测误差独立同分布,服从20,0N,N,P,K 的用量可精确控制,误差忽略不计.名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 30 页 -变量及符号说明n:实验总次数,本问题中为10.1iQ:对土豆而言,第i 次实验的产量,1,
18、2,in2iQ:对生菜而言,第i 次实验的产量,1,2,in1NiQ:对土豆而言,与1iN对应的第 i 次实验的产量,1,2,in1PiQ:对土豆而言,与1iP对应的第 i 次实验的产量,1,2,in1KiQ:对土豆而言,与1iK对应的第 i 次实验的产量,1,2,in2 NiQ:对生菜而言,与2iN对应的第 i 次实验的产量,1,2,in2PiQ:对生菜而言,与2iP对应的第 i 次实验的产量,1,2,in2KiQ:对生菜而言,与2iK对应的第 i 次实验的产量,1,2,in1iN:对土豆而言,第i 次实验的 N 的用量,1,2,in2iN:对生菜而言,第i 次实验的 N 的用量,1,2,i
19、n1iP:对土豆而言,第i 次实验的 P的用量,1,2,in2iP:对生菜而言,第 i 次实验的 P 的用量,1,2,in1iK:对土豆而言,第i 次实验的 K 的用量,1,2,in2iK:对生菜而言,第i 次实验的 K 的用量,1,2,in.模型建立1.先对实验数据,作出散点图,直观分析产量与施肥量的变化趋势及关系.从散点图来看,三种营养素的施肥量与产量之间存在非线性关系,尤其,氮肥的施用量与产量之间存在明显的二次关系,故可考虑建立三种营养素的施肥量与产量之间的一元二次回归模型名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 30 页 -2.三种营养素的施肥量与产量之间的一元二次
20、回归模型21101111211,1,2,NiiiNiQaa Na Nin21101111211,1,2,PiiiPiQbb Pb Pin21101111211,1,2,KiiiKiQcc Kc Kin22202112212,1,2,NiiiNiQaaNaNin22202112212,1,2,PiiiPiQbb Pb Pin22202112212,1,2,KiiiKiQcc Kc Kin对上述模型,由已知实验数据,利用Mathematica软件编程计算可得回归方程但是,考虑到作物的产量是各种营养素综合作用的结果,而以上建立的仅仅是一元回归模型,故须对模型进行改进3.包含所有变量的全回归模型210
21、11111121111111iNiPiKiNNiNPiiNKiiPPiPKiiKKiiQaa Na Pa KaNaN PaN KaPaP KaK由全回归模型的求解结果(如表 4.2.7)及残差可看出,残差均匀分布在零点两侧,无系统偏差,模型基本合适但注意到,作物产量受各种营养素的影响不是同样的,且营养素两两之间的交互作用对产量的影响也不是同等的,故需对变量进行选择,进行逐步回归4.逐步回归模型利用 MA TLAB 中的逐步回归函数stepwise 对变量进行逐步回归,回归结果表明:对于土豆,首先进入模型的是N 与 K 的交互作用项,其次是NN 项;对于生菜,首先进入模型的是P,其次是 NN 项
22、模型求解对以上三个模型的求解,采用MATLAB 软件进行结果如下:名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 30 页 -1.一元回归模型的结果及分析对土豆而言,N的施肥量与产量的回归方程系数:表4.2.2 常数项一次项二次项14.7416 0.1972 0.0003 对土豆而言,P的施肥量与产量的回归方程系数:表4.2.3 常数项一次项二次项32.9161 0.0719 0.00013783 对土豆而言,K的施肥量与产量的回归方程系数:表4.2.4 常数项一次项二次项24.4144 0.0749752 7*10(-5)对生菜而言,N的施肥量与产量的回归方程系数:表4.2.5
23、 常数项一次项二次项79.2501 3.516472 0.0106883 对生菜而言,P的施肥量与产量的回归方程系数:表4.2.6 常数项一次项二次项6.87795 0.0606347 5.5*10(-5)对生菜而言,K的施肥量与产量的回归方程系数:表4.2.7 常数项一次项二次项16.2329 0.00511548 7.2*10(-7)以上一元回归模型结果表明:二次项系数较小且为负值,说明产量先随施名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 30 页 -肥量增加而增加,达到一个峰值,然后,随施肥量增加而下降说明,在一定范围内,施肥量对产量有促进作用,这对我们在生产管理中,
24、科学、有效、经济地确定施肥量具有指导意义2.对土豆的全回归模型的结果及分析表4.2.8 常数项一次项交互作用项二次项N P K NP NK PK NN PP KK 15.2093 0.0749752 0.0265478 0.0284431 0.000222494 0.000173897 0 000 325779 0.00017 1209 0.000067809 结果表明:一次项系数由大到小依次是N,K,P,交互作用项依次是NP,NK,说明我们在生产管理中,不但要重视每中肥料的单独作用,还要充分重视肥料间的交互作用,这样才能在生产中充分发挥肥料对产量的促进作用3.逐步回归模型的结果对于土豆,首先
25、进入模型的是N 与 K 的交互作用项,其次是NN 项;对于生菜,首先进入模型的是P,其次是NN 项回归结果表明,对土豆等块茎类作物,NK的交互作用对作物的生长起显著作用,对生菜等叶类作物,P 的作用非常显著,其次,N 的作用对各种作物都是重要的得到的结果符合作物栽培学原理与实际经验研究性问题以上是从产量的角度考虑其与施肥量的关系对此问题,还可以从经济学的角度考虑以下问题:1.研究产量与肥料用量的变化关系,确定各种肥料的边际用量;2.考虑到各种肥料的成本不同,为了达到最大效益,确定各种肥料用量的最佳组合4-3 AF 螨虫和 APF 螨虫的区分问题问题描述现有 9只 AF 螨虫和 6 只 APF
26、螨虫的触角长与翼长数据:AF:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 30 页 -(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08)APF:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96)对以上数据,制定一种方法正确区分螨虫;依据确立的方法,判别新样品(1.4,1.80),(1.28,1.84),(1.40,2.04
27、)的归属;若AF 是宝贵的益虫,APF是某疾病的载体,是否修改分类方法问题分析此问题属于判别分析问题,即根据样本的指标(螨虫的触角长与翼长),建立判别规则,来判断样本来自哪个总体(AF,APF)判别分析的一般模型可这样描述:设有k个总体12,kG GG,它们的分布分别是12,FxFxkFx,均为p维分布,制定判别规则,对给定的新样品,确定它来自哪个总体判别分析的方法有很多,如距离判别,Bayes 判别,Fisher 判别等这里,我们采用距离判别模型假设1.两种螨虫的触角长与翼长服从二维正态分布211,N,222,N,1212,;2.判别时仅考虑触角长与翼长两项指标,不考虑其它指标模型建立设AF
28、螨 虫 为 总 体1G,APF螨 虫 为 总 体2G,1211,GN,2222,GN1.首先对两总体的均值进行显著性检验,即检验:12,当其有显著性差异时再进行判别2.给出样品 X 到总体iG的距离(这里采用马氏距离)21,1,2iiiidXXi3.建立判别函数及判别规则判别函数为2221W Xdd判别规则为1200WXXGW XXG若,则若,则模型求解1.首先,对两总体的均值进行显著性检验,即检验:12,利用 MATLAB软件统计工具箱中的kstest2 函数检验两总体分布是否相同,利用ttest2 检验均名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 30 页 -值是否相同
29、,检验结果表明:两总体分布相同,均值存在显著性差异,故可继续进行判别2.利用已知样本数据,计算判别函数值由于两总体均值与方差未知,采用极大似然估计,即1?,1,21iiiixxiXLin最终的判别函数为:1212,2.935829.1128190.293W x xxx 对最初的两类样本,代入,回判结果如下:表 4.3.1 样本序号样本值原属类别判别函数值判定类别1(1.24,1.72)AF 0.433676 AF 2(1.36,1.74)AF 3.54663 AF 3(1.38,1.64)AF 6.03181 AF 4(1.38,1.82)AF 2.60654 AF 5(1.38,1.90)A
30、F 1.08419 AF 6(1.40,1.70)AF 5.47231 AF 7(1.48,1.82)AF 5.51782 AF 8(1.54,1.82)AF 7.26459 AF 9(1.56,2.08)AF 2.89922 AF 10(1.14,1.78)APF-3.61936 APF 11(1.18,1.96)APF 5.88012 APF 12(1.20,1.86)APF 3.39494 APF 13(1.26,2.00)APF 4.31227 APF 14(1.28,2.00)APF 3.73002 APF 15(1.30,1.96)APF 2.38659 APF 对新样品的判别结果
31、:表 4.3.2 名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 30 页 -样本序号样本值判别函数值判定类别16(1.4,1.80)3.56938 AF 17(1.28,1.84)0.685328 APF 18(1.40,2.04)0.997652 APF 结果分析对制定的判别函数及判别规则,用已知的经验样本进行计算,验证,结果表明,回判正确率100%,判别规则及方法有效研究性问题在判别分析中,应考虑误判损失,若AF 是宝贵的益虫,APF 是某疾病的载体,则本属于 APF 而误判为 AF 的损失要大于本属于AF 而误判为APF 的损失,则应提高进入AF 的阀值(即判别样本落入
32、某一类的判别函数临界值,如以上判别样本属于AF 的阀值为 0)4-4 Chesapeake 海湾的收成预测问题时间序列分析的方法来源人们对生产实践中所产生的历史数据的分析人们期望通过这些数据获得对未来某个较近时间的数据的估计一般地,我们所得到的数据可以写为下面的数据序列1122,nnx yxyxy(4.4.1)这里,ix是 n 维向量,iy实值标量我们可以这样想象:历史数据(4.1.1)是按照某种具有固定生产程序的机器所产生,对于同一个x,所对应的 y 是按照一个条件分布密度函数|f t x(4.4.2)产生的,因而y 的期望值为|ytf t x dtx(4.4.3)因此,从理论上,我们要寻找
33、的依赖关系应当是这个函数关系(4.4.3)这个函数关系称为回归函数我们的目的是借助于概率统计的方法给出实值变量y 与 n维向量 x 之间的回归函数或者估计,并且给出这个函数或者估计的误差限寻找这样的函数关系或者估计的方法是较多的时间序列预测4,8的一些方法:如回归估计、平稳名师资料总结-精品资料欢迎下载-名师精心整理-第 14 页,共 30 页 -时间序列的滑动平均、自回归、自回归滑动平均模型、Markov 链等可以用来处理预测预报问题,也可以使用现代基于支持向量机5-6的非参数统计的线性回归或非线性回归的方法本节将利用一般的基于最小二乘法的参数回归估计方法、以及基于支持向量机回归的非参数统计
34、学习等方法来解决Chesapeake 海湾的收成预测问题,并主要介绍非平稳时间序列的预测问题在这里我们不过多地拘泥于理论的陈述,具体的细节,请读者参阅相关资料问题描述1992 年 每日评论(Daily Press)报告了过去50 年中收集到的Chesapeake海湾海产品收成方面的数据我们将考察几种场合,并使用 Chesapeake海湾的商贸行业提供的如下数据:(a)收获蓝鱼的观测数据表4.4.1,(b)收获蓝蟹的观测数据表4.4.1,回答下面两个问题:问题 1:请预测 1995 年收获的蓝鱼磅数;问题 2:请预测 1995 年收获的蓝蟹磅数表 4.4.1 Chesapeake海湾海产品收成方
35、面的数据11年蓝鱼(磅)蓝蟹(磅)年蓝鱼(磅)蓝蟹(磅)1940 15000 100000 1970 290000 4400000 1945 15000 850000 1975 650000 4660000 1950 250000 1330000 1980 1200000 4800000 1955 275000 2500000 1985 1500000 4420000 1960 270000 3000000 1990 2750000 5000000 1965 280000 3700000(注1 磅 453.6g)问题分析直观上,这不是一个平稳时间序列因此,我们不能采用处理平稳时间序列的模型8进
36、行预测但是,我们可以使用多项式回归估计的方法另外,我们也可以使用支持向量机回归9,10的方法来解决问题1 和问题 2.因为,支持向量机的方法对于具有小样本的数据估计问题也具有很好的效果由名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 30 页 -这样,我们就可以采用相应的方法,分别求解这两个问题模型假设(1)假设对于固定的年度x 所收获的两类海产品都是按照一定的概率密度函数产生的(2)在未来的年度,这样的统计规律也不发生太大的变化模型建立为了能够对问题的中数据变化趋势有一个清楚地直观感觉,我们将这些数据用 Excel 画在坐标系中进行观察可以看出,我们不能用线性回归的方法来求解
37、下面,根据我们刚才的分析,首先采用多项式回归的方法来建模,然后再用支持向量机回归的方法来建模模型 1 为了讨论问题的方便,我们对年度重新编号为1211,x xx,另外,给蓝鱼和蓝蟹分别编号为1,2我们采用五次多项式回归估计(当然,可以采用其它阶数的回归多项式)设回归函数的近似形式是如下kJ次多项式0,1,2kJkjjjyaxk(4.4.4)模型 2 由于这里的数据较少,用支持向量机回归的方法是最合适的就是要寻找一个回归函数*1,1,2klkkkkkxjjjjyKx xbk(4.4.5)名师资料总结-精品资料欢迎下载-名师精心整理-第 16 页,共 30 页 -这里,kl是第k类海产品的样本数,
38、12,Kxx是称为核函数,其选择方法可以参考文献 9-10,这里,我们选择径向基核函数212212,xxKxxe(4.4.6)而*,1,2,1,2,11kkjjkj都是非负数,其意义见参考文献10 其中,*,1,2,1,2,11kkkjjbkj是下面优化问题的最优解*,1*11*1*1min,2.00,1,2,1,2,klliikkklkkkkiijjijRRi jllkkkkiiiiiiilkkiiikkiikkK x xystCki jll(4.4.7)是事先选定的一个正数,它确定了回归函数(4.4.5)与样本函数的差别大小详细的思想请参看文献9,10我们选定的支持向量方法是解决模式识别和
39、回归估计问题的通用方法,是建立在三大统计定律上的现代非参数统计学习方法(见文献9,10)我们不需要回归函数或者识别函数的太多的信息,只要这些数据就可以了,算法会将包含在数据中的信息提取出来而用于预测或者模式识别这种方法对于小样本问题同样适用模型求解模型的求解我们关键是如何选择,1,2,1,2kjkajJk显然,最小二乘法的思想是一个不错的选择建立下面的最优化问题2,0,1,01min,1,2klkkkjJkLktajjJljljykat(4.4.8)根据极值的必要条件,我们得到,回归多项式满足的代数方程为011,0,1,1,2kkkJLLkijijlllkjllatytiJk(4.4.9)我们
40、通过 MATLAB 编程,运行后,得到蓝鱼和蓝蟹的预测多项式分别是23454.84246.89842.44240.40360.03250.0012yxxxxx(4.4.10)23451.17291.75720.63320.16140.01750.0006yxxxxx(4.4.11)用指数函数和多项式拟合的方法,可以得到蓝鱼和蓝蟹的预测公式分别是名师资料总结-精品资料欢迎下载-名师精心整理-第 17 页,共 30 页 -5.28571 1.4635,1,2,11,xyx(4.4.12)1583440,1,2,11,.yx x(4.4.13)将原始数据与预测值分别画在同一坐标系中,可以观察到一些现
41、象结果发现,用多项式预测具有随机波动的数值具有很大的偏离实际问题的本意(如对蓝蟹的多项式预测函数),在后面的时段的预测效果可能让人难以接受,即对于长期预测的效果可能比较差但是对于短期的预测效果还是比较好的为此,我们可以采用用于处理预测的当前的流行方法,即基于支持向量机的回归预测的方法9,10这就是我们采用模型2 的原因之一模型 2的求解模型 2 涉及一个高级的模式识别和回归估计的方法9-10 我们直接求解优化问题,并将上述的两种方法预测的结果与支持向量机回归预测得到结果进行比较(图4.4.2 和图 4.4.3)对蓝鱼得到的预测函数(核函数中选择的25.0000002)是123357891011
42、63.60 123.28,172.68,236.90,186.13,145.70,109.91,265.79,278.76,227.47,64.44,yKx xK x xK x xKx xK x xK x xKx xKx xK x xKx x(4.4.14)对蓝蟹得到预测函数(核函数中选择的25.6)为157910115.20834.9843,2.1754,0.5785,0.3656,0.8640,0.6628,yKx xKx xKx xKx xKx xKx x(4.4.15)名师资料总结-精品资料欢迎下载-名师精心整理-第 18 页,共 30 页 -名师资料总结-精品资料欢迎下载-名师精心整
43、理-第 19 页,共 30 页 -结果分析从图 4.4.2 和图 4.4.3,我们清楚地发现,本文对于蓝蟹的多项式预测公式对原数据的拟合显然优于文献11的根式函数的预测结果我们在实际问题中应该尝试使用不同次幂的回归多项式,以达到最佳的拟合通过尝试我们发现3 次多项式回归可能要更好点同学们通过自己编程,体验研究的乐趣对于蓝鱼模型和蓝蟹模型,我们得到的预测结果画在图4.4.5 中结果分析从图 4.4.4 和图 4.4.5可以看出,支持向量机回归的方法得到的结果最好,对于本问题来说,多项式回归预测的方法不比文献11的方法好但是,如果选择合适的多项式的次数,也许会得到较好的预测,希望有兴趣的同学试试对
44、于没有支持向量机理论和方法的大学生来说,基于最小二乘法的多项式回归还是比较合适的 当然,有兴趣的同学可以参看文献9-10学习支持向量机的理论和方法研究性问题读者可以尝试选择合适的回归多项式的阶使得预测更合理,或者根据观察的数据散点图,选用你认为更好的函数类型进行拟合能否依据所给数据采用微分方程建模方法求解预测问题,或者利用最近几次历史数据值或预测值,预测以后较近时段的数据这些都是非常有意思的问题你会从中体会到研究的乐趣名师资料总结-精品资料欢迎下载-名师精心整理-第 20 页,共 30 页 -4-5 随机模拟问题对于研究对象的数量关系过于复杂或提出的解释性(定性或定量)模型难以处理时,研究者很
45、难得到一个能充分说明问题的符号分析模型,但又必须对研究对象的行为(随机依赖关系或者确定性关系)做出预报时,研究者可以在某种给定条件下进行多次重复的实验来收集数据,以获得这样的随机依赖关系这种方法称为随机模拟方法7,11前面对于变量之间的随机依赖关系的预报是直接利用给定数据,采用某种对回归函数的近似估计来实现的但是,在没有这些数据情况下,我们只能采用模拟实验的方法在许多实际问题中,具体地进行实验来获得所需要数据是不切实际的比如,为了确定人类对某种药物的敏感性,我们可以用小白鼠或者猴子进行模拟试验;为了能够获得人体各个器官对失重环境的适应性,我们可以进行模拟太空失重环境;为了测试电梯的某种运行方式
46、是否合理(如停偶数上层还是停奇数层),我们不能在各种运行方式下进行多次实验,这样对顾客多有惊扰这里的几个例子,前两个是可以有替代的试验对象,后一个则没有在这样的情况下,我们必须设计出能够模拟实际环境或者条件的理论上的模拟仿真实验,来分析研究对象的随机依赖关系或者确定性关系这里介绍的前两个例子也是模拟,它们是一种真实环境的模拟而后者是借助于计算机仿真的模拟,这种模拟方法通常称为蒙特卡洛(Monete Carlo)方法这里仅介绍这种方法蒙特卡洛(Monete Carlo)方法分为确定性行为模拟和随机行为模拟我们分别举例说明问题 1:曲线下的面积计算确定性问题问题描述我们要计算由曲线(),yf xx
47、a b与直线 xa、xb以及 x 轴所围成的曲边梯形的面积A11,如图 4.5.1模型的建立所求的面积为()baf x dx(4.5.1)这个面积可以通过下面的分析给出求解的近似公式:在矩形,;,a b Q M中随机产生点,P x y(通过产生随机数来获得,x y),统计出落在曲线下方的随机点名师资料总结-精品资料欢迎下载-名师精心整理-第 21 页,共 30 页 -数fN与落在整个矩形区域的随机点数,;,a b Q MN,它们的比值应当近似地等于曲边梯形的面积fS与矩形的面积,;,a b P MS,即,;,;,ffa b QMa b Q MSNSN(4.5.2)所以,;,;,a b Q Mf
48、fa b Q MSNSN(4.5.3)这里,,maxxa bMfx 问题 1求解我们采用如下的方法产生1xa ttb;yMt(4.5.4)这里,t 为0,1区间均匀分布的随机数然后,按照下面的程序进行模型的仿真试验,最后得到问题的求解蒙特卡洛计算面积的方法输入模拟中产生的随机点数,;0,a bMN输出曲边梯形的面积fS近似值第一步初始化计数器0counter;第二步对,;,1,2,a b P MiN,进行第三到第五步第三步计算随机坐标,iix y满足;0iiaxbyM第四步对随机坐标ix计算ifx第五步如果iiyfx,则1countercounter名师资料总结-精品资料欢迎下载-名师精心整理
49、-第 22 页,共 30 页 -第六步根据公式(4.5.3)计算曲边梯形面积的近似值下面我们给出sinxfxx在区间0,上对应的曲边梯形的面积,得到的蒙特卡洛近似值序列(如表4.5.1)表 4.5.1 区间0,上曲线sin xf xx下的面积的蒙特卡洛近似点数面积近似值点数面积近似值100 1.5708 2300 1.8740 200 1.7593 2400 1.8247 300 1.7593 2500 1.8297 400 1.9478 2600 1.7955 500 1.7090 2700 1.8431 600 2.0420 2800 1.9141 700 2.1183 2900 1.80
50、26 800 1.8692 3000 1.8221 900 1.8361 3100 1.8606 1000 1.8598 3200 1.7907 1100 1.9192 3300 1.8240 1200 1.8483 3400 1.7926 1300 1.8173 3500 1.9334 1400 1.9927 3600 1.8780 1500 1.8891 3700 1.9019 1600 1.7318 3800 1.8651 1700 1.8923 3900 1.8431 1800 2.0176 4000 1.8598 1900 1.8023 4100 1.8543 2000 1.8473