统计分析模型.pdf

上传人:asd****56 文档编号:69694536 上传时间:2023-01-07 格式:PDF 页数:10 大小:88.83KB
返回 下载 相关 举报
统计分析模型.pdf_第1页
第1页 / 共10页
统计分析模型.pdf_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《统计分析模型.pdf》由会员分享,可在线阅读,更多相关《统计分析模型.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 1第十一讲 统计学建模方法 一、回归分析方法“回归”问题最早来源于生物界,英国生物学家兼统计学家高尔顿(Galton,1822-1911)发现同一种族中儿子的平均高度介于其父亲的高度与种族平均高度之间。儿子的身高有返归于种族平均身高的趋势,即回归于种族的平均身高。回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法。回归分析的分类:按照回归模型中变量个数分(一元回归,多元回归);按照回归曲线的形态分(线性回归,非线性回归);按照是否要求总体分布类型已知分(参数回归,非参数回归)一元线性回归特点?两个变量中,一个是自变量,一

2、个是因变量?回归方程不是抽象的数学模型,而随机方程,可以进行实证?因果关系不明显时,应同时作两个回归方程?回归系数具有较强的经济含义?作为回归模型的因变量是随机变量,而自变量是确定性变量,即可控变量 1一元线性回归模型一元线性回归模型 一般地,称由+=xy10确定的模型为一元线性回归模型,记为 =+=210,0DExy 其中固定的未知参数0,1称为回归系数,自变量x也称为回归变量,xY10+=称为y对x的回归直线方程。一元线性回归分析的主要任务 1用试验值(样本值)对0,1和作点估计;2对回归系数0,1作假设检验;3在0 xx=处对y作预测,对y作区间估计。回归系数的最小二乘估计回归系数的最小

3、二乘估计 有n组独立观测值,niyxii,2,1),(L=。设=+=相互独立且,niiiiDEnixy.,0,.,2,1,21210 记()=niiiniixyQQ12101210),(。最小二乘法就是选择0和1的估计0,1使得),(min),(10,1010QQ=。计算得到 2=22110 xxyxxyxy 其中=niiniiynyxnx111,1,=niiiniiyxnxyxnx11221,1。(经验)回归方程为:)(110 xxyxy+=+=。记()=niniiiiieyyxyQQ11221010)(),(,称eQ为残差平方和或剩余平方和。2的无偏估计为 )2(2=nQee。回归方程的显

4、著性检验回归方程的显著性检验 对回归方程xY10+=的显著性检验,归结为对假设0:;0:1110=HH进行检验。假设0:10=H被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。F 检验法:当0H成立时,)2,1()2/(=nFnQUFe,其中()=niiyyU12(回归平方和)。若)2,1(1nFF,拒绝0H,否则就接受0H。回归系数的置信区间回归系数的置信区间 0和1置信水平为1的置信区间分别为 +xxexxeLxnntLxnnt221022101)2(,1)2(和 +xxexxeLntL

5、nt/)2(,/)2(211211;2的置信水平为1的置信区间为 )2(,)2(22221nQnQee。预测预测 用0y的回归值0100 xy+=作为0y的预测值。0y的置信水平为1的预测区间为 3)(),(0000 xyxy+,其中()xxeLxxnntx2021011)2()(+=。特别,当n很大 且0 x在x附 近 取 值 时,y的 置 信 水 平 为1的 预 测 区 间 近 似 为 +2121,uyuyee。2可线性化的一元非线性回归(需要配曲线)可线性化的一元非线性回归(需要配曲线)先对两个变量x和y作n次试验观察得niyxii,.,2,1),(=画出散点图,根据散点图确定须配曲线的

6、类型.然后由n对试验数据确定每一类曲线的未知参数a和b。采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法。通常选择的六类曲线如下(1)双曲线xbay+=1(2)幂函数曲线baxy=,其中0,0ax(3)指数曲线bxaey=其中参数0a(4)倒指数曲线xbaey/=其中0a(5)对数曲线0,ln+=xxbay(6)S 型曲线xbeay+=1 3多元线性回归多元线性回归 一般称=+=nICOVEXY2),(,0)(为高斯马尔柯夫线性模型(k 元线性回归模型),并简记为),(2nIXY。其 中=nyyY.1,=nknnkkxxxxxxxxxX.1.1.121222211

7、1211,=k.10,=n.21 ,kkxxy+=.110称为回归平面方程。线性模型),(2nIXY考虑的主要问题是:(1)用试验值(样本值)对未知参数和2作点估计和假设检验,从而建立y与kxxx,.,21之间的数量关系;4(2)在kkxxxxxx0022011,.,=处对y的值作预测与控制,即对y作区间估计。对i和2作估计,用最小二乘法求k,.,0的估计量:作离差平方和 ()=niikkiixxyQ12110.选择k,.,0使Q达到最小。解得估计值()()YXXXTT1=,得到的i代入回归平面方程得kkxxy.110+=,称为经验回归平面方程.i称为经验回归系数 4多元非线性回归多元非线性回

8、归 多项式回归 设变量Yx,的回归模型为 +=ppxxxY.2210 其 中p是 已 知 的,),2,1(piiL=是 未 知 参 数,服 从 正 态 分 布),0(2N。kkxxxY+=.2210称为回归多项式,上面的回归模型称为多项式回归。令iixx=,i=1,2,k 多项式回归模型变为多元线性回归模型.多元线性回归中的检验与预测多元线性回归中的检验与预测 假设0.:100=kH。当0H成立时,)1,()1/(/=knkFknQkUFe。如果)1,(1knkFF,则拒绝0H,认为y与kxx,1L之间显著地有线性关系;否则就接受0H,认为y与kxx,1L之间线性关系不显著。求 出 回 归 方

9、 程kkxxy.110+=,对 于 给 定 自 变 量 的 值kxx,.,*1,用*110*.kkxxy+=来预测+=*110.kkxxy.称*y为*y的点预测。5逐步回归分析逐步回归分析 “最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。选择“最优”的回归方程有以下几种方法:(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;5(4)“有进有出”的逐步回归分析 逐步回归分析法的思想:(1)从一个自变量开始,视自变量Y作用的显著程度,从大到地依次逐个引入回归方

10、程。当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。(2)引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。(3)对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。(4)这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。6回归回归 MATLAB 命令:命令:(1)多元线性回归 确定回归系数的点估计值:b=regress(Y,X)=pb.10=nYYYY.21=npnnppxxxxxxxxxX.1.1.1212222111211 求回归系数的点估计和区间估计、并检验回归模型:b,bint

11、,r,rint,stats=regress(Y,X,alpha)Stats 给出用于检验回归模型的统计量,有三个数值:相关系数 r2、F 值、与 F 对应的概率 p。判别规则:相关系数 r2越接近 1,说明回归方程越显著;)1,(1knkFF时拒绝 H0,F 越大,说明回归方程越显著;与 F 对应的概率 p0)(,0)(,XijXGXiijijW W 若某一个待判对一切当。费歇(费歇(Fisher)判别法)判别法 不等协差阵的两总体不等协差阵的两总体 Fisher 判别法判别法(1)基本思想:从两个总体中抽取具有 p 个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:ppxcx

12、cxcy+=L2211,其中系数1c、2c、pc确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的 p 个指标值代入判别式中求出 y 值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。(2)判别函数的导出 假设有两个总体 G1、G2,从第一个总体中抽取 n1个样品,从第二个总体中抽取 n2个样品,每个样品观测 p 个指标,列表如下:G1总体:总体:G2总体:总体:变量 样品 1x 2x px 变量样品 1x 2x px)1(1x)1(11x)1(12x )1(1px )2(1x)2(11x)2(12x )2(1px)

13、1(2x)1(21x)1(22x )1(2px )2(2x)2(21x)2(22x )2(2px M M M M M M M M)2(1nx 111nx)1(21nx )1(1Pnx)2(2nx)2(12nx)2(22nx )2(2Pnx 均值)1(1x)1(2x )1(px 均值)2(1x)2(2x )2(px 假设新建立的判别式为ppxcxcxcy+=L2211,今将属于不同两总体的样品观测值代入判别式中去,则得:1)1()1(22)1(11)1(,1nixcxcxcyippiiiLL=+=2)2()1(22)1(11)2(,1nixcxcxcyippiiiLL=+=对上边两式分别左右相加

14、,再乘以相应的样品个数,则有:=pkkkxcy1)1()1(第一组样品的“重心”=pkkkxcy1)2()2(第二组样品的“重心”为了使判别函数能够很好地区别来自不同总体的样品,自然希望:i)来自不同总体的两个平均值)2()1(,yy相差愈大愈好。ii)对于来自第一个总体的),1(1)1(niyiL=要求它们的离差平方和=112)1()1()(niiyy愈小愈好,同样也要求=212)2()2()(niiyy愈小愈好。综合以上两点,就是要求:9=+=2112)2()2(12)1()1(2)2()1()()()(niiniiyyyyyyI 愈大愈好。记2)2()1(21)(),(yycccQQp=

15、L为两组间离差。=+=2112)2()2(12)1()1(21)()(),(niiniipyyyycccFFL 为两组内的离差。则 FQI=利用微积分求极值的必要条件可求出使 I 达到最大值的pccc,21L。有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取 y0为)1(y与)2(y的加权平均值即 21)2(2)1(10nnynyny+=如果由原始数据求得)1(y与)2(y满足)1(y)2(y,则建立判别准则为:对一个新样品),(1=pxxXL代入判别函数中去所得值记为 y,若 yy0,则判定1GX;若 yy0,则判定2GX。如果)1(y)2(y,则建立判别准则为:若 yy0,则判定2GX;若 y,则0H被否定,认为判别有效。否则认为判别无效。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁