《数学建模解多元线性回归问题.doc》由会员分享,可在线阅读,更多相关《数学建模解多元线性回归问题.doc(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date数学建模解多元线性回归问题数学建模解多元线性回归问题公司年销售额的分析摘 要公司年销售额通常和很多因素有关,但它们之间并不是确定性关系,所以我们用回归分析来处理,并建立了多元线性回归模型。本文用最小二乘的方法给出了变量间相关关系的回归方程,针对各因素对公司年销售额的影响我们与偏回归平方和联系起来,并将各因素的影响程度进行了排序。还通过F检验和T检验分别验证了回归方程的
2、显著性和方程系数的显著性。最后我们采用了逐个剔除的方法找出了影响年销售额的主要因素,并且建立了新的回归方程,再次进行检验,新回归方程高度显著,最后得到了个人可支配收入、价格、投资和广告费密切相关的结论。第一问:我们首先对附表1的数据进行处理,利用MATLAB对残差向量进行分析,剔除其中的异常点。然后建立起多元线性回归模型,采用最小二乘的方法来估计回归方程的参数。我们引入偏回归平方和的概念来判定各因素对年销售额的影响程度,并对各因素的影响程度由深到浅进行了排序。第二问:通过对回归平方和和剩余平方和的分析,并且运用F检验法来判定线性回归方程的显著性。由于回归方程显著并不意味着每个自变量,,对因变量
3、的影响都是重要的。所以我们对方程系数的显著性用T检验法进行了检验。最后通过逐个剔除的方法找出了其中的主要因素,主要因素为:个人可支配的收入、价格、投资、广告费这四个方面。第三问:通过逐个剔除的方法建立了新的回归方程,并对新的回归方程进行显著性检验,对方程系数进行显著性检验。得到了公司的年销售额与个人可支配收入、价格、投资和广告费密切相关的结论。关键词:多元线性回归 最小二乘法 F检验 T检验 偏回归平方和1 问题重述在经济流通领域中,某公司的年销售额()与个人可支配的收入();商人的回扣();价格();研究与发展费();投资();广告费();销售费用();总的工业广告预算()等有关。附表1中是
4、某公司的原始数据。建立模型,分析各因素对年销售额的影响程度。并对所做模型进行检验,找出影响销售额的主要因素。最后分析主要因素与销售额的关系,并给出结论。2 问题分析对于公司年销售额的分析,我们知道,和有关的变量有8个,研究与变量,,之间的定量关系的问题为多元回归问题。又因为许多多元非线性回归问题都可以化为多元线性回归问题,所以对于本问题我们建立了多元线性回归的数学模型。第一问:首先对附表1的数据进行处理,对残差向量进行,剔除其中的异常点。然后我们建立了多元线性回归的数学模型,并采用了最小二乘法来估计参数。把模型写成矩阵的形式,化简整理得其正规方程组,通过对正规方程组的求解,最后得到回归方程。对
5、于各因素对年销售额的影响程度,由于利用偏回归平方和可以衡量每个变量在回归中所起的作用大小(即影响程度),我们对每个变量的偏回归平方和进行了计算,最后把影响程度由深到浅的各因素进行了排序。第二问:回归方程的显著性检验:事先我们并不能断定随机变量与一般变量,,之间是否确有线性关系。在求线性回归方程前线性回归模型只是一种假设,所以在求出线性回归方程之后,我们需要对其进行统计检验。将总的平方和分解为回归平方和和剩余平方和,运用F检验法来判定线性回归方程的显著性。回归系数的显著性检验:由于回归方程显著并不意味着每个自变量,,对因变量的影响都是重要的。而我们要找出响销售额的主要因素,即从回归方程中剔除那些
6、次要的、可有可无的变量,这就需要我们对每个变量进行考察。显然,如果某个变量对的作用不显著,那么在多元线性回归模型中,它前面的系数就可以取值为零。因此,检验因子是否显著等价于检验假设 。最后再运用T检验法来辨别模型中哪些因子是显著的。第三问:由于回归系数之间存在相关性,当从原回归方程中剔除一个变量时,其他变量,特别是与它密切相关的一些变量的回归系数就会受到影响,剔除一个变量后,这个变量对的影响很大部分转加到另一个变量对的影响上。所以,我们对回归系数进行一次检验后,只能剔除所有不显著因子中值最小的,然后重新建立新的回归方程,再对新的回归系数逐个进行检验,直到余下的回归系数都显著为止。3 符号说明表
7、一符号说明影响年销售额的因素。()年销售额()相互独立且服从同一正态分布的随机变量()变量的偏回归平方和总平方和回归平方和剩余平方和待估计系数参数()的回归值参数的最小二乘估计()4 模型假设1.影响销售额的各个因素相互之间关联性不大,即相互独立。2.异常值认为是人为因素引起的,可将其剔除。5 模型的建立与求解第一问:5.1模型 “多元线性回归的数学模型” 5.1.1 模型的建立1、处理数据我们先通过MATLAB(程序见附录1)对原始数据进行检验,对残差向量进行分析,得到了残差向量分析图,剔除其中的异常点。2、设随机变量假如变量与另外8个变量,,的内在联系是线性的,它的第次试验数据是 =1,2
8、,,8 (1)那么这一组数据可以假设有如下的结构式: (2)其中,是9个待估计参数,,是8个可以精确测量的一般变量,是38个相互独立且服从同一正态分布的随机变量,这就是多元线性回归的数学模型。 令, , , 那么多元线性回归的数学模型(2)可以写成矩阵形式 (3)其中是38维随机向量,它的分量是相互独立的。3、参数的最小二乘估计为了估计参数,我们采用最小二乘估计法。设分别是参数,的最小二乘估计,则回归方程为 (4)由最小二乘法知道,应使得全部观察值与回归值的偏差平方和达到最小,即使 (5)所以是的非负二次式,最小值一定存在。根据微积分学中的极值原理,应是下列正规方程组的解: (6)显然,正规方
9、程组的系数矩阵是对称矩阵,用来表示,则,且其右端常数项矩阵亦可采用矩阵和来表示:。所以可以得到回归方程的回归系数: (7)4、由于利用偏回归平方和可以衡量每个变量在回归中所起的作用大小(即影响程度),设是p个变量所引起的回归平方和,是p-1个变量所引起的回归平方和(即除去),则偏回归平方和为:=-=-= (8)就是去掉变量后,回归平方和所减少的量。5.1.2 模型的求解1、数据筛选通过MATLAB(程序见附录1)作图如下:此时可见第八个点、第十四个点和第二十八个点是异常点,于是删除原始数据中第八行和第十四行和第二十八行数据。2、回归方程的求解 由附表1和所得的公式(7),运用MATLAB进行编
10、程(程序见附录2),可得正规矩阵的系数矩阵为:回归系数为:, , , 回归方程为:3、偏回归平方和的比较运用MATLAB进行编程(程序见附录2),得到各因素的偏回归平方和:()0.33840.00300.36850.10090.14291.24180.14720.1963根据的大小可判断各因素对年销售额的影响程度:第二问:5.2 模型 5.2.1 模型的建立1、设随机变量回归方程的显著性检验(F检验):因为是第个试验点上的回归值,显然总的偏差平方和为 (9)它的自由度为,又因为,其中回归平方和为 (10)是由于引入变量,,后引起的,剩余平方和 (11)它是由于实验误差和其他一些因素引起的。如果
11、变量y与变量,,之间无线性关系,则模型(2)中的一次项系数应均为零。所以要检验变量y与变量,,之间是否有线性关系,即要检验假设 (12)是否成立,这一点可以通过比较和来实现。可以证明:在满足矩阵X满秩和假设成立的条件下, (13)和相互独立,从而 (14)这样就用统计量F检验假设成立与否,若对于给定的一组数据,算得 (15)在显著水平下,认为回归方程有显著意义。2、方程系数的显著性检验(T检验):某个自变量如果对作用不显著, 则它的系数就应取值为0, 因此检验每个自变量是否显著, 就要检验假设:在假设下, 可应用检验: (16)其中为矩阵的对角线上第个元素。对给定的检验水平, 从分布表中可查出
12、与对应的临界值, 如果有, 则拒绝假设, 即认为与0有显著差异, 这说明对有重要作用不应剔除; 如果有则接受假设, 即认为成立, 这说明对不起作用, 应予剔除。采用,来检验回归系数是否显著。5.2.2 模型的求解1、回归方程的显著性检验:运用MATLAB进行编程(程序见附录2)取,。所以回归方程高度显著。2、方程系数的显著性检验:第一次检验对所得各项回归系数进行t检验t2.78070.26012.90181.51821.80715.32661.83422.1176剔除第一次检验所有不显著因子中t值最小的因子t2.8291剔除2.98811.53001.82135.44031.87532.260
13、8剔除第二次检验所有不显著因子中t值最小的因子t3.63623.6725剔除1.50005.22661.41372.0924剔除第三次检验所有不显著因子中t值最小的因子t9.73803.38112.15114.9474剔除1.9319剔除第四次检验所有不显著因子中t值最小的因子t9.14992.93842.27274.9818剔除计算知:,所以,显著,其余变量对贡献不大,应剔除。5.3 模型 由第二问得到,是影响销售额的主要因素,我们只考虑这四个因素与销售额的关系,再根据第一问的方法,运用MATLAB求解,重新建立回归方程:然后再次检验新的回归方程的显著性,得,所以回归方程高度显著。又因为(由
14、上问可知)所以自变量,高度显著。最后得出结论:销售额的大小与个人可支配收入、价格、投资和广告费密切相关。6 模型的评价6.1模型的优点 本文对于各种因素对于销售额的影响建立了多元线性回归模型,全面综合考虑了各个方面的因素,避免了单一因素分析的不准确性,得出了合理的数学模型。并且通过各因素的显著性分析,找到了影响销售额的主要因素,较符合实际情况,模型可靠,并且模型相对简单,利于操作;该方法不仅适用于本题,也适用于其他方面的数据预测,有实际背景,可运用于实践,具有广泛适用性。6.2模型的缺点 本文忽略了除了所给因素之外的因素对销售额的影响,与实际问题存在偏差。同时是在假设各因素相互独立的情况下对销
15、售额的影响进行分析,可能会导致误差7 模型的改进与推广模型中得到最优回归方程的方法是从包含全部变量的回归方程中逐次剔除不显著因子,这种方法是在不显著因子不多时采用,当不显著因子较多时,则工作量将会相当大,因为每剔除一个变量就得重新计算回归系数。鉴于以上问题,我们引入了逐步回归分析的方法,它的基本思想是将因子一个个引入,引入因子的条件是,该因子的偏回归平方和经检验时显著的。同时,每引入一个新因子后,要对老因子逐个检验,将偏回归平方和变为不显著的因子剔除。这种方法不需要计算偏相关系数,计算较简便,并且由于每步都作检验,因而保证了最后所得的方程中所有因子都是显著的。若回归方程是拟合好的,就可以进一步
16、利用它来进行预报和控制。预报问题,用统计数学的语言来说就是一个区间估计问题。在建立气象预报、地震预报、自动控制等数学模型时,都可以用到本文的模型。8 参考文献1 马新民,王逸迅. 概率与数理统计M. 北京:机械工业出版社,2010.2 刘卫国. MATLAB程序设计与应用M. 北京:高等教育出版社,2009.3 茆诗松. 回归分析及其试验设计M. 上海:华东师范大学出版社,1986.9 附录1、筛选数据程序%data(14,:)=;%data(28,:)=;%data(8,:)=;n=35;m=8;alpha=0.05;y=data(:,9);x1=data(:,1);x2=data(:,2)
17、;x3=data(:,3);x4=data(:,4);x5=data(:,5);x6=data(:,6);x7=data(:,7);x8=data(:,8);X=ones(n,1),x1,x2,x3,x4,x5,x6,x7,x8;b,bint,r,rint,s=regress(y,X,alpha);% b 回归系数% bint 回归系数的区间估计% r 残差% rint 残差置信区间% stats 用于检验回归模型的统计量,有三个数值:相关系数R2、F值、与F对应的概率p,相关系数R2越接近1,说明回归方程越显著;%F F1-(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的
18、概率p 时拒绝H0,回归模型成立。% Y为n*1的矩阵;% X为(ones(n,1),x1,xm)的矩阵;% alpha显著性水平s2=sum(r.2)/(n-m-1);b,bint,s,s2rcoplot(r,rint); %用这个图来来做参差及其置信区间的图,如果数据的置信区间不包含零点,则可认为这个数据是异常的,应把它剔除2、求多元回归方程并且进行显著性检验m,n=size(data);Y=data(:,9);X=zeros(38,9);X(:,1)=1;Z=zeros(38,1);t=zeros(1,8);Q=zeros(1,8);for i=1:m for j=2:9 X(i,j)=
19、data(i,j-1); endendA=X*X;C=inv(A);b=C*X*Y; %求多元线性回归方程的系数for i=1:mZ(i)=b(1)+b(2)*data(i,1)+b(3)*data(i,2)+b(4)*data(i,3)+b(5)*data(i,4)+b(6)*data(i,5)+b(7)*data(i,6)+b(8)*data(i,7)+b(9)*data(i,8);end%将数据代入回归方程,求出理论值for i=2:9 Q(i-1)=(b(i).*b(i)/C(i,i); %求各因素所占比重endQft=m-8-1;St=0;Sf=0;for i=1:m St=St+(
20、Y(i)-Z(i).*(Y(i)-Z(i); %求S剩 Sf=Sf+(Z(i)-mean(Y).*(Z(i)-mean(Y); %求S总endp=sqrt(St/ft)for i=2:9 t(i-1)=abs(b(i)/(p*sqrt(C(i,i); %t检验endbtStSfZCF=(Sf/8)/(St/ft); %F检验flag=1;a=min(t)利用第一个多元回归方程求出来的理论值1234567895612.35177.24392.85625.65133.74517.04552.8NAN4092.11011121314151617184521.45590.14991.25385.5NA
21、N4273.75060.75389.95187.01920212223242526274665.65516.64964.05177.85883.24665.05083.34559.05763.5282930313233343536NAN5693.94801.05304.85392.14680.95378.56118.14876.937385245.05315.5利用最终的回归方程求出来的理论值1234567895396.85211.34469.55686.95266.84518.04558.8NAN3984.41011121314151617184530.95542.45072.95320.4NAN4187.65053.05270.05106.61920212223242526274939.95417.54890.65329.46012.64679.35136.44752.25618.2282930313233343536NAN5734.44688.45228.35412.64666.75430.95990.74914.137385260.75308.5-