《第四章 相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《第四章 相关分析与回归分析.ppt(115页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第四章 相关分析与回归分析n4.1 简单相关分析简单相关分析n4.2 回归分析回归分析n4.3 非线性回归非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.1 4.1 简单相关分析简单相关分析n4.1.1 相关分析的基本概念相关分析的基本概念n4.1.2 用用INSIGHT模块作相关分析模块作相关分析n4.1.3 用用“分析家分析家”作相关分析作相关分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.1 相关分析的基本概念相关分析
2、的基本概念1.1.散点图散点图 散散点点图图是是描描述述变变量量之之间间关关系系的的一一种种直直观观方方法法。我我们们用用坐坐标标的的横横轴轴代代表表自自变变量量X,纵纵轴轴代代表表因因变变量量Y,每每组组数数据据(xi,yi)在在坐坐标标系系中中用用一一个个点点表表示示,由由这这些些点点形形成成的的散散点点图图描描述述了了两两个个变变量量之之间间的的大大致致关关系系,从从中中可可以以直直观观地地看看出变量之间的关系形态及关系强度。出变量之间的关系形态及关系强度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-1就是不同形态的散点图。就是不同形态的散点图
3、。(a)(b)(c)(d)就就两两个个变变量量而而言言,如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条直直线线,则则称称为为线线性性相相关关,如如图图4-1(a)和和(b);如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条曲曲线线,则则称称为为非非线线性性相相关关或或曲曲线线相相关关;如如图图4-1(c);如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何何规规律律,则则表表示示变变量量之之间间没没有有相相关关关关系系,如如图图4-l(d)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.相关系数相
4、关系数 相相关关系系数数是是对对变变量量之之间间关关系系密密切切程程度度的的度度量量。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记为记为;总体相关系数的计算公式为:;总体相关系数的计算公式为:其其中中COV(X,Y)为为变变量量X和和Y的的协协方方差差,D(X)和和D(Y)分分别别为为X和和Y的方差。的方差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 若若相相关关系系数数是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数(简简称称为为相相关关系系数数),记记为为r。样
5、样本本相相关关系系数数的的计计算公式为:算公式为:一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,我我们们通通常常是是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:相相关关系系数数的的取取值值范范围围:1 r 1,若若0 r 1,表表明明X与与Y之之间间存存在在正正线线性性相相关关关关系系,若若1 r 0,表表明明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。若若r=1,表表明明X与与Y之之间间为为完完全全正正线线性性相相关关
6、关关系系;若若r=1,表表明明X与与Y之之间间为为完完全全负负线线性性相相关关关关系系;若若r=0,说明二者之间不存在线性相关关系。,说明二者之间不存在线性相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:当当1 r 1时时,为为说说明明两两个个变变量量之之间间的的线线性性关关系系的的密密切切程程度度,通通常常将将相相关关程程度度分分为为以以下下几几种种情情况况:当当|r|0.8时时,可可视视为为高高度度相相关关;0.5|r|0.8时时,可可视视为为中中度度相相关关;0.3|r|0.5时时,视视为为低低度度相相
7、关关;当当|r|0.3时时,说说明明两两个个变变量量之之间间的的相相关关程程度度极极弱弱,可可视视为为不不相相关关。但但这这种种解解释释必必须须建建立立在在对对相相关关系系数数进进行行显显著著性性检检验验的基础之上。的基础之上。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.相关系数的显著性检验相关系数的显著性检验 相相关关系系数数的的显显著著性性检检验验也也就就是是检检验验总总体体相相关关系系数数是是否否显显著著为为0,通通常常采采用用费费歇歇尔尔(Fisher)提提出出的的t分分布布检检验验,该该检检验验可可以以用用于于小小样样本本,也也可可以以用用
8、于于大大样样本本。检检验验的的具具体步骤如下:体步骤如下:1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0:=0;H1:0STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0:=0;H1:0 2)由样本观测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p=P|t|t0|=2Pt|t0|3)进进行行决决策策:比比较较p和和检检验验水
9、水平平 作作判判断断:p ,拒拒绝原假设绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆:均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:预测两变量均值的置信区域;预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的的置置信区域。信区域。关于预测值置信椭圆的两点说明:关于预测值置信椭圆的两点说明:1)作作为为置置信信曲曲线线,表表示示数数据据以以设设定定的的百百分分率率(置置信信水水平)落入的椭圆区域;平)
10、落入的椭圆区域;2)作作为为相相关关性性指指标标。若若两两个个变变量量不不相相关关,椭椭圆圆应应该该为为圆圆;两两个个相相关关的的变变量量有有拉拉长长的的椭椭圆圆,可可以以用用椭椭圆圆长长短短轴轴之比来衡量相关的程度。之比来衡量相关的程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.2 用用INSIGHT模块作相关分析模块作相关分析【例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款
11、款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。表表4-1就就是是该该银银行行所所属属的的25家家分分行行2002年的有关业务数据。年的有关业务数据。STATSTATSTATSTATS
12、ASSAS软件与统计应用教程软件与统计应用教程表4-1 某商业银行2002年的主要业务数据银银行行想想知知道道,不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目目的的多多少少、固固定定资资产产投投资资等等因因素素有有关关?如如果果有有,是是一种什么样的关系一种什么样的关系?关系强度如何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.
13、557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1.1.制作散点图制作散点图 首首先先制制作作变变量量之之间间的的散散点点图图,以以便便判判断断变变量量之之间间的的相相关性。步骤如下:关性。步骤如下:1
14、)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Scatter Plot(Y X)(散点图)(散点图)”;3)在在打打开开的的“Scatter Plot(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从各各散散点点图图中中可可以以看看出出,不不良良贷贷款款(Y)与与贷贷款款余余 额额(x1)、应应 收收 贷
15、贷 款款(x2)、贷贷 款款 项项 目目 多多 少少(x3)、固固定定资资产产投投资资额额(x4)之之间间都都具具有有一一定定的的线线性性关关系系。但但从从各各散散点点的的分分布布情情况况看看,与与贷贷款款余余额额(x1)的的线线性性关关系系比比较较密密切切,而而与与固固定定资资产产投投资资额额(x4)之之间间的的关关系系最不密切。最不密切。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.相关系数计算相关系数计算 1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Multi
16、variate(Y X)(多变量)(多变量)”;3)在在打打开开的的“Multivariate(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程结结果果显显示示各各变变量量的的统统计计量量和和相相关关(系系数数)矩矩阵阵,从从相相关关矩矩阵阵中中可可以以看看出出,在在不不良良贷贷款款Y与与其其他他几几个个变变量量的的关关系系中中,与与贷贷款款余余额额(x1)的的相相关关系系数数最最大大,而而与与固固定定资
17、资产产投投资额资额(x4)的相关系数最小。的相关系数最小。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为为了了检检验验各各总总体体变变量量的的相相关关系系数数是是否否为为零零,选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关关系系数数为为零零的原假设的的原假设的p值,如图值,如图4-6所示。所示。基基于于这这些些p值值,拒拒绝绝原原假假设设,即即不不良良贷贷款款与与其其他他几几个个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应
18、用教程3.3.置信椭圆置信椭圆 继续上述步骤。继续上述步骤。6)选选 择择 菜菜 单单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个变量的散点图及预测值的置信椭圆,如图所示。个变量的散点图及预测值的置信椭圆,如图所示。变变量量Y和和x1间间散散点点图图上上的的这这个个椭椭圆圆被被拉拉得得很很长长,表表明明变变量量Y和和x1之间有很强的相关性。之间有很强的相关性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.3 用用“分析家分析家”作相关分析作相关分析【例
19、例4-2】通通常常用用来来评评价价商商业业中中心心经经营营好好坏坏的的一一个个综综合合指指标标是是单单位位面面积积的的营营业业额额,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经经营营面面积积的的比比值值。对对单单位位面面积积营营业业额额的的影影响响因因素素的的指指标标有有单单位位小小时时车车流流量量、日日人人流流量量、居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分。这这几几个个指指标标中中车车流流量量和和人人流流量量是是通通过过同同时时对对几几个个商商业业中中心心进进行行实实
20、地地观观测测而而得得到到的的。而而居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分是是通通过过随随机机采采访访顾顾客客而而得得到到的的平平均均值值数数据据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业业中中心心有有关关指标的数据,试据此说明变量间的相关程度。指标的数据,试据此说明变量间的相关程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商
21、业中心编号单位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.06
22、5.711.74699202.50.584.111.85796STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk;2)选选择择主主菜菜单单“Statistics”“Descriptive(描描述述性性统统计计)”“Correlations(相相关关)”,打打开开“Correlations”对对话话框框,按按图图4-8 设设置置分分析析变变量量及及内内容。容。STATSTATSTATSTATSA
23、SSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 显显示示结结果果首首先先给给出出各各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数、各各变变量量的的均均值值及及标标准准差差等等。然然后后给给出出变变量量的的相相关关系系数数矩矩阵阵(分分析析变变量量中中任任两两者者之之间间的的相相关关系系数数),以以及及原原假假设设为为H0:Rho=0(即即H0:=0)的的检检验验结结果果(仅给出(仅给出p值),如图值),如图4-9所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从相相关关系系数数的的取取值值来来看看,单单
24、位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)接接近近高高度度相相关关;单单位位面面积积营营业业额额(Y)与与每每小小时时机机动动车车流流量量(x1)、对对商商场场环环境境的的满满意意度度(x4)、对对商商场场设设施施的的满满意意度度(x5)为为低低度度相相关关;单单位位面面积积营营业业额额(Y)与与商商场场商商品品丰丰富富程程度度满意度(满意度(x6)则属于中度相关。)则属于中度相关。从从相相关关系系数数的的假假设设检检验验结结果果来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)、商商场场
25、商商品品的的丰丰富富程程度度满满意意度度(x6)、对对商商场场设设施施的的满满意意度度(x5)的的相相关关系系数数显显著著不不为为0(p 10即即可可认认为为模模型型有有很很强强的的共共线线问问题。题。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.8.利用回归方程进行预测利用回归方程进行预测(1)点预测点预测 假设通过检验的假设通过检验的“最优最优”回归方程为回归方程为当当自自变变量量的的一一组组新新观观测测值值x0=(x01,x02,x0k)对对应应的的因变量的预测值为因变量的预测值为STATSTATSTATSTATSASSAS软件与统计应用教程软件与统
26、计应用教程(2)区间预测区间预测 区间预测分为均值的预测区间和个体的预测区间。区间预测分为均值的预测区间和个体的预测区间。若若将将 理理解解为为E(y0)的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,下,E(y0)的置信区间为的置信区间为其其中中,n为为观观测测次次数数,k为为自自变变量个数。量个数。若若将将 理理解解为为个个体体值值y0的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,下,y0的置信区间为的置信区间为STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.2 用用INSIGHT模块作回归分析模块作回归分析【例例4-3】根
27、根据据例例4-1的的数数据据集集Mylib.bldk,建建立立不不良良贷贷款的预测公式。款的预测公式。1.1.一元线性回归一元线性回归 建立不良贷款对贷款余额的回归方程。建立不良贷款对贷款余额的回归方程。(1)分析分析 1)在在INSIGHT模模块块中中打打开开数数据据集集Mylib.bldk。选选择择菜菜单单“Analyze”“Fit(Y X)”,打开,打开“Fit(Y X)”对话框;对话框;2)在在“Fit(Y X)”对对话话框框中中,将将Y设设为为响响应应变变量量,将将x1设为自变量;设为自变量;3)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTAT
28、SASSAS软件与统计应用教程软件与统计应用教程 显示的结果分为若干张表:显示的结果分为若干张表:第第一一张张表表提提供供关关于于拟拟合合模模型型的的一一般般信信息息,Y=x1表表示示这个分析是以这个分析是以Y为响应变量,为响应变量,x1为自变量的线性模型;为自变量的线性模型;第二张表给出回归方程:第二张表给出回归方程:第第三三张张表表是是带带有有回回归归直直线线的的散散点点图图,给给出出了了回回归归的的图图形表示,如图;形表示,如图;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 图图的的下下面面是是参参数数回回归归拟拟合合表表(图图4-14)。其其中中判判
29、定定系系数数R-Square(R2)为为模模型型平平方方和和占占总总平平方方和和的的比比例例,反反映了回归方程能够解释的信息占总信息的比例;映了回归方程能够解释的信息占总信息的比例;第第四四张张表表提提供供拟拟合合的的汇汇总总度度量量(图图4-15):Mean of Response(响响应应变变量量的的均均值值)是是变变量量Y的的平平均均值值,Root MSE(均均方方残残差差平平方方根根)是是对对各各观观测测点点在在直直线线周周围围分分散散程程度度的的一一个个度度量量值值,为为随随机机误误差差的的标标准准差差(也也是是实实测测值值Y的标准差)的标准差)的无偏估计。的无偏估计。STATSTA
30、TSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第五五张张方方差差分分析析表表(图图4-16)包包含含对对回回归归方方程程的的显显著著检验:检验:对对一一元元线线性性回回归归,第第六六张张型型检检验验表表提提供供与与方方差差分分析析表表一样的检验,如图一样的检验,如图4-17;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第第七七张张参参数数估估计计表表给给出出了了回回归归直直线线截截距距和和斜斜率率的的估估计计值值及及其其显显著著性性检检验验等等内内容容。在在这这个个例例子子里里,截截距距的的p值值 =0.05,表表示示模模型型还还有有
31、改改进进的的余余地地,可可以以考考虑虑拟拟合合截截距距为为0的的回回归归直直线线。斜斜率率的的t检检验验p值值.150.05,应应接接受受原原假假设设,认认为为残残差差为为正正态态性分布。性分布。所所以以,模模型型 是是合合适适的的,用用其其对对不不良良贷贷款款进进行行预测会更符合实际。预测会更符合实际。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.多元线性回归多元线性回归【例例4-4】引引入入数数据据集集Mylib.BLDK中中的的所所有有4个个自自变变量量对不良贷款建立多元线性回归。对不良贷款建立多元线性回归。(1)分析步骤分析步骤 在在INSIG
32、HT模块中打开数据集模块中打开数据集Mylib.BLDK。1)选选择择菜菜单单“Analyze”“Fit(Y X)(拟拟合合)”,打开打开“Fit(Y X)”对话框;对话框;2)在在“Fit(Y X)”对对话话框框中中,选选择择变变量量Y,单单击击“Y”按按钮钮,将将Y设设为为响响应应变变量量;选选择择变变量量x1、x2、x3、x4,单单击击“X”按钮,将按钮,将x1、x2、x3、x4设为自变量;设为自变量;3)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的结结果果中中可可以以看看到到,
33、多多元元回回归归分分析析的的输输出出类类似似于一元线性回归的输出,同样分为七张表:于一元线性回归的输出,同样分为七张表:第一张表提供关于拟合模型的一般信息;第一张表提供关于拟合模型的一般信息;第二张表给出模型方程第二张表给出模型方程(即回归方程即回归方程),如图,如图4-26。可知回归方程为:可知回归方程为:STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第三三张张模模型型拟拟合合汇汇总总表表(图图4-27)表表明明R-Square为为0.7976,比比一一元元线线性性回回归归模模型型有有一一定定提提高高,但但不不足足以以说说明明模模型型优优于于一一元元回回
34、归归模模型型,因因为为在在模模型型中中增增加加自自变变量量总总能提高能提高R-Square。Adj R-Sq(修修正正R2)考考虑虑了了加加入入模模型型的的变变量量数数,在在比比较较不不同同多多元元模模型型时时用用Adj R-Sq更更合合适适。如如在在这这里里它它为为0.7571,而而在在简简单单模模型型中中为为0.6991,说说明明这这一一模模型型比比一一元线性模型更多地说明变量元线性模型更多地说明变量Y的变化。的变化。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第四四张张方方差差分分析析表表中中(下下图图左左),看看到到p值值0.0001,拒拒绝绝原
35、原假假设设并并可可作作出出至至少少有有一一个个回回归归系系数数不不为为零零的的结结论论,说明所建模型的线性关系是显著的。说明所建模型的线性关系是显著的。III型型检检验验表表(上上图图右右)与与参参数数估估计计表表(下下图图)给给出出各各个个自自变变量量的的回回归归系系数数为为零零的的假假设设检检验验,各各自自变变量量的的回回归归系系数的数的F检验与检验与t检验在这里是一致的。检验在这里是一致的。参参数数估估计计表表(上上图图右右)包包括括截截距距的的显显著著性性检检验验,还还给给出出了容差(了容差(Tolerance)和方差膨胀因子()和方差膨胀因子(VIF)。)。STATSTATSTATS
36、TATSASSAS软件与统计应用教程软件与统计应用教程两两表表中中自自变变量量x2、x3、x4的的回回归归系系数数假假设设检检验验的的p值值较较大大,说说明明这这些些自自变变量量对对Y的的影影响响不不显显著著,这这种种情情况况可可能能是是这这些些变变量量对对预预测测Y值值作作用用不不大大,也也可可能能是是由由于于这这些些变变量量之之间间的的高高度度相相关关性性所所引引起起的的共共线线问问题题。如如果果自自变变量量之之间间具具有有高高度度的的共共线线关关系系,则则它它们们所所提提供供的的预预测测信信息息就就是是重重复复的的,在在参参数数(回回归归系系数数)检检验验中中这这些些变变量量的的显显著著
37、性性就就可可能能被被隐隐蔽蔽起起来来,故故应应考考虑虑剔剔除除一一些些自自变变量量,重重新新拟拟合合回回归归方方程程。(本本例例中中x1的的方方差差膨膨胀胀系系数数较较大大,说说明明x1与与其其余自变量有一定的线性关系)余自变量有一定的线性关系)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)剔除自变量剔除自变量 在在上上面面的的例例子子中中首首先先考考虑虑剔剔除除变变量量x3,对对此此只只需需在在刚刚才才已已打打开开的的拟拟合合窗窗的的任任一一处处选选中中变变量量x3,如如图图4-31所所示示,再再在在主主菜菜单单中中选选择择“Edit”“Delete”
38、所所有有的的结结果果就就会修改为不含会修改为不含x3的拟合结果。的拟合结果。类类似似地地剔剔除除作作用用不不显显著著的的自自变变量量x2,得得到到拟拟合合结结果果如如图图4-32所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程从从图图4-32所所示示的的拟拟合合结结果果可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过。但但是是方方程程的的判判定定系系数数R2还还不不如如前前述述一一元元回回归归方方程程 的的判判定定系系数数大大。因因此此,考考虑虑进进一一步步优优化化模模型型,拟拟合合
39、不不含含常常数数项项而而仅仅含含x1、x4的回归方程。的回归方程。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 拟合结果如图拟合结果如图4-33所示。所示。结果显示,回归方程为:结果显示,回归方程为:结结果果还还可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过,方方程程的的修修正正判判定定系系数数Adj R2也也比比前前述述所所有有回回归归方方程程的的Adj R2大大,因因此此采采用用该该回回归归模模型型更为合适。更为合适。STATSTATSTATSTATSASSAS软件与统计应用教程软件与
40、统计应用教程4.2.3 用用“分析家分析家”作回归分析作回归分析【例例4-5】根根据据例例4-2中中的的数数据据集集Mylib.jyzk,建建立立单单位位面面积营业额的预测公式。积营业额的预测公式。在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.一元线性回归一元线性回归(1)分析步骤分析步骤 选选择择主主菜菜单单“Statistics(统统计计)”“Regression(回回归归)”“Linear(线线性性)”,打打开开“Linear Regression(线线性性回回归归)”对对话话框框
41、,按按图图4-34设置分析变量,设置分析变量,STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的输输出出结结果果中中,p值值.0001 =0.05,所所以以模模型的作用是显著的。型的作用是显著的。参参数数估估计计部部分分列列举举了了回回归归方方程程中中两两个个参参数数的的值值以以及及有有关的显著性检验的结果。拟合的回归方程为:关的显著性检验的结果。拟合的回归方程为:t检验的结果表明检验的结果表明x2的系数显著不为的系数显著不为0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)制作散点图制作散点图 在在上上述
42、述操操作作打打开开的的“Linear Regression”对对话话框框中中,单单击击“Plots”按按钮钮。在在打打开开的的“Linear Regression:Plots”对对话话框框中中,选选择择“Predicted”选选项项卡卡,选选中中“Plot observed vs independent”复复选选框框。单单击击“OK”按按钮钮,得得到到分分析析结结果果,包包含含响响应应变变量量Y与与解解释释变变量量x2的的散散点图,如图点图,如图4-36右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)拟合不含常数项的回归拟合不含常数项的回归
43、 在在“Linear Regression”对对话话框框中中单单击击“Model”按按钮钮,在在打打开开的的“Linear Regression:Model”对对话话框框中中选选中中“Do not include an intercept”复选框,如图复选框,如图4-37;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的输输出出结结果果中中,p值值.0001 =0.05,所所以以模模型型的的作作用用是是显显著著的的。在在汇汇总总的的信信息息中中,显显示示了了R2和和校校正正R2分分别别为为0.9540和和0.9516,远远远远高高于于含含有有常
44、常数数项项的的回回归归模型。模型。参参数数估估计计部部分分表表明明t检检验验的的结结果果x2的的系系数数显显著著不不为为0,拟合的回归方程为:拟合的回归方程为:STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.多元线性回归多元线性回归【例例4-6】引引入入数数据据集集Mylib.jyzk中中所所有有6个个自自变变量量对对因因变量单位面积营业额变量单位面积营业额Y建立多元线性回归。建立多元线性回归。(1)分析步骤分析步骤 1)选选择择主主菜菜单单“Statistics”“Regression”“Linear”,打打开开“Linear Regression(线
45、线性性回回归归)”对对话框,按下图所示进行多元线性回归分析;话框,按下图所示进行多元线性回归分析;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显显示示的的分分析析结结果果表表明明模模型型的的作作用用是是显显著著的的(F统统计计量量的的值值为为268.30,p值值0.00010.05=)。)。参参数数估估计计部部分分表表明明拟拟合的回归方程为:合的回归方程为:y=0.26044+0.16644x1+0.33987x2+0.73354x3+0.03201x4 0.00471x5 0.04752x6 参参数数显显著著性性检检验验表表明明,进进入入回回归归的的6个
46、个自自变变量量,其其作作用用在在其其它它变变量量进进入入回回归归的的前前提提下下并并不不都都是是显显著著的的。例例如如x1、x4、x5、x6的作用就不显著。的作用就不显著。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)逐步回归逐步回归 “分分析析家家”中中选选择择变变量量的的方方法法很很多多,在在上上述述步步骤骤的的“Linear Regression”对对话话框框中中,单单击击“Model”按按钮钮,打开打开“Linear Regression:Model”对话框。对话框。在在“Method”选选项项卡卡中中包包含含多多种种变变量量的的选选择择方方法法
47、,选选择择其其中中一一种种,例例如如选选择择“Backward elimination(逐逐步步剔剔除法)除法)”,如图,如图4-41所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程继继续续剔剔除除进进入入回回归归的的变变量量中中最最不不显显著著的的自自变变量量x6,直到所有的参数显著不为直到所有的参数显著不为0。结果如图。结果如图4-42所示。所示。参数估计部分表明拟合的回归方程为:参数估计部分表明拟合的回归方程为:模模型型的的R2为为0.9902,C(p)值值较较小小(仅仅为为3.8425);方方差差分分析析中中模模型型的的作作用用也也是是显显著
48、著的的(F统统计计量量的的值值为为540.98,p值值0.00010.05=)。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.4 使用使用REG过程作回归分析过程作回归分析1.REG1.REG过程的语法格式过程的语法格式 REG过程的基本用法为:过程的基本用法为:PROC REG DATA;VAR;MODEL =/;PRINT;PLOT =/;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 说明:说明:MODEL语语句句用用以以指指定定所所要要拟拟合合的的回回归归模模型型,其其后后的的选项与选项与REG语句
49、的选项类似。语句的选项类似。PLOT语语句句用用以以对对两两个个变变量量绘绘制制散散点点图图,表表达达式式中中位位置置在在前前(在在乘乘号号“*”之之前前)的的变变量量作作为为散散点点图图的的y轴轴,位位置置在在后后的的变变量量作作为为散散点点图图的的x轴轴。等等号号后后的的符符号号为为散散点点图图中中表表示示点点的的图图形形符符号号,此此项项内内容容可可省省略略,SAS会会用用默默认认方方式式显显示示图图形形,但但如如需需指指定定,符符号号要要用用单单引引号号括括起起来。对于同一个模型可以指定多个来。对于同一个模型可以指定多个plot语句。语句。PRINT语语句句用用于于交交互互地地显显示示
50、MODEL语语句句中中的的有有关关选选项,可以将拟合模型的有关统计量显示在结果中。项,可以将拟合模型的有关统计量显示在结果中。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.多元回归多元回归【例例4-7】使使用用REG过过程程对对数数据据集集Mylib.jyzk中中所所有有6个个自变量与因变量单位面积营业额自变量与因变量单位面积营业额Y建立多元线性回归。建立多元线性回归。调调用用如如下下的的REG过过程程就就可可以以在在输输出出窗窗口口产产生生如如图图4-43所示的结果:所示的结果:proc reg data=Mylib.jyzk;var y x1 x6