《实验四直线回归与相关1讲课教案.doc》由会员分享,可在线阅读,更多相关《实验四直线回归与相关1讲课教案.doc(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Good is good, but better carries it.精益求精,善益求善。实验四直线回归与相关1-试验四一元线性相关与回归分析试验目的:1.了解相关与回归的概念。2.熟悉散点图的绘制并判断两变量间的线性趋势、直线相关分析。3.掌握简单线性回归分析。基本要求:掌握建立直线回归方程的方法。基本原理:根据直线回归方程,将依变量y的总变异分解为由x变异引起的变异和误差所引起的变异两部分,分别计算各变异的平方和与自由度。试验内容:1.两个变量间的相关分析2.多个变量间的相关分析3.一元线性回归分析重点:本章重点是掌握建立一元线性回归方程的方法,理解方差分析与t检验对方程及回归系数进行假
2、设检验的基本思想。难点:本章难点是直线相关的概念、相关系数的意义,相关系数的计算。1相关分析的基本原理一般来说现象之间的相互关系可以分为两种,一种是函数关系,另一种是相关关系。函数关系是指变量之间存在的相互依存的关系,它们之间的关系值是确定的。相关关系是两个现象数值变化不完全确定的依存关系。两变量间的相关分析就是研究两变量间线性相关程度并用适当的统计指标表示出来的一种常用统计方法。按相关的程度分,有完全相关、不完全相关和不相关;按相关的性质分,有正相关和负相关。测定变量之间线性相关程度和相关方向的统计指标是相关系数,同时要对相关系数的显著性检验。2SPSS实现过程例12-10为研究某种化肥对农
3、作物产量的影响,选取了10块条件基本相同的地块进行试验得到施肥量与农作物的亩产量,试求农作物亩产量对施肥量的回归直线方程。数据(如表12-6所示)。表12-6地块编号12345678910施肥量245881011131415亩产量253294298360348366410401443437(1)把“亩产量”设为因变量y,“施肥量”设为自变量x。在Analyze(分析)菜单中选择Correlate(相关分析)中的Bivariate(两个变量相关分析)命令。弹出BivariateCorrelations(两个变量相关)对话框(如图12-56所示)。图12-56(2)选择进行相关分析的变量。现欲分析
4、亩产量与施肥量的相关关系,故在BivariateCorrelations(两个变量相关)对话框左侧的变量列表中选“亩产量”和“施肥量”,使之进入Variables(变量)框。1)设定相关系数的类型。CorrelationCoefficient(相关系数)复选框组包含了3个复选框,对应3种相关系数的类型。Pearson(皮尔逊)复选框:此项为默认设置。本例中的亩产量与施肥量两个变量为等距变量,其数据可进行加减运算,因此采用该设置,计算相关系数;Kendallstua-b(肯德尔)复选框:等级相关系数,是一个用反映分类变量一致性的指标,只能在两个变量均属于有序分类时使用;Spearman(斯皮尔曼
5、)复选框:是最常用的无参数相关分析。2)确定双尾检验还是单尾检验。在TestofSignificance(显著性检验)框中,选择单选钮Tow-tailed(双侧)表示选择双尾检验,选择单选钮One-tailed(单侧)表示选择单尾检验。默认设置将对相关显著性进行双尾检验,本例采用默认设置。3)是否突出显示相关是否显著。选择复选框Flagsignificantcorrelations(标识显著相关),在输出结果中将用“*”号标记有统计学意义的相关系数,P0.05的系数值旁会标记一个星号,PO.01的则标记两个星号。默认设置选中该项,本例采用默认设置。(3)指定输出内容和缺失值处理方法。单击Biv
6、ariateCorrelations(两个变量相关)对话框中的Options(选项)按钮,弹出BivariateCorrelationsOptions(两个变量相关选项)对话框。1)Statistics(统计)复选框组:选择要输出的统计量。Meansandstandarddeviations(平均值和标准差);Cross-productdeviationsandcovariances(产品交叉离差和协方差)复选框:输出各对变量的离均差平方和以及协方差阵。2)MissingValues(缺失值)单选框组:指定对缺失值的处理方法。本例采用默认设置。Excludescasespairwise(排除因
7、变量和自变量均有缺失值观测量)单选钮:在分析过程中遇到缺失值时将缺失值排除在数据分析之外;Excludescaseslistwise(排除因变量或自变量有缺失值观测量)单选钮:只要相关变量有缺失值,则在所有分析中都将该记录去除(如图12-57所示)。图12-573)最后单击Continue(继续)按钮,返回BivariateCorrelations(两个变量相关)对话框。(4)所有设置确认无误后,单击OK按钮,得到输出结果。4结果解读SPSS的两变量间的相关分析(Bivariate)的结果比较简单,输出结果中只有一个描述性统计量表和一个各变量间的相关关系表。如果进行相关分析的变量是两个以上,输
8、出时会分别显示两两变量间的相关关系(如图12-58所示)。图12-58(1)输出结果文件中的第一个表格:描述性统计量表。从表中可知,参与分析的两个变量的样本数都为10,亩产量的均值为361(kg),标准差为63.96;施肥量的均值为9(kg),标准差为4.397。(2)输出结果文件中的第二个表格:相关系数及显著性检验结果表。从表中可知,亩产量和施肥量的相关系数r=0.982显著性水平为0000(Sig(2-tailed),因此在相关系数旁以两个“*”号进行标识,亩产量和施肥量的相关性十分显著。SPSS回归实例讲解例12-12以例12-10为例,为研究某种化肥对农作物产量的影响,选取了10块条件
9、基本相同的地块进行试验得到施肥量与农作物的亩产量,试求农作物亩产量对施肥量的回归直线方程。数据(如表12-8所示)。表12-8某种化肥对农作物产量影响表地块编号12345678910施肥量245881011131415亩产量253294298360348366410401443437(1)在Analyze(分析)菜单中选择Regression(回归分析)中的Linear(线性)命令(如图12-62所示)。图12-62(2)在弹出的linearRegression(线性回归)对话框中,从对话框左侧的变量列表中选择“亩产量”,单击“”按钮使之添加到Dependent(因变量)框中,表示该变量是因变
10、量y;选择“施肥量”,单击“”按钮使之添加到Independent(s)(自变量)框中,表示其为自变量X。1)SPSS一般默认在回归分析中只有一组可进入回归方程的自变量和相应的筛选方法。当有多组自变量和与其相对应的多种不同的变量筛选方法时,可以通过使用Previous(先前的)和Next(下一步)按钮将它们放置在不同的Block(块)中。具体操作执行的步骤如下:SPSS从当前Block(块)(默认为1)开始,提取自变量和相应的变量筛选方法对回归方程进行拟合;自动提取下一块中的自变量组和相应的变量筛选方法,在上一个回归方程的基础上再次进行拟合,直到结束。在Method(方法)框中可以选择多元线性
11、回归分析的自变量筛选方法选项如下(如图12-63所示)。图12-63Enter选项:强行进入法,表示所选自变量全部进入回归模型,该选项是SPSS默认的方式。Stepwise选项:逐步进入法,表示向前选择变量法和向后剔除变量法的结合。根据在Option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且与因变量相关程度最高的进入回归方程。根据向前选择变量法选入自变量,然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。Remove选项:消去法,表示建立回归方程时,根据设定的
12、条件从回归方程中剔除部分自变量。Backward选项:向后剔除法,根据在Option(选项)对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。Forward选项:向前选择法,根据在Option(选项)对话框中所设定的判据,从无自变量开始,在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直至所有符合判据的变量都进入模型为止(第一个引入模型的自变量应该与因变量间相关系数的绝对值最大)。2)SelectionVariable(选择变量)框用来对样本数据进行筛选,挑选满足一定条件的样
13、本数据进行线性回归分析。3)CaseLabels(观测量标签)框用来表示作图时,以哪个变量作各样本数据点标志变量。4)WSLWeight(加权)选项是存在异方差时,利用加权最小二乘法替代普通最小二乘法估计回归模型参数。通过WSL可以选定一个变量作为权重变量。在实际问题中,如果无法自行确定权重变量,可以用SPSS的权重估计来实现。(3)单击Statistics(统计)按钮将打开LinearRegression(线性回归):Statistics(统计)对话框,用来选择输出哪些统计量。选项(如图12-64所示)。图12-641)RegressionCoefficients(回归系数):Estimat
14、es(估计)输出与回归系数相关统计量。如回归系数、回归系数的标准误差、标准回归系数、t统计量和相应的相伴概率值(Sig)、各自变量的容忍度等;Confidenceintervals(信赖区间)输出每一个非标准化回归系数95的可信区间;Covariancematrix(协方差矩阵)输出方程中各自变量间相关系数矩阵和各变量协方差矩阵;Modelfit(模型拟合):输出判定系数、调整的判定系数、回归方程的标准误差,F检验的ANOVA方差分析表。该选项为默认选项;Rsquaredchange:(R平方变化)表示当回归方程中引入或剔除一个自变量后R2、F值产生的变化量;Descriptives(描述)输
15、出自变量和因变量的均值、标准差、相关系数矩阵及单侧检验概率;Partandpartialcorrelation(部分和偏相关)输出方程中各自变量与因变量之间的简单相关系数、偏相关系数与部分相关系数;Collinearitydiagnostics(共线形诊断)多重共线形分析,输出各自变量的容限度、方差膨胀因子、最小容忍度、特征值、条件指标、方差比例等。据统计分析与SPSS应用2)Residuals(残差)栏是有关残差分析的选择项:Durbin-Watson:输出Durbin-Watson检验值;Casewisediagnostics(诊断):输出标准化残差绝对值3(SPSS默认值)的样本数据点的
16、相关信息,包括:标准化残差、观测值、预测值、残差。另外,还输出最小预测值、最小残差、最大预测值、最大残差、最小标准化预测值、最小标准化残差、最大标准化预测值、最大标准化残差以及关于预测值、残差、标准预测值、标准残差的均值和标准差。其中:Outliersoutsidestandarddevistion(分离到外部)用来设置奇异值判据。默认为3倍标准差。Allcase(所有观测量)输出所有样本数据的有关残差值。(4)单击LinearRegression(线性回归)对话框中的Plots(绘图)按钮,打开对话框。该对话框用来设置对残差序列作图形分析,从而检验残差序列的正态性、随机性和是否存在异方差现象
17、(默认情况下,不输出图形)。1)在左上角的变量框中,选择DEPENDENT(因变量)使之添加到X或Y轴变量框,再选择其他变量使之添加到Y或X轴变量框。可以作为轴变量的,其余参数如以下:DEPENDENT选项:因变量;ZPRED选项:标准化预测值;ZRESID选项:标准化残差;DRESID选项:剔除残差;ADJPRED选项:修正后预测值;SRESID选项:学生化残差;SDRESID选项:学生化剔除残差。2)StandardizedResidualPlots(标准化残差图)栏中可选择使用直方图正态概率图:Histogram(直方图)输出带有正态曲线的标准化残差的直方图;Normalprobabil
18、ityplot(正态概率图)检查残差的正态性。3)Produceallpartialplots(产生所有的偏差图)选项,输出每个自变量残差相对于因变量残差散布图(如图12-65所示)。图12-65(5)单击LinearRegression(线性回归)对话框中的Save(保存)按钮,打开对话框。在该对话框中能够设置将回归分析的结果保存到SPSS数据编辑窗口的变量中,或是某个SPSS的数据文件中。1)PredictedValues(预测值)预测值栏中选项如下:Unstandardized(不标准化)保存非标准化预测值;Standardized(标准化)保存标准化预测值;Adjusted(调整)保存
19、调节预测值;SEofmeanpredictions(平均标准误差预测)保存预测值得标准误差。2)Distances(距离)栏中选项如下:Mahalanobis:保存Mahalanobis距离;Cooks:保存Cook距离;Leveragevalues:保存中心点杠杆值。3)PredictionIntervals(预测区间)栏中选项如下:Mean(平均值)保存预测区间高低限的平均值;Individual(单值)保存一个观测量上限与下限的预测区间;ConfidenceInterval(信赖区间)可确定置信区间,默认值为95。4)Residuals(残差)栏中选项如下:Unstandardized(
20、不标准化)保存非标准化残差;Stadardized(标准化)标准化残差;Studentized(学生化)学生化残差;Deleted(删除)剔除残差;Stundentizeddeleted(学生化删除)学生剔除残差。5)InfluenceStatistics(影响统计量)栏中选项如下:DfBeta(s):因排除一个特定的观测值所引起的回归系数的变化。一般情况下,该值如果大于2,则被排除的观测值有可能是影响点;StanardizedDfBeta(s)(标准化的DfBeta)值;DfFit:因排除一个特定的观测值所引起的预测值的变化;StandardizedDfFit:标准化的DfFit值;Cova
21、rianceratio(协方差比率):剔除一个影响点观测量的协方差矩阵与全部观测量的协方差矩阵比。6)SavetoNewFile(保存到新的文件)栏中,选中CoefficientsStatistics(系数统计)选项,可将回归系数结果保存到一个指定的文件中。7)ExportmodelinformationtoXMLfile(输出模型信息到XML文件)栏,表示将模型的有关信息输出到一个XML型文件中(如图12-66所示)。图12-66(6)单击LinearRegression(线性回归)对话框中的Options(选项)命令,打开对话框。在该对话框中可以对多元线性回归分析中与自变量的筛选有关的参数
22、进行设定,同时也可以设置对缺失值采用不同的处理方法。1)SteppingMethodCriteria(逐步方法标准):用于设定与多元线性回归分析中自变量的筛选有关的参数。UseprobalitlityofF(使用F分布的概率):SPSS默认以回归系数显著性检验中各自变量的F统计量的相伴概率作为自变量是否引入模型或者从模型剔除的标准:Entry(进入)(默认值为005)表示当一个自变量的F统计量的相伴概率值Sig005时,应拒绝H0,认为该变量对因变量影响是显著的,应被引入回归方程中。Removal(移除)(默认值为010)表示如果当方程中一个自变量的F统计量的相伴概率值Sig010时,则不能拒
23、绝H0,可以认为该变量对因变量影响是不显著的,应从回归方程剔除。注意:在实际应用中,用户可以根据具体情况修改这两个参数。但应使Entry(进入)值小于Remove(剔除)值。否则,自变量一进入方程就会被立即剔除。UseFvalue(使用F值):表示以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或从模型剔除的标准:Entry(默认值为384)表示当一个变量的F值384时,该变量被选入模型中。Removal(默认值为271)表示当一个变量F值271时,该变量从模型中被剔除。2)Includeconstantinequation(在方程式中包含常量):表示在回归方程中将包含常数项,该选
24、项为默认MissingValues(缺失值)栏是对缺失值的处理栏:Excludecaseslistwise(排除因变量或自变量有缺失值的观测量):表示删除所有带缺失值的样本数据;Excludecasespairwise(排除因变量或自变量均有缺失值的观测量):表示如果计算过程涉及到某个有缺失值的变量,则暂时删除那些在该变量上是缺失值的个案;Replacewithmean(用平均值替换):表示将所有变量的缺失值都以相应变量的均值代替。由于本研究问题是简单的一元线性回归问题,因此在以上诸多选项中只选择默认的选项和各选项的默认值即可。(如图12-67所示)。图12-67(7)单击OK按钮,即可得到S
25、PSS回归分析的结果。5结果解读SPSS的一元线性回归分析的输出结果中共输出七个表,有VariablesEntered/Removed(引入或被剔除的变量表)、ModelSummary(常用统计量表)、ANOVA方差分析表、Coefficients(回归系数表)、ResidualsStatistics(残差统计表)、标准化残差的直方图和正态分布图(P-P图)。我们重点解读ModelSummary(常用统计量)、ANOVA方差分析表、Coefficients(回归系数)和正态分布图(P-P图)(如图12-68所示)。图12-68(1)输出的结果文件中第一个表格:ModelSummary(常用统计
26、量)。反映的是一元线性回归模型拟合的情况,相关系数R=0.982,决定系数R2=0.965,而调整决定系数R2=0.960,回归估计的标准差S=12.746,模型拟合效果很理想。(2)输出的结果文件中第二个表格:ANOVA方差分析表。从表中可以看出离差平方和(Total)=36818.000,残差平方和(Residual)=1299.632,而回归平方和(Regression)=35518.368。回归方程的显著性检验中,统计量为F=218.636,对应的置信水平为0.000,远比常用的置信水平0.05要小,因此可以认为方程是极显著的。(3)输出的结果文件中第三个表格:Coefficients
27、回归系数分析表,是回归系数以及对回归方程系数的检验结果,系数显著性检验采用t检验。从表中可以看出,UnstandardizedCoefficients(非标准化系数)回归方程的Constant常数项=232.414,回归系数=14,287。回归系数检验统计量t=14.786,Sig为相伴概率值p0.001。由此可知回归方程:y(亩产量)=232.414+14.287x(施肥量)回归系数显著水平均为0.000,表明用t统计检验量假设“回归系数等于0的概率为0.000,远比常用的置信水平0.05要小,因此可以认为两个变量之间的线性关系是极为显著的,建立的回归方程是有效的。(4)输出的结果文件中第四个为正态分布图(P-P图)该图是用来观察标准化残差的分布是否符合正态分布。如果是,则图中散点应该近似为一条直线,图的纵坐标为因变量(亩产量),横坐标为自变量(施肥量),散点代表了用建立的回归方程计算的各个施肥量下的亩产量,图中各点连线就是建立的回归直线。-