《多元线性回归在分析学生成绩相关性中的应用.pdf》由会员分享,可在线阅读,更多相关《多元线性回归在分析学生成绩相关性中的应用.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、收稿日期 2005209203基金项目安徽建筑工业学院重点教学研究项目(2004JX17)第23卷第2期大 学 数 学Vol.23,.22007年4月COLLEGE MATHEMA TICSApr.2007多元线性回归在分析学生成绩相关性中的应用俞能福(安徽建筑工业学院 数理系,安徽 合肥230022)摘 要利用多元线性回归分析法,根据学生专业课成绩与基础课成绩的相关性,建立了回归方程,进行定量分析,结果为教学研究和管理提供了科学的依据.关键词多元线性回归;逐步回归;专业课;基础课中图分类号 O21216文献标识码 B文章编号 167221454(2007)02200422051 引 言回归分
2、析是多元统计分析方法中应用最为广泛的一种,它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为控制和预测提供科学依据.本文应用多元线性回归分析学生成绩的相关性.2 多元线性回归模型及其检验211 多元线性回归模型一般地,我们考虑回归模型y=b0+b1x1+bmxm+,(1)其中x1,x2,xm是自变量b0,b1,bm是未知参数,是零均值随机变量.如果对(1)两边求期望,则有多元线性回归方程E(y)=b0+b1x1+bmxm.(2)估计未知参数b0,b1,bm是多元线性回归分析的核心任务之
3、一.由于参数估计的工作是基于样本数据的,由此得到的参数只是参数真值的估计值,记为 b0,b1,bm.我们用最小二乘法,解得模型(1)的多元经验回归方程 y=b0+b1x1+b2x2+bmxm.(3)但存在两个问题:(i)y与x1,x2,xm是否有较好的线性关系;(ii)对模型加以优化,看能否改进,即是否存在x1,x2,xm中的某个变量与y无关或它能被其它变量代替,因而回归模型中可以删除这个变量.212 回归方程统计检验通过样本数据建立回归方程后,一般不能立即用于对实际问题的分析和预测,通常要进行各种统计检验,包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验等.21211
4、回归方程的相关性检验回归方程的显著性检验旨在对模型中因变量与自变量之间的线性关系在总体上是否显著成立做出推断,回归方程的显著性检验方法之一是通过复相关系数(全相关系数)R=(yi-?y)2(yi-?y)2.复相关系数越接近于1,模型的拟合优度越高.为了削弱参数个数对复相关系数的影响,我们用修正的复相关系数,其平方为?R2=(n-1)n-mR2-m-1n-m.我们也可用检验零假设H0:b1=b2=bm=0的F检验,可以证明:F检验等价于复相关系数的显著性检验.21212 回归系数的显著性检验方程的总体线性关系显著不等于每个自变量对因变量的影响都是显著的.因此,必须对每个自变量进行显著性检验,即检
5、验H0i:bi=0,i=0,1,2,m,以决定是否作为自变量被保留在模型中.这一检验是由对统计量的t检验完成的.21213 偏相关系数检验偏相关系数是衡量两个变量之间在消除其它变量影响之下的线性相关程度的数量指标,我们在选择自变量因子时,可以根据偏相关系数的大小予以取舍,从而提高相关分析的精确度.3 多元回归分析法在学生成绩分析中的应用我们知道,一二年级所学基础课的成绩对后续专业课的成绩是有影响的,且它们之间基本上是正相关的.但它们之间关系密切的程度有多大?它们之间又有怎样的内在规律性呢?现在利用多元回归分析方法,对我院02级信息与计算科学专业100名学生的基础课成绩和专业课成绩进行分析,建立
6、数学模型,进行定量分析.可以基于此模型对教学及学生学习给出合理的建议和预测.311 确定回归方程中的变量正态性检验:在我们即将用到的多元统计方法中都是有一个大前提的,那就是假定样本来自m元正态总体,所作的统计推断的结论是否正确,在某种意义上取决于实际总体与正态总体接近的程度如何?因此在进行具体的统计分析计算之前有必要对欲处理的数据进行正态性检验,我们用Kolmogorov检验法检验,结果均近似服从正态分布.现对模型所需变量定义如下:自变量x1,x2,x3,x4,x5,x6,x7,x8分别为数学分析,高等代数,解析几何,大学英语,复变函数,概率统计,C语言,离散数学成绩,因变量y为专业课成绩,先
7、后取数据结构,信息论基础,数值分析,数字信号处理,运筹学,常微分方程成绩进行分析.为使各变量之间具有可比性,先将原始数据xi和y进行了标准化处理(数据略).312 确定回归模型根据经验知因变量和自变量之间大致成线性关系,故可建立线性回归模型即模型(1)进行线性回归分析.313 建立回归方程并进行显著性检验31311 利用向前筛选(Forward)策略建立回归方程在多元线性回归分析中,模型中应引入多少个自变量是需要重点研究的.如果引入的变量较少,回归方程将无法很好地解释说明因变量的变化,但是也并非引入的变量越多越好.因此有必要采取一些策略对变量引入回归方程加以控制和筛选.我们采用向前筛选策略,它
8、是自变量不断进入回归方程的过程.首先,选择与因变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验;然后,在剩余的变量中寻找与因变量偏相关系数最高且通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验;这个过程一直重复,直到再也没有可进入方程的变量为止.在向前筛选策略中.对给定34第2期 俞能福:多元线性回归在分析学生成绩相关性中的应用显著水平,若某个自变量的t统计量的概率p值小于,则该自变量应入选回归方程;若某个自变量的t统计量的概率p值大于,则该自变量不能引入回归方程,引入变量的过程结束,所得方程即为“最优”方程.数据处理是在SPSS 1210 for Windows软
9、件中进行的,默认的显著性水平为0105.31312 基础课对专业课的影响及分析现以数据结构与算法的分析为例.利用向前筛选策略求解数据结构与算法的回归方程的计算步骤如下:根据预先规定的显著性水平=0105,由表2知离散数学的显著性(significance)检验对应的概率p值为01000,首先选入回归方程的自变量是离散数学.重新计算未进入回归方程的变量的统计量,从表3偏相关(Partial correlation)系数一栏找出最大值.因为C语言的偏相关系数为01439,t检验对应的概率p值为01000,所以自变量C语言在第2步进入回归方程.重复第 步,概率统计的偏相关系数最大,其值为01259,
10、t检验对应的概率p值为01010.所以,概率统计在第3步进入回归方程.从表3模型3可以看到,复变函数的偏相关系数最大,其值为01004,则引入变量的过程结束,所得的方程即为“最优”方程.整个计算过程见表2,可以很清楚地看到利用逐步回归法共经过三步完成回归方程的建立,最终的回归模型为第3个模型.根据模型3可得出回归表达式y1=-41225+01174x6+01483x7+01385x8.(4)表1Model SummarydModelRR SquareAdjustedR SquareStd.Error ofthe Estimate1.661a.438.4328.010642.739b.546.5
11、377.234143.759c.577.5637.02293a.Predictiors:(Constant),离散数学 b.Predictors:(Constant),离散数学,C语言程序设计c.Predictors:(Constant),离散数学,C语言程序设计,概率与数理统计d.Dependent Variable:数据结构与算法表2CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientsBStd.ErrorBetatSig.1(Constant)离散数学25.799.62751725.072.66141507
12、81731.000.0002(Constant)离散数学C语言程序设计-314921507.511719851069110615341353-143771289418131663100010003(Constant)离散数学C语言程序设计概率与数理统计-4122513851483117471757108211041066140613331222-15454171441659216311587100010001010a.Dependent Variable:数据结构与算法44大 学 数 学 第23卷表3Excluded V ariablesdModelBeta IntSig.PartialCor
13、relationCollinearityStatisticsTolerance1数学分析高等代数解析几何大学英语复变函数概率与数理统计C语言程序设计-1047a1033a1002a1031a1138a1262a1353a-15371395102913871150121841418131592169419771700113710051000-105410401003103911511277143917441811192318981669162918712数学分析高等代数解析几何大学英语复变函数概率与数理统计-1013b1057b-1043b1004b1092b1222b-11661747-159
14、210591109721631186914571555195312751010-10171076-10601006111112591738180819081893166016223数学分析高等代数解析几何大学英语复变函数-1106c-1026c-1091c-1061c004c-11267-1315-11279-1820104212081753120414141967-1129-1032-1130-1084100416321676185718021547a.Predictors in the Model:(Constant),离散数学b.Predictors in the Model:(Cons
15、tant),离散数学,C语言程序设计c.Predictors in the Model:(Constant),离散数学,C语言程序设计,概率与数理统计d.Dependent Variable:数据结构与算法表1的数据项含义依次是:因变量与自变量的复相关系数、判定系数R2、调整的判定系数R2、回归方程的标准误差,依该表可进行回归方程的拟合优度检验:R2=01577.表2的数据项含义依次是:偏回归系数、偏回归系数的标准误差、标准化偏回归系数、回归系数检验中的t统计量的观测值和对应的概率p值.依该表可进行回归系数的显著性检验:模型3说明离散数学、C语言和概率统计成绩对数据结构与算法的影响较大,回归效
16、果显著,可用于预测分析.表3展示了变量筛选进入方程的过程.例如模型1中的数据项含义依次是:在选中离散数学后,如果其它变量还保留在方程中,标准化回归系数、t统计量的观测值和对应的概率p值、容忍度,除C语言的概率p=0100小于外,其余均大于或等于.利用向前筛选策略,可以得出其它专业课成绩的回归方程,并且进行了回归方程的拟合优度检验、回归系数的显著性检验.信息论基础:y2=35.5+0.35x6+0.25x8.数值分析:y3=21.1+0.17x5+0.24x6+0.29x8.数字信号处理:y4=21.1+0.17x5+0.24x6+0.29x8.运筹学:y5=39.2+0.17x6+0.28x8
17、.常微分方程:y6=22.9+0.19x1+0.25x4+0.17x6.314 利用回归方程进行预测由上述分析我们可以看出,专门课的成绩好坏大多受到基础课的综合影响.而且这种影响具有如下特点:1)数学专业课受数学基础课的影响较大,比如数学分析对常微分方程影响就很大.2)计算机专业课受计算机基础课的影响较大,比如C语言程序设计和离散数学对数据结构与算法的影响就很大.3)计算机和数学相结合的课程会同时受计算机和数学基础课的影响,比如数值分析与试验和数字信号处理这两门专业课就都受到复变函数、概率论与数理统计和离散数学这三门基础课的影响,其中复变函数和概率论与数理统计可以认为是数学学科的基础课,而离散
18、数学可以认为是计算机学科的基54第2期 俞能福:多元线性回归在分析学生成绩相关性中的应用础课.我们用多元回归分析法来分析基础课与专业课成绩之间的相关性,为调整课程设置提供了科学的依据.参 考 文 献1 高惠璇.应用多元统计分析M.北京:北京大学出版社,2005.2 朱道元,等.多元统计分析与软件SASM.南京:东南大学出版社,1999.3 薛薇.SPSS统计分析方法及应用M.北京:电子工业出版社,2004.Application of Multivariate Linear Regression in Analysisof the Correlation of StudentsGradesYU
19、 Neng2f u(Anhui Institute of Architecture&Industry,Hefei,Anhui 230022,China)Abstract:Based on the analysis method of multivariate linear regression,regression equation of the relationship ofcollege basic courses and professional courses have been set up to make quantitative analysis.the result of statisticalanalysis offers a scientifical foundation for the teachers research and management.Key words:multivariate linear regression;stepwise regression;professional course;basic course64大 学 数 学 第23卷