统计学重点部分归纳.doc-淘文阁

资源描述

《统计学重点部分归纳.doc》由会员分享，可在线阅读，更多相关《统计学重点部分归纳.doc（161页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date统计学重点部分归纳第三章第三章全距也称极差，是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。四分位数：数据按大小顺序排序后把分割成四等分的三个分割点上的数值。 SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（

2、3 n+1)/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1 反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。方差是一组数据中各数值与其算术平均数离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。离散系数：标准差与其相应的均值之比，表示为百分数。特点：（1）反映了相对于均值的相对离散程度；（2）可用于比较计量单位不同的数据的离散程度；（3）计量单位相同时，如果两组数据的均值相差悬殊，离散系数可能比标准差等绝对指标更有意义数据分

3、布的不对称性称作偏态。偏态系数就是对数据分布的不对称性（即偏斜程度）的测度。峰度：数据分布的扁平或尖峰程度。峰度系数：数据分布峰度的度量值，对数据分布尖峰或扁平程度的测度，一般用K表示。箱线图用于描述数据分布特征的一种图形。最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的：先根据三个四分位数Q1、Q2、Q3画出中间的盒子，然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的：先根据三个四分位数Q1、Q2、Q3画出中间的盒子；由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线，由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线；处于Q3+1

4、.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出；大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。例子：数据的 Z值也称标准化值，等于变量值与其平均数的离差除以标准差，用Z表示。 Z值的均值等于0，标准差等于1。是对某一个值在一组数据中相对位置的度量。z0说明观测值大于均值。 z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差第四章假设检验推断统计：在搜集、整理观测样本数据的基础上，对有关总体作出推断特点：随机性的观测样本数据以及问题的条件和假定，对未知事物作出以概率形式表述的推断参数估计（1）基本概念：点估计：

5、用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。例如，在估计总体方差时，和都可作为估计量。点估计量常用的评价准则： a无偏性：估计量的数学期望与总体待估参数的真值相等： b有效性：在两个无偏估计量中方差较小的估计量较为有效。 c一致性：指随着样本容量的增大，估计量越来越接近被估计的总体参数。精确量越高，样本容量越大区间估计：根据事先确定的置信度1-给出总体参数的一个估计范围。置信度1-的含义置信度1-的含义是：在同样的方法得到的所有置信区间中，有100(1-)% 的区间包含总体参数。置信是什么？抽样分布抽样分布：区间估计的理论基础。从总体中抽取一个样本量

6、为n的随机样本，我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为n的样本，就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。抽样分布的要点：抽样分布是统计量的分布而不是总体或样本的分布。在统计推断中总体的分布一般是未知的，不可观测的（常常被假设为正态分布）。样本数据的统计分布是可以直接观测的，最直观的方式是直方图，可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出，在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。 . 样本均值的均值（数学期望）等于总体均值 . 样本均值的方差等于总体方差的1/n样

7、本均值抽样分布结论：一般的，当总体服从 N(,2 )时，来自该总体的容量为n的样本的均值也服从正态分布，X 的期望为，方差为2/n。即N(,2/n)。 2=10/4=2.5中心极限定理：从均值为，方差为的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为/n的正态分布。简单随机抽样、重复抽样时，样本均值抽样分布的标准差标准差等于，这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。简单随机抽样、不重复抽样时，样本均值抽样分布的方差略小于重复抽样的方差，等于，称为有限总体校正系数，当抽样比（n/N）=0.05,所以不能拒绝两个总

8、体均值的比较：检验统计量的选择两个总体均值的比较：检验统计量的选择两个总体方差相等和不相等时，t统计量的计算公式不同。因此，检验两个总体的均值是否相等时，需要先检验两个总体的方差是否相等！例：某农业研究所研制出一种新的化肥，现要研究施肥土地的小麦产量是否比不施肥土地的小麦产量有显著提高，随机抽取几块土地进行试验。选10快试验田不施肥，结果最后的每亩产量数据为（单位：公斤）：172、158、186、214、224、228、196、190、202、170。另选8块试验田施肥，结果最后的每亩产量数据为：252、204、234、246、222、210、244、212。试检验施肥和不施肥的平均亩产量

9、有无显著差异（=0.05） p值=0.5820.05，不能拒绝方差相等的原假设。在方差相等时下面一行的输出结果无效。在方差不相等时上面一行的输出结果无效。p值=0.0040.05，拒绝均值相等的原假设。两个总体均值差异的检验（匹配样本）如果两个样本是非独立的匹配样本，即两个样本中的数据是一一对应的，这时对两个总体的均值的比较，就是对两个样本对应数据之差的检验。第5章方差分析方差分析：主要目的是通过对方差的比较来检验多个均值之间差异的显著性（可看作t检验的扩展，只比较两个均值时与t检验等价），主要用于研究一个定量因变量与一个或多个定性自变量的关系。基本原理：方差分析原理1.比较两类误差，以

10、检验均值是否相等2.比较的基础是方差比 1.比较两类误差，以检验均值是否相等 2.比较的基础是方差比 3.如果系统(处理)误差显著地不同于随机误差，则均值就是不相等的；反之，均值就是相等的 4.误差是由各部分的误差占总误差的比例来测度的随机误差因素的同一水平(总体)下，样本各观察值之间的差异。比如，同一专业下不同毕业生的起薪是不同的。这种差异可以看成是随机因素的影响，称为随机误差系统误差因素的不同水平(不同总体)下，各观察值之间的差异。比如，不同专业之间的毕业生的起薪之间的差异这种差异可能是由于抽样的随机性所造成的，也可能是由于专业所造成的，后者所形成的误差是由系统性因素造成的，称为系统误差

11、组内方差(within groups)：因素的同一水平(同一个总体)下样本数据的方差；比如，专业一的毕业生的起薪的方差；组内方差只包含随机误差组间方差(between groups)：因素的不同水平(不同总体)下各样本之间的方差；比如，四个专业的毕业生的起薪的方差；组间方差既包括随机误差，也包括系统误差方差分析中的基本假设（1）每个总体都应服从正态分布（2）各个总体的方差必须相同（3）观察值是独立的。（比如，每个专业毕业生的起薪与其他专业毕业生的起薪相互独立）单因素方差分析：一个自变量（因素）和一个因变量。张三的起薪 =专业1的平均起薪+随机因素带来的影响 =总平均起薪+专业1的平均值与总平

12、均值之差 + 随机因素带来的影响各离差平方和的大小与观察值的多少有关，为了消除观察值多少对离差平方和大小的影响，需将其平均，即均方。计算方法是用离差平方和除以相应的自由度三个平方和的自由度分别是三个平方和的自由度分别是SST 的自由度为n-1，n为全部观察值的个数SSA的自由度为r-1，其中r为因素水平的个数SSE 的自由度为n-r组间方差组内方差若因素A的不同水平对结果没有影响，那么在组间方差中只包含有随机误差，两个方差的比值会接近1；反之，该比值就会大于1；当这个比值大到某种程度时，就可以说因素A对结果有显著影响。 F（r-1,n-r)F检验当H0为真时，二者的比值服从分子自由度为k-1

13、、分母自由度为 n-k 的 F 分布，即上面公式方差分析的步骤1.检验数据是否符合方差分析的假设条件。2.提出零假设和备择假设：零假设：各总体的均值之间没有显著差异，即备择假设：至少有两个均值不相等，即 3.根据样本计算F统计量的值。 4.确定决策规则，根据p值与的比较得出检验结论。在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布。临界值拒绝域p-值实际值 F检验的临界值和拒绝域拒绝原假设正态检验Qq图事后检验:在方差分析中，当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的

14、方法进行分析。用LSD法进行多重比较的步骤（注意有木有“0”）第六章非参数检验也称与总体分布无关的检验特点：（1）非参数检验不需要严格假设条件，因而比参数检验适用范围广。（2）非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据，而参数检验通常只能用于定量数据的分析。（3）非参数检验的功效要低于参数检验方法（前提：参数检验和非参数检验都适用）以下情况首选非参数方法：以下情况首选非参数方法：（1）参数检验中的假设条件不满足，从而无法应用。例如总体分布为偏态或分布形式未知，且样本为小样本时。（2）检验中涉及的数据为定类或定序数据。（3）所涉及的问题中并不包含参数，如判断

15、某样本是否为随机样本，判断某样本是否来自正态分布等。（4）对各种资料的初步分析。拟合优度检验：在总体分布未知时，根据来自总体的样本，检验关于总体分布的假设的一种检验方法。 df为自由度，为卡方特别说明：（1）大样本、每个单元中的期望频数大于等于5时可以使用c2分布。（2）小样本时应该按照精确方法计算得到的 p 值得出结论。（3）c2检验也可以按照同样的思想对正态分布或者任何其他分布进行检验，但主要用于对定性变量的检验。（4）c2检验也可以用于对两个总体分布的比较。单样本 K-S 检验Kolmogorov Smirnov 通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分

16、布总体定义：若对每一个x值来说，如果经验分布函数与特定分布函数的拟合程度很高，则有理由认为样本数据来自具有该理论分布的总体。检验统计量：根据检验统计量的精确分布或渐近分布，我们可以计算出假设检验的 p 值，从而得出检验的结论。例子结果分析：在 K-S 检验中如果使用的是小样本，则根据渐近分布计算 p 值的误差会增大。单样本中位数的符号检验在数据呈偏态分布的情况下，我们可能对总体的中位数更感兴趣，希望对总体的中位数作出推断，这时可以使用符号检验（sign test）的方法。在非正态总体小样本的情况下，如果要对总体分布的位置进行推断，由于 t 检验不适用，也可使用符号检验的方法。例子：在某地区随

17、机调查了60个家庭的月收入（数据文件：家庭月收入.sav）。根据样本数据能否认为总体中家庭月收入的中位数等于5000元（显著性水a=0.05）？步骤：每个数据都减去零假设中的中位数，记录其差值的符号。计算正、负符号的个数（差值为0的不计算在任何一个中），当原假设为真时二者应该很接近；若两者相差太远，就有理由拒绝原假设。当正号和负号个数之和大于25时，可以按照正态分布进行近似计算。匹配样本的非参数检验如果 t 检验的假设条件不满足，t 检验就不适用了。可以用符号检验或 Wilcoxon 符号秩检验替代。匹配样本数据为用对应的数据相减得到新的序列：零假设：差值总体的中位数=0；备择假设

18、：差值总体的中位数0。对于差值序列中正数的个数和负数的个数，按照符号检验的方法进行假设检验。Wilcoxon 符号秩检验Wilcoxon 符号秩检验步骤：（1）计算差值绝对值的秩（2）将差值绝对值从小到大排序，其位次就是的秩（rank），等于 0 值不参与排序秩就是该数据按照升序排列之后，每个观测值的位置。数据中有相同的数值，称为结。结中数字的秩为它们所占位置的平均值（3）分别计算出差值序列中正数的秩和以及负数的秩和。显然，如果零假设成立，W+与W-应该比较接近。如果二者过大或过小，则说明零假设不成立。（4）将正数的秩和或者负数的秩作为检验统计量，根据其统计分布计算 p 值，从而得出检

19、验的结论。符号检验在匹配数据分析应用中只用到差值的符号，而对差值数值的大小未能考虑，因而失去了部分信息。Wilcoxon符号秩检验既考虑差值的符号，又考虑差值的大小，因此在所需的假设条件满足时其功效比符号检验高。Wilcoxon符号秩检验也可以用于单样本中位数的非参数检验，这时只需要将第二个样本的值设为零假设中的数值即可。这里看不懂？！两个独立样本的 Wlicoxon 秩和检验两个独立样本的 Wlicoxon 秩和检验如果零假设成立，在样本量相同的情况下两个秩和应该比较接近；样本量不同的情况下平均秩和的平均秩应该比较接近。否则就说明两个总体的中位数是不相等的。例子：已知某企业职工的收入调查中

20、20名本科毕业生和15名研究生的月收入（元）（数据文件：本科研究生收入.sav），试比较本科生和研究生的收入水平（显著性水平a =0.05）。由于收入一般是右偏分布，因此不适合用t检验进行分析。我们用Wilcoxon符号秩检验来比较两个总体的中位数。检验的零假设和备择假设如下：H0：本科和研究生月收入的中位数相等；H1：本科和研究生月收入的中位数不相等。根据精确检验的p值，在显著性水平大于0.002时我们应该拒绝原假设，结论是本科与研究生的收入的中位数不相等。 Kruskal-Wallis检验也是根据秩和来构造检验统计量的。Kruskal-Wallis检验是Wlicoxon秩和检验的推广，

21、用来对多个总体的中位数进行比较。将所有样本的数据合在一起，从小到大排序得到每个数值的秩，然后计算各样本的秩和以及平均秩。如果各组没有显著性差异，则各组的平均秩应该趋于相等；如果各组的平均秩相差较大，则各组中位数有显著性差异的可能性较大。小结：小结第七章相关与回归分析函数关系：当一个变量取一定数值时，另一个变量有确定值与之相对应。相关关系：当一个变量取一定数值时，与之相对应的另一变量的数值虽然不确定，但它仍按某种规律在一定的范围内变化。相关分析：研究变量之间相关的方向和相关的程度，但无法给出变量间相互关系的具体形式，因而无法从一个变量推测另一个变量。回归分析：可以确定变量之间相互关系的具体形式

22、（回归方程），确定一个变量对另一个变量的影响程度，并根据回归方程进行预测。（更具体）散点图是观察两个变量之间的相关程度和类型最直观的方法。是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。在散点图中习惯上把因变量绘制在纵轴上。相关系数是用来衡量变量之间相关程度的指标，根据变量的多少和属性可以有多种不同的计算方法。皮尔逊相关系数衡量两个定量变量之间线性相关程度的常用指标。通常以表示总体的相关系数，以r表示样本的相关系数。相关系数r 的特征当r0时，X与Y为正相关；当r0时，X与Y为负相关。没有单位，取值介于-1与1之间。绝对值越接近1说明关系越密切。r1

23、为完全正相关，而r-1为完全负相关。注意：当r=0时，只是表明两个变量之间不存在线性关系，它并不意味着X与Y之间不存在其他类型的相关关系。线性关系度量说明样本相关系数r的抽样分布1.r的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时，随着n的增大，r 的抽样分布趋于正态分布，尤其是在总体相关系数很小或接近0时，趋于正态分布的趋势非常明显。而当远离0时，除非n非常大，否则r的抽样分布呈现一定的偏态。2.当为较大的正值时，r 呈现左偏分布；当为较大的负值时，r 呈现右偏分布。只有当接近于0，而样本容量n很大时，才能认为r是接近于正态分布的随机变量.注意：相关关系因果关系！典

24、型的错误推断：统计分析表明，庆祝生日次数越多的人越长寿。因此，庆祝生日有利于健康。调查表明，世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此，电视机拥有量越高，预期寿命越长。对小学各年级学生的抽样调查表明，学生的识字水平与他们鞋子的尺寸高度正相关。因此，学生穿的鞋越大，他的识字水平就越高。一元线性回归分析回归函数描述因变量y如何依赖于自变量x和随机误差项的方程。总体回归函数的形式如下：样本回归函数是对总体回归函数的一个样本估计结果。样本回归函数与总体回归函数区别 1、总体回归线是未知的，只有一条。样本回归线是根据样本数据拟合的，每抽取一组样本，便可以拟合一条样本回归线。 2

25、、总体回归函数中的0和1是未知的参数，表现为常数。而样本回归函数中的和是随机变量，其具体数值随所抽取的样本观测值不同而变动。 3、总体回归函数中的et是t与未知的总体回归线之间的纵向距离，它是不可直接观测的。而样本回归函数中的t是t与样本回归线之间的纵向距离，当根据样本观测值拟合出样本回归线之后，可以计算出t的具体数值。一元线性回归模型的统计假设在满足一系列假设条件的情况下，最小二乘估计量是方差最小线性无偏估计量。需要的基本假设条件包括：最小二乘估计最小二乘回归直线的性质最小二乘估计量的有关性质最小二乘估计量是Y的线性函数。最小二乘估计量是无偏估计量，它的期望值等于总体的真实值；最小二

26、乘估计量在所有线性无偏估计量中具有最小方差。例子上式中，0.725是边际消费倾向，表示人均可支配收入每增加1千元，人均消费支出平均会增加0.725千元；0.566是自主性消费，即与收入无关的最基本人均消费为0.566千元。将代入回归方程，得到2011年人均消费支出的预测值。一元线性回归方程的评价和检验拟合优度1、决定系数（1）回归直线与各观测数据的接近程度称为回归直线的拟合优度。（2）度量回归直线的拟合优度最常用的指标是决定系数。（3）该指标是建立在对总离差平方和进行分解的基础之上的。何为“离差”？何为“离差”？因变量 y 相对于其均值的差异称为离差，用来表示。离差来源于两个方面：由

27、于自变量 x 的取值不同造成的除 x 以外的其他因素（如x对y的非线性影响、测量误差等）的影响离差平方和的分解（三个平方和的意义）（1）总平方和（SST）反映因变量的 n 个实际观察值与其均值的总离差（2）回归平方和（SSR）反映自变量 x 的变化对因变量 y 取值变化的影响，也即因变量的理论值与其样本均值的离差，或者说，是由于 x 与 y 之间的线性关系引起的 y 的取值变化，也称为可解释的平方和。（3）残差平方和（SSE）不能由回归直线加以解释的残差平方和。反映除 x 以外的其他因素对 y 取值的影响，也称为不可解释的平方和或剩余平方和。决定系数为：其取值为： R2的取值范围是0，1。 R

28、2越接近于1，表明回归平方和占总离差平方和的比例越大，回归直线与各观测点越接近，回归直线的拟合程度就越好。在一元线性回归中，相关系数r的平方等于判定系数，符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。所有的回归程序都会给出R2的值。2、估计标准误是对各观测数据在回归直线周围分散程度的一个度量值，可以证明，是对误差项的标准差的无偏估计。式中p为模型中自变量的个数，一元回归中等于1。估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。各观测数据越靠近回归直线，估计标准误就越小，回归直线对各观测数据的代表性就越好。与R2不同的是，估计标准误是一个有单位的绝对数。标

29、准误回归分析中的显著性检验回归分析中的显著性检验包括两方面的内容：（1）是对单个自变量回归系数的显著性检验（ t检验）；（2）是对整个回归方程（所有自变量回归系数）显著性的整体检验（ F检验）。在一元线性回归模型中，由于只有一个解释变量X，因此，对10的t检验与对整个方程的F检验是等价的。单个回归系数显著性的t检验第1步：提出假设。一般为,对于一些具体问题也可能需要进行单侧检验。第2步：确定检验的统计量。可以证明在回归模型的基本假设成立时，如果零假设正确，则有第3步：计算检验统计量的样本观测值或p值。第4步：进行决策根据显著性水平a和自由度dfn2确定检验统计量的临界值,时拒绝H0；或者p

30、值时拒绝H0；或者p值时拒绝H0，如果不能拒绝零假设，则说明所有自变量作为一个整体对因变量都没有解释能力。注意这里F检验是右侧检验！例子：根据表7-1的数据，建立北京市城镇居民消费模型，以人均年消费性支出（变量Y）为因变量，以人均年可支配收入（变量X）为自变量，建立一元线性回归模型，并对回归方程进行显著性检验。假设2011年北京市人均年可支配收入为2.9万元，请根据已建立的消费模型预测2011年人均消费支出。将带入代入回归方程，得到2011年人均消费支出的预测值。多元线性回归模型总体回归函数：样本回归方程：多元线性回归模型的基本假设完全的多重共线性：一个自变量可以表示为其他自变量和常数项的

31、线性函数，例如x1 = 2x2 +x3 +5。例题7.3根据表71的数据，建立北京市城镇居民消费模型，要求以人均年消费性支出（变量Y）为因变量，以人均年可支配收入（变量X）和家庭恩格尔系数（变量Z）为自变量，建立二元线性回归模型。二元线性回归方程为：变量X的回归系数为0.602，其统计含义：在居民家庭恩格尔系数不变的条件下，居民可支配收入每上升1个单位（千元），居民消费“平均”上升0.602个单位（千元）；变量Z的回归系数为0.097，说明在居民可支配收入不变的条件下，居民恩格尔系数每降低1个单位（即降低1%），居民消费水平就会“平均”上升0.097个单位（千元）。多元回归方程的检验R2的正

32、的平方根称为复相关系数，它度量了因变量同p个自变量的相关程度。修正的判定系数n-1和n-p-1实际分别是总离差平方和与残差平方和的自由度。Ra2小于1，但未必都大于0，在拟合极差的情况下， Ra2有可能为负值。修正后的拟合优度可能为负值.可决系数为0.997。这个指标可用于计算“复相关系数” （正的平方根）。修正的可决系数为0.997。回归标准误差为0.27276，其统计含义为，根据该回归方程对城镇居民消费水平进行拟合时，平均的估计误差为272.76元。多元回归中的t检验非线性回归分析 (1)如果y 与 x 之间不是线性关系，通常可以通过变量代换使其转换成线性模型，然后再对线性模型进行估计。

33、 (2)但并非所有的非线性模型都可以化为线性模型。逐步回归的思想 (1)将变量逐一引入回归方程，先建立与y相关最密切的一元线性回归方程，然后再找出第二个变量，建立二元线性回归方程，。 (2)在每一步中都要对引入变量的显著性作检验，仅当其显著时才引入，而每引入一个新变量后，对前面已引进的变量又要逐一检验，一旦发现某变量变得不显著了，就要将它剔除。这些步骤反复进行，直到引入的变量都是显著的而没有引入的变量都是不显著的时，就结束挑选变量的工作。 (3)可以设定引入和删除变量的条件。违背回归模型统计假设的常见情况违背回归模型统计假设的常见情况（1）异方差当回归模型随机误差项的方差不为常数时，即为异

34、方差现象：当异方差出现时，回归模型的估计量不再具有最小方差的性质，因此不再保持有效性；同时，我们此前介绍的t检验也失效，无法对回归系数的显著性进行检验。（2）序列相关序列相关的后果：（1）尽管普通最小二乘估计量仍为无偏估计量，但不再具有最小方差的性质，即不是“最优线性无偏估计量”；（2）回归系数的显著性检验失效。（3）多重共线性a完全多重共线性：一个自变量可以表示为其他自变量（包括常数项）的线性函数。后果：违背基本假设，模型的参数无法估计。需要去掉一个自变量。例如：在以下回归模型中，存在完全多重共线性：因变量：消费自变量：第一产业增加值；第二产业增加值；第三产业增加值；GDP。b.高度多重共线性：如果某两个或多个解释变量之间出现了高度的相关性，则称为高度多重共线性。例如：在以下回归模型中，应该会有高度的多重共线性：因变量：消费；自变量：收入、财富。高度多重共线性的后果 (1)并不违背OLS的基本假设，存在高度多重共线性时，正规方程仍有唯一解。因此 OLS仍然是BLUE （Best Linear Unbiased Estimate）的。 (2

展开阅读全文