《第六章 多元回归分析.pdf》由会员分享,可在线阅读,更多相关《第六章 多元回归分析.pdf(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章 多元回归分析其它问题 模型y=0+1x1+2x2+.+kxk+u 变量测量单位的影响 模型的方程形式 拟合度与调整的拟合度 预测和残差分析重新定义变量 改变变量y 的度量单位会使估计的系数及其标准差同时发生相应变化,但是估计值的显著性不会改变,对估计值的解释也不变 改变变量 一个 x 变量的度量单位会使该变量的系数的估计值及其标准差同时发生相应变化,但是估计值的显著性不会改变,对估计值的解释也不变重新定义变量 表6.1、数据测度的影响 对参数估计的影响 对R2、t检验、F检验的影响 各种不同的函数形式的影响 y=0+1x1+u y=0+1 lnx1+u lny=0+1x1+u lny=
2、0+1 lnx1+uBeta系数 有时你们会注意到“beta 系数”或者“标准化的系数”的提法,这是有特殊含义的 这里的想法是用标准化后的y 和x 来替代原值,即减去均值后再除以标准差 这里的回归系数反映的是以相应标准差计的每单位x 的变化导致的y 的变化 经济上的显著和统计上的显著Beta系数?0112201 12211122212k1212k112212k12kz()()()()()()iixiiikikikkiiikikkiyikiiiikkyyyyxxyxxxyxxxyyxxxxxxxxxyyyxxxxxx =+=+=+=+LLLLLL设、和分别是、和 的样本标准差?,1,.,beta
3、ijjjybjk=$称为 系数(系数)。方程的形式 OLS 也可以用来估计x 和y 的非线性的方程,但对于要估计的系数来说仍然是线性的 可以取x 或 y 的对数形式,或两者的对数形式 可以用 x 的平方项 可以用 x 变量之间的交叉项对于对数方程的解释 假设方程为 ln(y)=0+1ln(x)+u1则是 x 对y 的弹性 若为 ln(y)=0+1x+u1则近似的反映一单位x 的变化导致的y 的百分比变化量 若为 y=0+1ln(x)+u1则近似的反映x百分之百的变化量导致的y的变化为什么要使用对数方程?由于对数模型中变量度量的是百分比的变化量,模型的估计与变量的度量单位无关 直接给出了弹性估计
4、 对于 y 0的模型,条件分布往往存在异方差或偏斜,但用 ln(y)就会好一些 ln(y)的分布更加集中,从而减弱了野点(outlier)的影响一些要点 哪些变量常采用对数形式?美元的度量总是正的 数值特别的变量,如人口 哪些变量常采用水平值的形式(level form)?用年度量的一些变量 用比例或者百分比度量的一些变量含平方项的模型假设模型为 y=0+1x+2x2+u,此时我们不能把1解释为每单位x的变化导致的 y 的变化,我们需要把2也考虑进来,因为()xxyxxy21212 so,2+含平方项的模型(续)假设 x 的系数为正,x2的系数为负 那么 y 开始时随 x 增大而增大,但最终会
5、随x 增大而减小()*1212 0 0 2x=当且临界点含平方项的模型(续)假设 x 的系数为负,x2的系数为正 那么 y 开始时随 x 增大而减小,但最终会随x 增大而增大()*121212 0 0 2 0 0 x1或F1()()()1111122=nSSTnSSTknSSRR调整后的 R-Squared(续)我们很容易可以得到 调整的R2,(1 R2)(n 1)/(n k 1),但是大部分的软件会同时给出 R2和 调整的R2 可以通过比较调整的R2来比较两个模型(同一个y)的拟合程度 但是不能通过调整的R2来比较两个被解释变量不同的模型(如:y 与 ln(y))拟合程度 重要的是不要过于关
6、注调整的R2而忽略了理论和经济常识本身 如果经济理论清楚地预计某个变量应当被包括进来,那么就加入这个变量 不要加入影响对所关注的变量进行合理解释的变量;切记多元回归含意之一是控制了其它因素预测值的标准差 如何利用我们的估计结果进行预测呢?首先,假设我们要对以下预测值进行估计 E(y|x1=c1,xk=ck)=0=0+1c1+kck 当然,我们很容易将c 带入到原方程中去,但标准差如何得到呢?这其实就相当于一个线性假设检验的问题预测值(续)原式可以改写为0=01c1 kck 代入回归方程后有:y=0+1(x1-c1)+k(xk-ck)+u 然后用 yi对(xij-cij)进行回归,截距项给出的就
7、是预测值和标准差 注:当c 等于x 的均值时,预测值的标准差最小预测值(续)这里预测值的标准差并不等同于y 的实际值的标准差我们还需要考虑不可观察的扰动项的标准差。假设预测偏差为()()()()()()()()00000001 100000122020020 ,kkeyyxxuyE eVar eVar yVar uVar yse ese y=+=+=+=+K且或者预测范围()()000001000.025,95%n kese eteyyyytse e=因此由我们的到 的一个的预测范围 通常这里的s2(预测偏差的标准差)要比预测值标准差大很多,因此 这个预测范围要比预测值的简单置信区间宽不少X1
8、+TXtYtX95%的置信区间带预测区间tTXY1+=+预测区间预测区间残差分析从残差中我们可以得到一些信息(即预测值与观察值)例:用汽车的价格对汽车的特征进行回归,较大的负残差说明买的不错 例:用收入对学校学生的个人特征进行回归,大的正的残差说明很大增加值预测对数模型中的 y 简单取 ln(y)预测值的指数函数会低估y 的预测值 我们需要在ln(y)预测值的指数函数基础上再乘以exp(u)的期望值()()()()22exp()exp(2)0,exp2 exp lnEuuNyyy=如果在这种情况下我们可以用如下公式计算的预测值:预测对数模型中的 y(续)如果u 不服从正态分布,E(exp(u)
9、就必须用辅助回归来进行估计 计算 ln(y)的预测值的指数函数,然后用y 对它做不含截距项的回归 回归结果中的系数就是E(exp(u)估计值,可以用来乘以 ln(y)的预测值的指数函数来得到y 的预测值对数模型和水平模型的比较前面分析的副产品是如何比较对数模型和水平模型 取上面辅助回归的拟合值,然后计算样本中该拟合值和y之间的相关系数 比较水平回归中的R2和以上相关系数的平方项对预测的评价评价预测的最重要的一个指标就是预测方差。通常所用的另一个指标是平均预测误差的平方根,记为rms error,则另一个评价预测的统计量是Theil不相等系数=TtatstYYTerrorrms12)(1=+=T
10、tatTtstTtatstYTYTYYTU121212)(1)(1)(1Theil不相等系数的分子就是rms error,由此可知评价预测主要指标实际就是预测误差平方和的均值显然=TtatstYYT12)(1=+=+=TtaatsstasaatTtassstaatsstasTtasaatsstTtatstYYYYYYYYTYYYYYYYYYYTYYYYYYTYYT112221212)(2)(21)(2)()()(1)(1)(1asasasasasasTtTtaatsstTtTtaatsstTtaatsstasasTtaatsstTtasTtaatsstTtaatsstTtaatasTtssta
11、sTtasTtaatsstTtaatsstTtasaatTtassstTtTtasTtaatsstYYYYYYTYYTYYTYYTYYYYTYYYYYYTYYYYTYYTYYYYYYYYTYYYYYYTYYYYTYYYYYYYYTYYYYYYYYYYT)1(2)()(2)()(1)(1)(1)(1)(12)()(12)()(1)(1)()()(12)()(2)()()(1)()(12)(2)()()(122222112211221222111221111122111112122+=+=+=+=+=+=令称UM、US和UC分别为U的偏无比例、方差比例和协方差比例,并且有UM+US+UC=1因此UM表示预测的系统偏误,US表示因变量和预测量的变化偏误,合意的预测是UM=US=0和UC=1=22222)()1()1(2)()1()()()1()(atstasCatstasSatstasMYYTUYYTUYYTYYU作业:pp206-6.2 6.4 6.6