《虚拟变量问题幻灯片.ppt》由会员分享,可在线阅读,更多相关《虚拟变量问题幻灯片.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、虚拟变量问题第1页,共27页,编辑于2022年,星期二一、一、虚拟变量的基本含义虚拟变量的基本含义n可以定量度量可以定量度量的经济变量;的经济变量;n无法定量度量无法定量度量的经济变量;的经济变量;n“量化量化”问题问题 这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成来完成的。根据这些因素的属性类型,构造只取的。根据这些因素的属性类型,构造只取“0”或或“1”的人工变量,通常称为的人工变量,通常称为虚拟变量虚拟变量(dummy variables),记为),记为D。第2页,共27页,编辑于2022年,星期二例如,例如,反映文化程度的虚拟变量可取为:反映文化程度的虚拟
2、变量可取为:企业薪金模型企业薪金模型:其中:其中:Yi为企业职工的薪金为企业职工的薪金,Xi为工龄为工龄,Di=1,若是男性,若是男性,Di=0,若是女性。,若是女性。第3页,共27页,编辑于2022年,星期二 一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:基础类型、肯定类型取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念:一个回归模型所包含的解释变量都是虚拟变量或定性变一个回归模型所包含的解释变量都是虚拟变量或定性变量,这种模型称为量,这种模型称为方差分析(方差分析(analysis-of variance:ANOVA)模型)模型。同
3、时含有。同时含有一般定量解释变量一般定量解释变量与与虚拟虚拟变量变量的模型称为的模型称为协方差分析模型协方差分析模型(analysis-of covariance:ANCOVA),也可称之为,也可称之为虚拟变量模型虚拟变量模型。第4页,共27页,编辑于2022年,星期二二、虚拟变量的引入二、虚拟变量的引入 虚拟变量虚拟变量做为做为解释变量解释变量引入模型有两种基本引入模型有两种基本方式:方式:加法方式加法方式和和乘法方式乘法方式。企业男职工的平均薪金为:企业男职工的平均薪金为:1.加法方式加法方式 在企业职工薪金模型在企业职工薪金模型 中,如果中,如果仍假定仍假定E(i)=0,则,企业女职工的
4、平均薪金为:,则,企业女职工的平均薪金为:第5页,共27页,编辑于2022年,星期二几何意义:几何意义:企业男职工的平均薪金为:企业男职工的平均薪金为:企业女职工的平均薪金为:企业女职工的平均薪金为:20第6页,共27页,编辑于2022年,星期二 可将可将多个虚拟变量多个虚拟变量引入模型中以考察多种引入模型中以考察多种“定性定性”因素的影响。因素的影响。如在企业职工薪金的例中,再引入代表学历的如在企业职工薪金的例中,再引入代表学历的虚拟变量虚拟变量D2:职工薪金的回归模型可设计为:职工薪金的回归模型可设计为:第7页,共27页,编辑于2022年,星期二女职工本科以下学历的平均薪金:女职工本科以下
5、学历的平均薪金:女职工本科以上学历的平均薪金:女职工本科以上学历的平均薪金:不同性别、不同学历职工的平均薪金分别为:不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:第8页,共27页,编辑于2022年,星期二2.乘法方式乘法方式n加法方式引入虚拟变量,考察:加法方式引入虚拟变量,考察:截距的不同截距的不同,n许多情况下:往往是斜率有变化,许多情况下:往往是斜率有变化,或斜率、截或斜率、截距同时发生变化。距同时发生变化。例:例:根据消费理论,消费水平根据消费理论,消费水平C主要取决于收入
6、水平主要取决于收入水平Y,C=+Y+消费倾向的变化可通过在收入的系数中引入虚拟消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。变量来考察。第9页,共27页,编辑于2022年,星期二假定假定E(t)=0,上述模型所表示的函数可化为:上述模型所表示的函数可化为:正常年份:正常年份:反常年份:反常年份:可建立如下消费模型:可建立如下消费模型:其中:其中:当截距与斜率发生变化时,则需要同时引入加法与当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。乘法形式的虚拟变量。第10页,共27页,编辑于2022年,星期二 例例,考考察察1990年年前前后后的的中中国国居居民民的的总总储储蓄蓄
7、-收收入入关关系系是是否已发生变化。否已发生变化。第11页,共27页,编辑于2022年,星期二第12页,共27页,编辑于2022年,星期二 以以Y表示储蓄,表示储蓄,X表示收入,可令:表示收入,可令:n1990年前:年前:Yi=1+2Xi+1i i=1,2,n1 n1990年后:年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)1=1,且且 2=2,即即两两个个回回归归相相同同,称称为为重重合合回回归归(Coincident Regressions););(2)1 1,但但 2=2,即即两两个个回回归归的的差差异异仅仅在在
8、其其截截距距,称称为为平行回归平行回归(Parallel Regressions);(3)1=1,但但 2 2,即即两两个个回回归归的的差差异异仅仅在在其其斜斜率率,称为称为汇合回归汇合回归(Concurrent Regressions);(4)1 1,且且 2 2,即即两两个个回回归归完完全全不不同同,称称为为相相异异回回归归(Dissimilar Regressions)。)。第13页,共27页,编辑于2022年,星期二 可通过引入加法和乘法形式的虚拟变量来解决可通过引入加法和乘法形式的虚拟变量来解决这一问题。这一问题。将将n1与与n2次观察值合并,估计以下回归:次观察值合并,估计以下回归
9、:于是有:于是有:分别表示分别表示1990年年后期后期与与前期前期的储蓄函数。的储蓄函数。Di为引入的虚拟变量为引入的虚拟变量:第14页,共27页,编辑于2022年,星期二DependentVariable:SAVEMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C1535.0301094.9211.4019550.1779GNP0.0747100.0167904.4496270.0003D1-1981.8661433.745-1.3823000.1838D1*GNP0.0319220.
10、0854630.3735150.7131R-squared0.862854 Meandependentvar3340.064AdjustedR-squared0.839996 S.D.dependentvar3335.840S.E.ofregression1334.353 Akaikeinfocriterion17.39325Sumsquaredresid32048977 Schwarzcriterion17.59162Loglikelihood-187.3257 Hannan-Quinncriter.17.43998F-statistic37.74888 Durbin-Watsonstat1
11、.155555Prob(F-statistic)0.0000001.虚拟变量模型估计结果(虚拟变量模型估计结果(90年前后)年前后)series d1=0smpl 1980 1990d1=1smpl all第15页,共27页,编辑于2022年,星期二 在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说明两的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。个时期中储蓄函数的斜率不同。n具体的回归结果为:具体的回归结果为:由由 3与与 4的的t 检验可知:参数并非显著地不等于检验可知:参数并非显著地不等于0,显示两个时期的回归是,显示两个时期的回归是相同相同的。的。重新估计的共同的储蓄
12、函数为:重新估计的共同的储蓄函数为:第16页,共27页,编辑于2022年,星期二DependentVariable:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C-102.0413440.6968-0.2315450.8192GNP0.0975120.00942310.348480.0000R-squared0.842633 Meandependentvar3340.064AdjustedR-squared0.834764 S.D.dependentvar3335.840S.E.o
13、fregression1355.993 Akaikeinfocriterion17.34896Sumsquaredresid36774336 Schwarzcriterion17.44815Loglikelihood-188.8386 Hannan-Quinncriter.17.37233F-statistic107.0911 Durbin-Watsonstat0.920219Prob(F-statistic)0.0000002.模型重新估计结果(模型重新估计结果(90年前后)年前后)第17页,共27页,编辑于2022年,星期二于是有:于是有:分别表示分别表示1997年年前期前期与与后期后期的
14、储蓄函数。的储蓄函数。Di为引入的虚拟变量为引入的虚拟变量:第18页,共27页,编辑于2022年,星期二DependentVariable:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C-913.4075338.0093-2.7023150.0146GNP0.1479910.01192012.415060.0000D25344.9524440.3981.2037100.2443D2*GNP-0.1163310.054654-2.1285120.0474R-squared0.9353
15、79 Meandependentvar3340.064AdjustedR-squared0.924608 S.D.dependentvar3335.840S.E.ofregression915.9398 Akaikeinfocriterion16.64074Sumsquaredresid15101023 Schwarzcriterion16.83912Loglikelihood-179.0482 Hannan-Quinncriter.16.68747F-statistic86.84846 Durbin-Watsonstat2.044984Prob(F-statistic)0.0000003.虚
16、拟变量模型估计结果虚拟变量模型估计结果1(97年前后)年前后)第19页,共27页,编辑于2022年,星期二 在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说明两个时的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。期中储蓄函数的斜率不同。n具体的回归结果为:具体的回归结果为:由由t 检验可知,参数检验可知,参数 3并非显著地不等于并非显著地不等于0,而参数而参数 4显著地不等于显著地不等于0:显示两个时期的回归:显示两个时期的回归斜率是不同斜率是不同的,截距项相同的,截距项相同。重新估计得:。重新估计得:第20页,共27页,编辑于2022年,星期二DependentVariabl
17、e:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C-882.4364340.9869-2.5878900.0180GNP0.1471680.01204012.222810.0000D2*GNP-0.0517650.010606-4.8808010.0001R-squared0.930177 Meandependentvar3340.064AdjustedR-squared0.922827 S.D.dependentvar3335.840S.E.ofregression926.697
18、2 Akaikeinfocriterion16.62725Sumsquaredresid16316587 Schwarzcriterion16.77603Loglikelihood-179.8998 Hannan-Quinncriter.16.66230F-statistic126.5580 Durbin-Watsonstat1.974813Prob(F-statistic)0.0000003.虚拟变量模型估计结果虚拟变量模型估计结果2(97年前后)年前后)第21页,共27页,编辑于2022年,星期二97年前后的储蓄函数为:年前后的储蓄函数为:1997年前:年前:1997年后:年后:第22页,
19、共27页,编辑于2022年,星期二3.临界指标的虚拟变量的引入临界指标的虚拟变量的引入 在在经经济济发发生生转转折折时时期期,可可通通过过建建立立临临界界指指标标的的虚虚拟拟变变量模型来反映。量模型来反映。例例如如,进进口口消消费费品品数数量量Y主主要要取取决决于于国国民民收收入入X的的多多少,中国在改革开放前后,少,中国在改革开放前后,Y 对对X的回归关系明显不同。的回归关系明显不同。这这时时,可可以以t*=1979年年为为转转折折期期,以以1979年年的的国国民民收收入入Xt*为临界值,设如下虚拟变量:为临界值,设如下虚拟变量:进口消费品的回归模型建立如下进口消费品的回归模型建立如下:第2
20、3页,共27页,编辑于2022年,星期二 OLS法得到该模型的回归方程为法得到该模型的回归方程为则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:当当t t*=1979年,年,当当t t*=1979年,年,第24页,共27页,编辑于2022年,星期二三、虚拟变量的设置原则三、虚拟变量的设置原则 每一定性变量所需的虚拟变量个数要比该定性变量每一定性变量所需的虚拟变量个数要比该定性变量的类别数少的类别数少1,即,即如果有如果有m个定性变量,只在模型中引入个定性变量,只在模型中引入m-1个虚拟变量个虚拟变量。例,已知冷饮的销售量例,已知冷饮的销售量Y 除受除受k 种定量变量种定量变量Xk的
21、影响的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:季的影响,只需引入三个虚拟变量即可:第25页,共27页,编辑于2022年,星期二冷饮销售量的模型:冷饮销售量的模型:若再引入第四个虚拟变量:若再引入第四个虚拟变量:冷饮销售模型变量为:冷饮销售模型变量为:其矩阵形式为:其矩阵形式为:第26页,共27页,编辑于2022年,星期二 如果只取六个观测值,其中春季与夏季取了两次,如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:秋、冬各取到一次观测值,则式中的:显然,显然,(X,D)中的第中的第1列可表示成后列可表示成后4列的线性组合,从列的线性组合,从而而(X,D)不满秩,参数无法唯一求出。不满秩,参数无法唯一求出。这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷井”,应避免。,应避免。第27页,共27页,编辑于2022年,星期二