《matlab的回归分析.pdf》由会员分享,可在线阅读,更多相关《matlab的回归分析.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 1第五讲 回归分析 回归分析在金融领域的应用十分广泛,许多软件,比如:SPSS、EVIEWS 等,为回归分析提供了便捷的菜单式操作。这些标准的菜单式操作给理论应用者带来方便的同时,同时也散失了对数据进行分析的灵活性。比如:当我们要处理根据1000 只股票的价格时间序列和相应的股票指数价格序列,利用单因素模型或资本资产定价模型(CAPM)求各股票的贝塔系数。处理如此大量的数据,应用菜单式操作效率将非常低。这时候如果利用 MATLAB 来处理,MATLAB 强大的数据处理和计算能力就体现出来了。再比如:在金融研究和实证中,经常要使用哑变
2、量(Dummy variable)。例如,行业哑变量,如果要分析 10 个行业则需要 10 个行业哑变量。在对包含这些哑变量的解释变量进行回归的时候,为避免多重共线性的问题,通常要在常数项和这 10 个行业哑变量之间去掉一个以后,再进行回归分析。但这样一来给回归出来的各解释变量前面的系数带来了解释上的麻烦。比如:我们去掉第一个行业哑变量,保留常数项进行回归。则第二个行业哑变量前面回归出来的系数实际上代表了第二个行业与第一个行业之间的差异,其他行业哑变量前面回归出来的系数依此类推。如果我们去掉常数项,而保留 10 个行业哑变量,则第一个行业哑变量前面回归出来的系数实际上代表了第一个行业的平均值,
3、其他行业哑变量前面回归出来的系数依此类推。在实际应用中,我们实际上更关注不同行业与所有行业平均值(常数项)之间的差异,但我们又必须在常数项和这 10 个行业哑变量之间去掉一个,因此,回归出来的系数并非我们想要的直观结果。这时,我们就需要对通常意义上使用的回归做一些调整。Suits(1984)给出了调整的具体方法。通过 MATLAB 可以轻易地实现这些调整。因此,即便在 EVIEWS 等其他软件提供的便捷菜单式操作情形之下,MATLAB 凭借其强大的数据处理能力和灵活的处理方式,MATLAB 在最常用的回归分析中仍有其用武之地。一、普通最小二乘回归 1线性回归 线性回归分析是金融领域中常用的分析
4、方法。线性回归分析假定自变量X与因变量Y之间存在以下关系:YX=+其中12(,.,)kXXXX=,12(,.,)k=,为随机扰动项。如果上式中包含常数项,则11X=。线性回归分析除了上述假设之外,还有以下几个重要假设:()0E=;2()EI=;()0EX=对于线性回归,MATLAB 本身提供了多种函数,读者可以自行在 MATLAB 自带的 Help 文档中查阅。这里给读者介绍一个比较实用的多元线性回归函数mregress,该函数可以在 上免费下载,由 MATLAB 爱好者G.Anthony Reina编写(见函数的说明部分)。该函数内容如下:function Coefficients,S_er
5、r,XTXI,R_sq,F_val,Coef_stats,Y_hat,residuals,covariance=mregress(Y,X,INTCPT)%MREGRESS Performs multiple linear regression analysis of X(independent)on Y(dependent).金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 2%Usage:%Coefficients,S_err,XTXI,R_sq,F_val,Coef_stats,Y_hat,residuals,covariance.%=mregress(Y,X,INTCPT)%
6、INTCPT=1;include a y-intercept in the model%INTCPT=0;DO NOT include a y-intercept in the model%Returns:%Coefficients-Regression coefficients%S_err-Standard error of estimate%XTXI-inverse of X*X%R_sq-adjusted R-squared%F_val-F-value for the regression and siginificance level(p-value for F)%Coef_stats
7、-Coefficients with their standard deviations,T-values,and p-values%Y_hat-Fitted values%residuals-Residuals%covariance-Covariance matrix(XTXI*S_err2)%G.Anthony Reina%Motor Control Lab%The Neurosciences Institute%Created:4 Aug 1998%Last Update:10/8/1998 by GAR%Please note that for the case when the in
8、tercept of the model equals zero,the%definition of R-squared and the F-statistic change mathematically.For a linear%model containing the y-intercept,R-squared refers to the amount of variance around%the mean of the dependent variable(y)which is explained by the variance around the%mean of the indepe
9、ndent variables(x).For a linear model NOT containing the%y-intercept,R-squared measures the amount of variance around ZERO of the dependent%variable which is explained by the variance around ZERO of the independent variable.%If the same equation for R-squared is used for both with and without a y-in
10、tercept%(namely R-squared=Sum of Squares of the Regression/Total sum of the squares),%then R-squared may be a NEGATIVE value for some data.For this reason,%this subroutine will calculate R-squared using the total un-corrected sum of the%squares.In effect,this approach avoids negative R-squares but m
11、ay lack any%meaningful interpretation for the goodness-of-fit in the model.It has been%suggested by some texts that a more useful approach is to always use the case%where y-intercept is included in the model.However,as with all statistical%analyses,it is prudent to simply be aware of what your data
12、looks like and%what your statistical tools are actually measuring in order to generate a useful%analysis.%For further reading on regression through the origin(i.e.without a y-intercept),%please refer to:%Neter J,Kutner MH,Nachtsheim CJ,and Wasserman W.Applied Linear%Statistical Models 4th ed.Irwin p
13、ublishing(Boston,1996),pp 159-163.%Myers R,Classical and Modern Regression with Applications Duxbury Press%(Boston,1986),p.30.金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 3if(nargin=1 for i=1:q b=zeros(K);for j=(i+1):N b=b+x(j,:)*residuals(j)*residuals(j-i)*x(j-i),:)+x(j-i),:)*residuals(j)*residuals(j-i)*x(j,:);e
14、nd c=c+b*(1-i/(q+1);end end Cov=N/(N-K)*inv(x*x)*(a+c)*inv(x*x);T_stat=Coefficients./sqrt(diag(Cov);下面利用 1990 年 12 月 19 日到 2005 年 12 月 30 日的上证综合指数日收盘价,应用上述函数newey_westreg对上海股票市场的周日效应进行实证检验。在 MATLAB 主窗口下键入:clear x=xlsread(shindex);%读入上证综合指数(第一列为日期,第二列为收盘价)y=x(:,2);r=price2ret(y);z=x(2:end,1);g=myweek
15、day(z);%判断每个交易日为星期几%生成 5 个哑变量矩阵 for i=1:length(z)D(i,g(i)=1;end%对哑变量进行调整 n=sum(D)/sum(sum(D);newD=D(:,2:5)-D(:,1)*n(2:5);Coefficients,S_err,R_sq,T_stat,Cov=newey_westreg(r,newD,1)上面的程序中用到了自定义的函数 myweekday,其内容如下:function f=myweekday(x,para)%input:x is a integer vector,which must be accordance with da
16、te%expression;par is 1 or 0,1 indicates that the date format is EXCEL%format,0 is Matlab format%output:f is a number chosen from 1to 7,represent days from Monday to%Sunday,respectively.if nargin=1|para=1 x=reshape(x,length(x),1)+datenum(1899,12,30);%change date expression from EXCEL to MATLAB 金融计算与编
17、程(2007年1月)上海财经大学金融学院 曹志广 10 elseif para=0,x=reshape(x,length(x),1);else error(wrong)end x0=datenum(2006,1,16);%reference point:2006/1/16 is Monday y=mod(x-x0,7);f=y+1;输出结果如下:Coefficients=0.0001 -0.0012 0.0015 0.0007 0.0026 S_err=0.0272 R_sq=0.0032 T_stat=0.1235 -1.2280 1.4767 0.5810 2.8582 Cov=1.0e-
18、005*0.0556 -0.0435 -0.0360 -0.0207 -0.0382 -0.0435 0.0971 0.0192 0.0087 0.0106 -0.0360 0.0192 0.1002 -0.0116 0.0296 -0.0207 0.0087 -0.0116 0.1525 0.0260 -0.0382 0.0106 0.0296 0.0260 0.0817 然后利用回归的结果计算系数1,在 MATLAB 主窗口下键入:beta1=-n(2:5)*Coefficients(2:5)得到周一哑变量前的系数1为:beta1=-7.1330e-004 为得到系数1的标准误差和 t 统
19、计量,在 MATLAB 主窗口下键入:std_beta1=sqrt(n(2:5)*Cov(2:5,2:5)*n(2:5);T_beta1=beta1/std_beta1;得到1的标准误差 std_beta1=4.8932e-004,t 统计量 T_beta1=-1.4577 因此,得到的回归方程如下:金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 11 1,2,3,4,5,(0.1235)(1.4577)(1.2280)(1.4767)(0.5810)(2.8582)0.0001 0.00070.00120.00150.00070.0026 ttttttRDDDDD=+括弧中为估
20、计系数的 t 统计量。从上述回归方程中可以看出周五的收益率在 5%显著水平下高出平均水平。3.应用线性回归检验月份效应 类似地,下面利用 1990 年 12 月 19 日到 2005 年 12 月 30 日的上证综合指数日收盘价,应用上述函数newey_westreg对上海股票市场的月份效应进行实证检验。我们想要得到以下回归方程中的系数(略去了时间下标)。112233445566778899101011111212RMMMMMMMMMMMM=+类似地,我们施加以下约束条件:1210iiiM=,这里121/MMiijjMnn=,,1,2,.,12Mini=分别表示1月份到12月份的观测值数量。然
21、后再对下式进行回归(舍去了1月份的哑变量):22331212.tRMMM=+?(5)11MiiiMnMDMn=?,2,3,12i=在 MATLAB 主窗口下键入:clear x=xlsread(shindex);y=x(:,2);r=price2ret(y);z=x(2:end,1);g=mymonth(z);for i=1:length(z)M(i,g(i)=1;end%对哑变量进行调整 n=sum(M)/sum(sum(M);newM=M(:,2:12)-M(:,1)*n(2:12);Coefficients,S_err,R_sq,T_stat,Cov=newey_westreg(r,ne
22、wM,1);beta1=-n(2:12)*Coefficients(2:12)std_beta1=sqrt(n(2:12)*Cov(2:12,2:12)*n(2:12);T_beta1=beta1/std_beta1;%get the constant and coefficients from January to December Coefficients_adj=Coefficients(1);beta1;Coefficients(2:end)%get t statistics for the constant and coefficients from January to Decem
23、ber T_stat_adj=T_stat(1);T_beta1;T_stat(2:end)金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 12 最后,我们得到常数项和 1 月到 12 月份的系数 Coefficients_adj,以及相对应的 t 统计量 T_stat_adj。Coefficients_adj=0.0011 0.0005 0.0014 -0.0010 0.0006 0.0014 0.0001 -0.0032 0.0011 -0.0020 -0.0028 0.0012 -0.0016 T_stat_adj=1.2680 0.5898 1.0082 -0.7079
24、0.3586 0.4001 0.0516 -2.2054 0.4753 -1.3925 -1.7121 0.6070 -1.1213 由上面的分析可以看出:7 月份的收益在 5%显著水平下,低于平均水平。4.应用线性回归检验周末效应、月份效应和假日效应 下面讨论利用线性回归分别检验收盘价对第二天收盘价收益率、收盘价对第二天开盘价收益率、开盘价对当天收盘价收益率、收益波动率和成交量的周末效应、月份效应和节日效应。这里我们只讨论春节、五一、十一和元旦四个节日前后交易日是否存在假日效应。应用同样的上证综合指数样本,我们需要估计下面回归方程中的系数。5129,111tii tii tii ttiiiy
25、d Dm MhH=+(6),i tD,1,2,.,5i=表示周一到周五的哑变量,id,1,2,.,5i=为其相应的系数;,i tM,1,2,.,12i=表示 1 月份到 12 月份的哑变量,im,1,2,.,12i=为其相应的系数;金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 13,i tH,1,2,.,9i=表示节日前及节日后的哑变量,,i tH,1,.,4i=分别表示春节、五一、十一和元旦节前的最后一个交易日,,i tH,5,.,8i=分别表示春节、五一、十一和元旦节后的第一个交易日,9,tH表示非节假日,ih,1,2,.,9i=为这些节日哑变量前相应的系数。这里我们的被解
26、释变量分别有:收盘价对第二天收盘价收益率/c ctr、收盘价对第二天开盘价收益率/c otr、开盘价对当天收盘价收益率/o ctr、收益波动率t和成交量tv。其定义分别如下:/1ln(/)c ccctttrPP=/1ln(/)c ooctttrPP=/ln(/)o ccotttrPP=ln(/)*ln(/)ln(/)*ln(/)hohclolctttttttttPPPpPPPP=+)ln(ttVv=其中:otP表示第t个交易日的开盘价;ctP表示第t个交易日的收盘价;htP表示第t个交易日的最高价;ltP表示第t个交易日的最低价;tV表示第t个交易日的成交手数。为估计出(6)式中的各项系数,我
27、们必须先施加以下条件:51291110iiiiiiiiid Dm MhH=这里91/HHiijjHnn=,,1,2,.,9Hini=分别表示春节、五一、十一和元旦前一个交易日、后一个交易日以及非节日交易日的观测值数量。根据上述约束条件我们很快得到:dddndndnd155221+=mmmnmnmnm11212221+=金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 14 hhhnhnhnh199221+=然后对下式进行回归 5129,222tii tii tii ttiiiyd Dm MhH=+?(7)其中:=tDDititiDnnDD,11,5,2=i =tMMititiMnn
28、MM,11,12,2=i =tHHititiHnnHH,11,9,2=i 然后,采用与前面类似的方法,分别计算周一哑变量前的系数1d、1月哑变量前的系数1m和春节前一个交易日哑变量前的系数1h,以及它们相应的t统计量。最后得到的结果如表所示。上海股票市场的日历效应检验上海股票市场的日历效应检验上海股票市场的日历效应检验上海股票市场的日历效应检验 cctr/octr/cotr/t tv d1-0.01 0.08*-0.08-0.09*-0.03*d2-0.11-0.05 -0.06 0.06*-0.02 d3 0.16*0.03 0.13*-0.06*-0.01 d4-0.15*0.02 -0.
29、16*0.04 0.02 d5 0.11*-0.07*0.18*0.05*0.04*m1-0.02-0.13*0.12 0.06-0.14 m2 0.08-0.01 0.09 0.09-0.08 m3 0.20*0.04 0.16*-0.09 0.12 m4 0.09 0.02 0.07-0.07 0.30*m5 0.07 0.07 0.00 0.27 0.03 m6 0.12 0.08 0.03 0.08 0.07 m7-0.07 0.01 -0.08-0.02 0.08 m8-0.07-0.03 -0.04-0.01 0.02 m9-0.11 0.02 -0.12-0.09-0.05 m1
30、0-0.02 0.11*-0.13 0.05-0.01 金融计算与编程(2007年1月)上海财经大学金融学院 曹志广 15 m11-0.03-0.04 0.01-0.09-0.08 m12-0.20-0.12 -0.09-0.10-0.28*h1 1.01*0.17*0.84*-0.37*-0.01 h2-0.34 0.01 -0.35 0.14-0.04 h3 0.53 0.09 0.44-0.28*-0.22 h4 0.00 0.20*-0.20-0.21-0.03 h5 0.73 0.80*-0.08-0.16 0.00 h6-0.48 0.50 -0.98-0.31-0.02 h7-0.66*-0.03 -0.63-0.04-0.44*h8-0.17-0.20 0.03-0.20-0.36*h9 0.00-0.01*0.00 0.01*0.01*c 0.03*0.04*-0.02 0.98*14.11*t 0.001*t2 0.000*,*和*分别代表1%、5%和10%显著水平下显著。