《回归大作业-基于多元线性回归的期权价格预测模型毕业论文.docx》由会员分享,可在线阅读,更多相关《回归大作业-基于多元线性回归的期权价格预测模型毕业论文.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于多元线性回归的期权价格预测模型王某某(北京航空航天大学 计算机学院 北京 100191)作者简介:王某某,北京航空航天大学研究生 邮箱:bnuwjx。摘 要:期权是国际市场成熟、普遍的金融衍生品,是金融市场极为重要的金融工具。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF期权,翻开了境内场内期权市场的新篇章。50ETF期权上市以来,市场规模逐步扩大,其发展情况境外期权产品相同时期。本文以此为研究背景,以“50ETF购12月1.95”这支期权为研究对象,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性
2、回归模型,预测该期权的明日收盘价。本次研究以多元线性回归的全模型(模型1)为出发点,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,结果表明因变量与解释变量之间存在强烈的线性相关关系,且主成分回归和逐步回归相比全模型有更好的预测能力。关键词:期权价格 多元线性回归 50ETF 多重共线性 因子分析一、引言期权(option)是依据合约形态划分的一种衍生品,指赋予其购买方在规定期限内按买卖双方约定的价格(即协议价格或行权价格)购买或者出售一定数量某种金融资产(即标的资产)的权利的
3、合约。期权购买方为了获得这个权利,必须支付给期权出售方一定的费用,称为权利金或期权价格1。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF,翻开了境内场内期权市场的新篇章。期权是与期货并列的基础衍生产品,是金融市场极为重要的金融工具之一。自50ETF上市以来,市场规模逐步扩大。2015年2月日均合约成交面值为5.45亿元,12月就达到了47.69亿元,增长了7.75倍;2月日均合约成交量为2.33万张,12月就达到了19.81万张,增长了7.5倍;2月权利金总成交额为2.48亿元,12月就达到了35.98亿元,增长了13.51倍1。我国股票市场有上亿的个人投资者,
4、是一个较为典型的散户市场1。相较于专业投资机构讲,散户缺乏时间,精力以及专业分析,投资具有很大的投机行为。对于这些投资者来说,期权价格的变动则是他们最为关注的问题,其变化直接影响到自身的收益。在实际情况中,影响股票价格的因素很多,涉及到金融政策、利率政策以及国际市场等因素,其作用机制也相当复杂2。因此,对于期权价格预测的研究,则可以降低投资者的投资风险,及时调整投资结构,从而保障自身的收益。本文选择“50ETF购12月1.95(期权代码:10000629)”这支期权作为研究对象,根据过去一个月内期权的交易数据,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价
5、为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。下文由如下几部分构成:第二部分介绍了本次研究的数据集,包括数据来源、和数据字段;第三部分重点介绍了各个多元线性回归模型,包括全模型及异方差检验,残差的独立性检验、误差的正太分布检验和多种共线性检验,在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善;第四部分运用第三部分建立的各个模型对期权价格进行了预测;第五部分对本文研究进行了总结并未来的研究加以展望。二、数据说明本次研究的数据来源于Wind资讯金融终端,从上面获取了“50ETF购12月1.95”这支期权自2016年10月24日至2016年11月24日(只包含工作日)共计2
6、4日的交易数据。经过整理后得到最终的数据字段,见表1。表 1 期权交易数据字段收盘价开盘价最高价最低价结算价成交额成交量持仓量涨停价跌停价 期权交易数据见附录1。三、建模1 符号说明 各个变量及其符号说明见表2。表 2 各个变量及其符号说明变量符号明日收盘价Y今日开盘价X1今日收盘价X2今日最高价X3今日最低价X4今日结算价X5今日成交额X6今日成交量X7今日持仓量X8今日涨停价X9今日跌停价X102 解释变量与指标变量的散点图在建立模型之前,首先利用MATLAB绘制各个解释变量与指标变量(明日收盘价)之间的散点图,观察各个解释变量与指标变量之间的关系,散点图结果见图1。图 1 各个解释变量与
7、指标变量(明日收盘价)的散点图通过图一中的散点图可以看出,明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系;而与今日成交额以及今日成交量之间的线性关系并不明显。3 全模型 通过散点图我们观察到指标变量与各个解释变量之间大致上为线性关系,所以考虑多元线性回归模型进行建模。3.1 模型建立与求解首先建立各个解释变量与指标变量的全模型,即考虑如下模型:Y=0+1X1+10X10+ N0, 2 式中,0,1,10,2都是与解释变量无关的未知参数,其中0,1,10称为回归系数。在MATLAB中使用regress函数即可求
8、解此多元线性回归模型,求解结果见表3.表 3 MATLAB求解全模型结果回归系数回归系数的估计值回归系数置信区间00.1555-0.1938 0.504911.8288-0.9212 4.578720.0586-1.5671 1.684330.6199-0.4249 1.66474-1.0532-1.9703 -0.13625-1.2208-3.8759 1.434260.0000-0.0000 0.00007-0.0000-0.0001 0.00008-0.0000-0.0000 0.000090.3233-1.0317 1.67831000 0R2 = 0.9489 F = 26.7989
9、 p 0.0001 s2 = 0.0001从上表容易看出模型(1)成立,此时指标变量与解释变量满足的回归模型为:Y=0.1555+1.8288X1+0.0586X2+0.6199X3-1.0532X4-1.2208X5+0.3233X9 (模型1)在MATLAB中画出模型1的残差分布,见图2。图 2 模型1的残差分布除第12个数据外其余残差的置信区间均包含零点,因此第12个点应当视为异常点,将其剔除后重新计算,得到模型2:Y=0.2484+1.5432X1+0.0291X2+0.7482X3-0.8726X4-1.1292X5+0.1584X9 (模型2)模型2的R2 = 0.9736,F =
10、 49.1655,p 0.0001,s2 = 0.0001。但同时我们发现,各个回归系数的置信区间仍然均包含零点。画出模型2的残差分布,发现又出现了异常点,按照上面的方法剔除异常点直至没有异常点产生。最终一共去掉了5个异常点(分别是2,12,15,22以及23),最终得到模型3:Y=0.3999+2.7664X1-0.5987X2+1.6607X3-1.3712X4- 3.1596X5-0.0001X7+0.6669X9 (模型3)模型3的R2 = 0.9969,F = 281.6079,p 0.0001,s2 0.0001。可见模型2相当显著,各个回归系数的置信区间均不包含零点;但是去除的数
11、据点有5个(总共23个),去除的异常点比较多,容易去除有用信息,所以我们只把模型3作为后期预测的一个对比模型,在之后的分析中,我们只考虑去除第12个异常点的数据。接下来进行异方差检验,残差的独立性检验以及多重共线性检验。3.2 异方差检验图 3 残差对预测值的散点图通过SPSS画出残差对预测值的散点图,见图3。根据图3可以认为数据基本不存在异方差性,即认为随机误差具有相同的方差。3.3 残差的独立性检验通过SPSS的Durbin-watson检验得到DW值为2.545,模型2中解释变量数量k(包括常数项)为7,样本数量n 为22,查DW分布表得到相应的dL= 0.510,dU= 2.015。由
12、于dUDW4-dL,认为随机误差之间无自相关3。3.4 误差的正态分布检验通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图,见图4。图 4 误差的正太分布检验图从上图可以认为误差服从均值为0的正态分布。3.5 多重共线性检验多元线性回归模型的基本假设中要求设计矩阵X的列向量之间不存在密切的线性关系3,如果存在,就称它们之间存在多重共线性。表 4 多重共线性诊断结果通过SPSS进行多重共线性诊断,结果如下表。从上表可以看出绝大部分变量的VIF值远远大于10,说明严重存在多重共线性,针对多重共线性的问题,接下来用主成分分析加以处理。4 主成分回归利用MATLAB对这个十个解释变量进行主
13、成分分析,分析过程如下。1)对原始数据进行标准化处理xi= xi- isi即每个元素的值减去该列的均值,然后除以这一列的方差。2)计算相关系数矩阵R,结果见表表 5 解释变量的相关系数X1X2X3X4X5X6X7X8X9X10X11.000.920.980.961.000.610.50-0.880.920.92X20.921.000.900.960.910.430.31-0.880.990.99X30.980.901.000.940.980.680.58-0.880.910.91X40.960.960.941.000.950.460.34-0.840.960.96X51.000.910.980
14、.951.000.640.54-0.880.910.91X60.610.430.680.460.641.000.99-0.540.460.46X70.500.310.580.340.540.991.00-0.450.340.34X8-0.88-0.88-0.88-0.84-0.88-0.54-0.451.00-0.86-0.86X90.920.990.910.960.910.460.34-0.861.001.00X100.920.990.910.960.910.460.34-0.861.001.003)计算特征值和累计贡献率见表6表 6 各个解释变量的特征根和累计贡献率变量特征根累计贡献率X1
15、8.103081.03%X21.501196.04%X30.187897.92%X40.155399.47%X50.024099.71%X60.017399.89%X70.007499.96%X80.002899.99%X90.0013100.0%X100.0000100.0%可以看出,前两个特征根的累计贡献率就达到了90%以上,主成分分析效果很好。下面选择前四个主成分(累计贡献率99.47%)进行综合分析。4)前四个特征根对应的特征向量见表7表 7 前四个特征根对应的特征向量X1X2X3X4X5X6X7X8X9X10第1个特征向量0.34 0.33 0.35 0.34 0.35 0.23 0
16、.19 -0.32 0.34 0.34 第2个特征向量-0.03 -0.22 0.05 -0.18 0.01 0.61 0.68 0.05 -0.20 -0.20 第3个特征向量0.07 0.04 0.09 0.26 0.06 0.10 0.01 0.93 0.14 0.14 第4个特征向量0.45 -0.36 0.27 0.18 0.43 -0.14 -0.18 0.01 -0.40 -0.40 5)主成分回归模型求得的主成分回归模型如下:Y=0.204151+0.199353*X1+0.044479*X2+0.154424*X3+0.082825*X4+0.193987*X5+0.0002
17、89*X9+0.000353*X10 (模型4)5 逐步回归主成分回归求出的主成分是原始变量的线性组合,表示新的综合变量。接下来使用逐步回归的方法来筛选变量。在逐步回归中,决定一个变量时候有必要进入模型或者从模型中剔除时,常用的方法是偏F检验3,关于偏F检验这里不做赘述。图 5 逐步回归结果在MATLAB中使用stepwise函数进行逐步回归4,运行结果如图5求得的逐步回归模型如下:Y=1.0103*X3-0.6147*X4+0.6815*X9-0.7097*X10 (模型5)四、预测接下来我们利用上面求得的模型来进行期权价格预测。利用模型1、模型2、模型3、模型4和模型5分别预测了11月25
18、日至12月10日的期权价格,11月25日至12月20日的真实期权以及预测结果如表8。表 8 各个模型的预测结果日期真实数据模型1模型2模型3模型4模型52016-11-250.50410.52290.51350.10100.49400.52232016-11-280.53250.53810.53150.14800.51640.52292016-11-290.51410.59320.58070.04920.52930.55702016-11-300.52560.58200.56770.01570.54310.54582016-12-010.50790.55170.54250.18280.5319
19、0.53972016-12-020.46210.54730.53610.20310.52670.53772016-12-050.46230.49510.48910.38880.48960.49812016-12-060.46600.46060.46150.45790.46910.46822016-12-070.46690.46530.46450.41790.46810.47492016-12-080.49890.45990.46110.40660.47380.47202016-12-090.47570.52780.52400.28200.49330.51792016-12-120.46600.
20、53190.52650.28170.50410.51192016-12-130.45550.48120.47980.41310.47770.48442016-12-140.40030.47120.47410.43950.47050.46552016-12-150.39260.47000.46830.21020.44900.43672016-12-160.38120.41400.42320.45520.40920.39072016-12-190.36330.40550.41440.38920.40030.38292016-12-200.39040.40040.40890.31030.39190.
21、3757各个模型的平均误差以及误差百分比见表9。表 9 各个模型预测结果评价真实数据模型1模型2模型3模型4模型5平均误差0.04140.03850.18840.02640.0301平均误差百分比9.18%8.71%38.84%6.02%6.66%从表8和表9可以看出,模型4(主成分回归)和模型5(逐步回归)的结果最好,而模型3由于去掉了较多的异常点反而导致预测结果不好。接下来不考虑模型3,画出其余4个模型的预测结果与真实数据的折线图,见图6在图图 6 4个模型预测结果与真实数据的折线图4中,横坐标表示数据的序号,分别与各个日期对应,其中前面24个数据来自训练集,故而各个模型的预测结果与实际结
22、果接近;后面的数据则来自测试集,可以看出各个模型的预测结果与实际数据存在一定差异,不过总体趋势与实际数据比较匹配。其中模型4和模型5的预测结果最好。五、结论本文从以期权今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,期权明日收盘价为指标变量,建立了多元线性回归模型1,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,通过预测结果与真实数据的差异比较了各个模型的预测效果,结果表明主成分回归以及逐步回归相比全模型有更好的预测能力。实际情况
23、中,该期权的当日价格波动一般不会超过15%,而普遍真是情况是8%以内,可见模型4和模型5的预测效果并不理想,今后的研究可以在以下两个方面进行改进:不断向模型加入得到的最新数据;运用时间序列模型进行研究。参考文献1 吴清. 期权交易策略十讲M. 上海人民出版社, 20162 李珺. 基于因子分析的多元线性回归方法及其在股价预测中的应用D. 南京大学, 20143 孙海燕, 周梦, 李卫国, 冯伟. 数理统计M. 北京航空航天大学出版社, 20164 司守奎. 数学建模算法与应用(第2版)M. 国防工业出版社, 2015Option price forecasting model based on
24、 multiple linear regressionWang MoumouSchool of Computer Science, BeiHang University, Beijing 100191Abstract: Option is one kind of universal financial derivatives with a mature international market, and it is extremely important financial instrument. On February 9, 2015, the Shanghai Stock Exchange
25、 officially launched Chinas first floor trading options - SSE 50ETF options, opened a new chapter in the domestic market options market. 50ETF options since listing, the market gradually expanded, the development of offshore options products the same period. In this paper, the background of this stu
26、dy, 50ETF purchase December 1.95 this option for the study to todays opening, closing price, the highest price, lowest price, settlement price, volume, turnover, open interest, price and the limit price for the explanatory variables, through multiple linear regression model, the option of the closin
27、g price of tomorrow. In this study, the heterogeneity test, residual independence test, error positive distribution test and multicollinearity test were taken as the starting point of the whole model (model 1) of multivariate linear regression to show that the model did not violate the basic assumpt
28、ions of regression. The results show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and the stepwise regression are better than the whole regression model (step 4) and stepwise regression (model 5). The re
29、sults show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and stepwise regression have better prediction ability than the whole model.Keywords: Option price, Multiple linear regression, Multicollinearity,
30、Factor analysis附录1 期权交易数据日期收盘价开盘价最高价最低价结算价2016-11-240.46130.45100.47020.45060.47502016-11-230.45280.44550.46800.44540.46502016-11-220.44650.43500.44820.43500.45802016-11-210.43040.40690.44300.40450.44002016-11-180.40690.40970.42130.40370.41302016-11-170.41130.41100.41300.39620.41902016-11-160.40770.
31、41060.41500.40500.41102016-11-150.41070.41400.41630.40710.41602016-11-140.41170.40000.43290.40000.42402016-11-110.40740.38310.40930.38250.41302016-11-100.38690.37290.39660.36750.39402016-11-090.35970.38100.38100.33780.37002016-11-080.38050.37580.39140.37320.38802016-11-070.36860.36600.37380.36170.38
32、002016-11-040.36500.36920.37870.36250.37402016-11-030.36670.34300.37830.34000.37702016-11-020.34580.35880.35880.34380.35002016-11-010.35880.34870.36250.34530.36602016-10-310.34700.35220.36100.33040.35502016-10-280.35100.35210.37490.35060.35702016-10-270.35070.35470.35470.34350.35502016-10-260.35450.
33、36120.36560.35220.36102016-10-250.36100.36730.36850.36040.36902016-10-240.36440.33180.38040.33180.3740日期成交额成交量持仓量涨停价跌停价2016-11-2417112188371666120.70650.22352016-11-2319898950434665840.69880.21722016-11-2217045461384370570.67900.20102016-11-2119558817453470750.64930.17672016-11-184298215104277350.65
34、590.18212016-11-175832606144177450.64710.17492016-11-166049251147879460.65260.17942016-11-155531596134682380.66140.18662016-11-1413203368315583060.64930.17672016-11-117859153196787000.62840.15962016-11-104360858112185840.60200.13802016-11-0910792543298387930.62180.15422016-11-084837797127187900.6130
35、0.14702016-11-07149527940689940.60640.14162016-11-047671017206989940.60970.14432016-11-0316388572449295130.58000.12002016-11-022902438829108840.59760.13442016-11-0144398041245108310.58550.12452016-10-3150893301490109050.58770.12632016-10-2882775722275112710.58550.12452016-10-273084967886113740.59210
36、.12992016-10-262286543637116040.60090.13712016-10-252214451609117740.60640.14162016-10-24112462143107118980.57450.11551. 基于C8051F单片机直流电动机反馈控制系统的设计与研究2. 基于单片机的嵌入式Web服务器的研究 3. MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究 4. 基于模糊控制的电阻钎焊单片机温度控制系统的研制 5. 基于MCS-51系列单片机的通用控制模块的研究 6. 基于单片机实现的供暖系统最佳启停
37、自校正(STR)调节器7. 单片机控制的二级倒立摆系统的研究8. 基于增强型51系列单片机的TCP/IP协议栈的实现 9. 基于单片机的蓄电池自动监测系统 10. 基于32位嵌入式单片机系统的图像采集与处理技术的研究11. 基于单片机的作物营养诊断专家系统的研究 12. 基于单片机的交流伺服电机运动控制系统研究与开发 13. 基于单片机的泵管内壁硬度测试仪的研制 14. 基于单片机的自动找平控制系统研究 15. 基于C8051F040单片机的嵌入式系统开发 16. 基于单片机的液压动力系统状态监测仪开发 17. 模糊Smith智能控制方法的研究及其单片机实现 18. 一种基于单片机的轴快流CO
38、,2激光器的手持控制面板的研制 19. 基于双单片机冲床数控系统的研究 20. 基于CYGNAL单片机的在线间歇式浊度仪的研制 21. 基于单片机的喷油泵试验台控制器的研制 22. 基于单片机的软起动器的研究和设计 23. 基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究 24. 基于单片机的机电产品控制系统开发 25. 基于PIC单片机的智能手机充电器 26. 基于单片机的实时内核设计及其应用研究 27. 基于单片机的远程抄表系统的设计与研究 28. 基于单片机的烟气二氧化硫浓度检测仪的研制 29. 基于微型光谱仪的单片机系统 30. 单片机系统软件构件开发的技术研究 31. 基
39、于单片机的液体点滴速度自动检测仪的研制32. 基于单片机系统的多功能温度测量仪的研制 33. 基于PIC单片机的电能采集终端的设计和应用 34. 基于单片机的光纤光栅解调仪的研制 35. 气压式线性摩擦焊机单片机控制系统的研制 36. 基于单片机的数字磁通门传感器 37. 基于单片机的旋转变压器-数字转换器的研究 38. 基于单片机的光纤Bragg光栅解调系统的研究 39. 单片机控制的便携式多功能乳腺治疗仪的研制 40. 基于C8051F020单片机的多生理信号检测仪 41. 基于单片机的电机运动控制系统设计 42. Pico专用单片机核的可测性设计研究 43. 基于MCS-51单片机的热量
40、计 44. 基于双单片机的智能遥测微型气象站 45. MCS-51单片机构建机器人的实践研究 46. 基于单片机的轮轨力检测 47. 基于单片机的GPS定位仪的研究与实现 48. 基于单片机的电液伺服控制系统 49. 用于单片机系统的MMC卡文件系统研制 50. 基于单片机的时控和计数系统性能优化的研究 51. 基于单片机和CPLD的粗光栅位移测量系统研究 52. 单片机控制的后备式方波UPS 53. 提升高职学生单片机应用能力的探究 54. 基于单片机控制的自动低频减载装置研究 55. 基于单片机控制的水下焊接电源的研究 56. 基于单片机的多通道数据采集系统 57. 基于uPSD3234单
41、片机的氚表面污染测量仪的研制 58. 基于单片机的红外测油仪的研究 59. 96系列单片机仿真器研究与设计 60. 基于单片机的单晶金刚石刀具刃磨设备的数控改造 61. 基于单片机的温度智能控制系统的设计与实现 62. 基于MSP430单片机的电梯门机控制器的研制 63. 基于单片机的气体测漏仪的研究 64. 基于三菱M16C/6N系列单片机的CAN/USB协议转换器 65. 基于单片机和DSP的变压器油色谱在线监测技术研究 66. 基于单片机的膛壁温度报警系统设计 67. 基于AVR单片机的低压无功补偿控制器的设计 68. 基于单片机船舶电力推进电机监测系统 69. 基于单片机网络的振动信号
42、的采集系统 70. 基于单片机的大容量数据存储技术的应用研究 71. 基于单片机的叠图机研究与教学方法实践 72. 基于单片机嵌入式Web服务器技术的研究及实现 73. 基于AT89S52单片机的通用数据采集系统 74. 基于单片机的多道脉冲幅度分析仪研究 75. 机器人旋转电弧传感角焊缝跟踪单片机控制系统 76. 基于单片机的控制系统在PLC虚拟教学实验中的应用研究77. 基于单片机系统的网络通信研究与应用 78. 基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究79. 基于单片机的模糊控制器在工业电阻炉上的应用研究 80. 基于双单片机冲床数控系统的研究与开发 81. 基于Cygnal单片机的C/OS-的研究82. 基于单片机的一体化智能差示扫描量热仪系统研究 83. 基于TCP/IP协议的单片机与Internet互联的研究与实现 84. 变频调速液压电梯单片机控制器的研究 85. 基于单片机-免疫计数器自动换样功能的研究与实现 86. 基于单片机的倒立摆控