《股票权证基于分类模型的升跌趋势预测.pdf》由会员分享,可在线阅读,更多相关《股票权证基于分类模型的升跌趋势预测.pdf(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中山大学硕士学位论文股票权证基于分类模型的升跌趋势预测姓名:苏醒侨申请学位级别:硕士专业:应用数学指导教师:张磊;姚正安20060428股票权证基于分类模型的升跌趋势预测专业:应用数学硕士生:苏醒侨指导教师:张磊副教授,姚正安教授摘要股票权证(以股票为标的物的权证)作为金融衍生物的一种,传统的分析预测方式是基于数量经济学上的布莱克.斯科尔斯(B l a c k Sc hole s)(1 9 7 3 )期权定价公式构造预测模型.但该定价公式不符合我国资本市场的实际情况:我国的证券市场没有卖空机制,该公式的前提假设条件不能满足,故强制性的将B 1 a c k-S c h o 1 e S 期权定价公
2、式应用于我国的权证预测,效果往往差强人意.本而屡据挖掘的方法,在对股票权证的真实历史交易信息进行聚类处理的基础上,应用相关的分类学习算法,最终建立权证波动趋势(升,跌)的预测模型.用真实的股票权证交易历史数据对该模型进行检测,预测效果令人满意.本文的主要工作主要包括两个部分:首先是针对原权证交易历史数据各列属性为连续值的情况,本文利用聚类算法SOM (自组织映射算法),对各属性列分别聚类,很好将连续值转换为状态值,而且这样的聚类处理减少了连续值离散化过程中的信息损失.权证波动趋势(升,跌)的预测作为一个分类问题,本文选用了 N a i v e B a y es i a nM o d e l+A
3、 d a B o o s t A l g o r i t h m 方法构造分类器.其中 N a i v e B a y e s i a n M o d e1 (朴素贝叶斯模型)作为弱分类器,应用A d a B。o s t 算法来训练加强,以构造强分类器.最终构造的强分类器对股票权证的波动趋势(升,跌)预测效果令人满意.关键词:权证,自组织映射算法,朴素贝叶斯分类器,A d a B o o s t 学习算法F o r e c a s t i n g s t o c k wa r r a n t p r i c e r i s in g o r f a 1 1 i n gwi t h c l a
4、s s i f i c a t i o nm o d e lM a j o r:A p p 1 i e d Ma the ma t i c sName:SuXingqiaoS u p e r v i s o r:Z h a n g L e i.YaoZhenga nAbstractA s a f i n a n c i a 1 d e r i v a t i v e,s t o c k w a r r a n t i s a w r i t t e n c e r t i f i c at e t h a t g i v e s t h eh o l d e r t h e r i g h t
5、 t o p u r c h a s e s h a r e s o f a s t o c k f o r a s p e c i f i e d p ri c e w i t h i n as p e c i f i e d p e r i o d o f t i m e.Mos tofCl ass ica IModel s a n d t e c h n i q u e sf o r w a r r a n tp r i c e S a n a l y s i s a n d p r e d i c t iona r e r o o t e d i n t h e o p t i o n
6、 p r i c i n g mo d e l d e v e i o p e dbyF i sche rBl a c k a n d M y r o n S c h o l es i nl973.U n f o r t u n a t e l y,s u c h mo d e 1 i s n o ts a t i s f i e d wi t h t h e a c t u a l f a c t o f t h e c a p i t a lm a r k e t i n o u r c o u n t r y:i n t h ec o n d i t i o n o f l a c k
7、i n g s h o r t s d f i n g m e c h a n i s m i n o u r s e c u r i t i e s m a rk e t ,thep r e c o n d i t ionoftheBlack&ScholesModelcouldnbesat i s f ie d .Forthi s r e a s o n,s u c h s o 1 u t i o n c o u l dn,t r e a c h a p r e c i s e r e s u 1 t i n o u r w a r r a n t p r i c e Sp r e d i
8、c t i o n.Thi s p a p e r a p p f i e d s o m e a l g o r i th ms i nda tami ni n g t o b u i 1 d t h e m o da l f o r s t o c kw a r r a n t p r i c e S r i s i n g o r M i r i n g p r e d i c t i o n.W e f i r s t e m p l o y e d a c 1 u s t e r i n ga 1 g o r i thinforthepre process i ngoftherea
9、1 s tockwarrant s h i storicalexchangedata.And t hen,w e u s e d s o m e c 1 ass i f i c a t i o n m o d e 1 s i n d a t a m i n i n gt h e f i n a l p r e d i c t i o n m o de 1 .T h e m o d e 1 p r o m o t e d i n t hi s p a p e r w a s t e sh 二 en gae dt i n g a b i f i tythrought?W iW居屋上 t gd f。
10、a sh et e s t i n g p r o c e s s.K e y w o rd s:S t o c k w a rrant,S 0 M a 1 g o r i t h m,N a i v e B a y e s i a n M o d 乩 Ada B o o s tii第一章引言本章首先介绍本文的研究背景,然后进一步阐述本文的研究范围及研究意义,最后介绍本文的主要内容及其体系架构.1.1背景介绍权证是国际证券市场上的一种最初级的金融衍生物,它是由发行人发行的,能够按照特定价格在特定时间内购买或卖出一定数量的标的证券的选择权凭证.标的证券可以是股票,基金,债券,一篮子股票,货币等投
11、资品种.以股票为标的证券的权证简称为股票权证.股票权证本质上是i种股票期权,它反映了权证发行人与持有人之间的i种契约关系,持有人以一定代价(交付权利金)从发行人那里获取一个权利,即持有人可以在未来某一日期或特定期间内,以约定好的价格向权证发行人购买或出售一定数量的资产.在权证的存续期间,权证持有人可以在证券交易市场转售权证.而根据权证具体的供求关系和投资价值,权证的价格不断波动.权证持有人获得的是一种权利,而不是责任,当履约行权对持有人不利时,持有人可以取消行权(放弃权利).是否行权完全取决于权证的持有人,权证持有人决定是否使用权证赋予的权利的主要根据是“未来某个时刻“交易标的物的市场价格.按
12、照履约行权的期限可以把权证分为美式权证,欧式权证及百慕大权证.美式权证的持有人在权证到期日前的任何交易时间均可行使其权利,而欧式权证持有人只可以在权证到期F I当天行使其权利.美式权证虽然较为灵活和方便,但相应的权利金是十分高昂的,而欧式期权的权利金较低.百慕大权证是行权方式介于欧式权证和美式权证之间的权证,权证可以在事先指定的存续期内的若干个交 易H行权.目前国际上大部分的权证交易都是欧式权证.我国现行的股票权证交易也以欧式权证为主.根据权利的行使方向,权证又可以分为认股权证(认购权证)和认沽权证,认购权证持有人有权按照约定价格在特定期限内或到期日向发行人买入标的证券,认沽权证持有人则有权按
13、约定价格在特定期限或到期日向发行人卖出标的证券.我国股票权证市场的发展比较曲折:1 9 9 2年6月,大飞乐配股权证作为我国第一个权证产品在沪市推出,此后相继有十儿种权证在沪深证券交易所上市交易.但是到了 1 9 9 6年年底,管理层出于“抑制过度投机”的原因,取消了所有的权证交易.直至2 0 0 5年6月1 4日,上海交易所制定 上海证券交易所权证业务管理暂行办法,在被叫停九年之后,权证交易在国内证券市场重新启动.2 0 0 5年8月2 2日,宝钢权证作为证券市场恢复权证交易的第一个权证产品终于面世.其后多个权证产品陆续推出:武钢权证,鞍钢权证,万科权证,白云机场权证本文主要讨论的对象是欧式
14、股票权证.其中相关实验所用的权证交易数据是来自宝钢权证,万科权证和武钢权证,这三个权证产品简介如下:宝钢 JTB 1 5 8 0 0 0 0基本概况:发行人:宝钢集团有限公司上市地点:上海证券交易所标的证券:G宝钢6 0 0 0 1 9权证类型;认购权证行权代码:5 8 2 0 0 0行权简称:E S 0 6 0 8 3 0发行数量:3 8 7 7 0万份权证余额:3 8 7 7 0万 份(截止2 0 0 5.1 2.8)行权方式:欧式行权价格:4.5 0行权比例:1结算方式:实物上市日期:2 0 0 5年8月2 2日存续期间:2 0 0 5年8月1 8 H 2 0 0 6年8月3 0 H行权
15、期问:2 0 0 6年8月3 0日到期日期:2 0 0 6年8月3 0日万科H R P 1 0 3 8 0 0 1基本概况:发行人:华润股份有限公司上市地点:深圳证券交易所标的证券:G万科A 0 0 0 0 0 2权证类型:认沽权证发行数量:2 1 4 0 2 8.6 0 0 8万份权证余额:2 1 4 0 2 8.6 0 0 8万份(截止 2 0 0 5.1 2.8)行权方式:百幕大式行权价格:3.7 3行权比例:1结算方式:实物上市H期:2 0 0 5年1 2月5H存续期问:2 0 0 5年1 2月5日2 0 0 6年9月4 H行权期间:2 0 0 6年8月2 9日一一 2 0 0 6年9
16、月4日到期日期:2 0 0 6年9月4日武钢】T B 1 5 8 0 0 0 1基本概况:发行人:武汉钢铁(集团)公司上市地点:上海证券交易所标的证券:G武钢6 0 0 0 0 5权证类型:认购权证行权代码:5 8 2 0 0 1行权简称:E S 0 6 1 1 2 2发行数量:4 7 4 0 0万份权证余额:1 1 6 4 6 0.3 7 6 2万份(截止 2 0 0 5.1 2.8)行权方式:欧式行权价格:2.9 0行权比例:1结算方式:实物上市日期:2 0 0 5年1 1月2 3日存续期问:2 0 0 5年1 1月2 3日2 0 0 6年1 1月2 2日行权期间:2 0 0 6年1 1月
17、1 6日“一 2 0 0 6年1 1月2 2 口到期H期:2 0 0 6年】1月2 2 E I股票权证作为证券市场上的投资品种,其价值主要受以卜几方面因素的影响,下面以认股权证为例具体说明:认股权证事实上可以看成是一份看涨期权,当权证执行价格不变时,认股权证的价值随股票价格的上涨而上涨.其价值上限就是标的股票价格,价值下限是执行认股权证时的实际股价减去执行价格.认股权证的价值包括两个方面:当股票的实际价格高于执行价格时.,投资者只要认购股票并在市场出售,即可获得之间的价差,此称为“执行价值”;另一方面,只要认股权证尚未到期,则标的股票价格有进一步上涨的空间.即为“时间价值影响认股权证价值的因素
18、主要有以F五个:-是标的股价的波动率.它是认股权证价值最重要的决定因素.股价的波动性可以是根据标的股票过去一段时间内的价格信息所计算出来的报酬率变异性.波动性越大,代表股价的涨幅越高,同时认股权证的获利机会也就越高.因此,标的股价的波动率与认股权证呈正向关系.二是标的股价.认股权证与其标的股价同步涨跌,因为执行价格的收益来自标的股价与执行价格的差距,因此标的股价越高,认股权证的价值也越高.三是执行价格.与标的股价相反,执行价格与认股权证的价值呈反向关系.四是到期期限.由于认股权证存在时间价值,愈接近到期日,认股权证的获利机会愈少,因此认股权证的价值也愈少.五是无风险利率.无风险利率通常用来衡量
19、某项投资所用资金的机会成本,也即是资金不用于这项投资而用于其他投资所能获得的最高收益.若投资者直接购买标的股票,必须支付全部的股价,当无风险利率越高时,资金的机会成本越高.若购买认股权证,则只需支付少量的保证金,这优于直接购买股票.因此,无风险利率越高,认股权证的价值越高.本论文应用数据挖掘的相关算法,首先对股票权证的真实历史交易数据各属性列分别进行聚类处理,将各属性列的值离散化成状态值.进步应用数据挖掘的分类算法,最终建立权证波动趋势(升,跌)的分类预测模型.1 .2本文工作及其意义作为证券市场上一种活跃的金融衍生物投资产品,权证的价格预测问题一直颇受关注.相关的研究学者,都试图通过分析权证
20、市场的历史数据,价格趋势和各种指标,从中发现最能刻画在未来某个阶段权证产品价格走势的规律.针对此问题,经济学家和数学家提出过很多不同的模型,其中RobertC.Merton,FischerB 1 a c k 和My r o n S c h o 1 e s 在 1 9 7 3 年提出了 B l a c k.S c h o l e s 欧式看涨期权定价公其111,是目前世界上最流行的期权定价公式.而权证作为特殊的期权产品,也适用于该定价模型.作为第一个成功的期权定价公式,该公式考虑了期权价格与上述五个因素的关系.其具体形式如下:c(E)=S W(吐)一鲁。s(d:)(1 1)d i=矿一竽S E
21、(1 2)+riff号 (1 3)式 中,s为标的证券目前价格,E 为协定价格,c陋)为期权价 格,e为自然对数的底2.7 1 8 2 8;t 为到期日以前的剩余时间,以年为单位表示;r 为无风险的市场年利率,用小数表示;I n 为自然对数;盯为即期价格的波动幅度;N“)为对于给定自变量d,服从标准正态分布S(0,1)的概率,其数值可从正态分布表中查得.对于欧式看跌期权的价格,可利用看涨期权与看跌期权之间的平价关系近似地求得.其计算公式为:P (e )=E。e 1 I V (d 2 )-S,l V (一面)(1 一一4)目前国外很多的期权预测模型都是基于B 1 a c k-S c h o 1
22、e s 定价公式而建立s-,,女一k11正kc29cca距a1优L差1B值14K的B于数8c定但对求I a一程有他置分方聆於oles模型只给出期权价格的表达式,却没有回答怎样求解该:h o 1 e s 模型的求解问题,常用的是数值解法,包括:构建微31;M on teC arlo模拟法求解 4 7 ;最小二乘法e s 模型是基于一定的假设条件才成立的,与目前我国证券市场的)0 5 年 8月 2 2日宝钢权证在上海交易所上市,知名券商国泰君安通过B 1 a c k S c h o 1 e s 模型将宝钢权证上市价格定为0 .6 8 8 元,坐满黄东当天早市以1.2 6 3元涨停开盘,打开交易后不
23、到两分钟又涨停,当日以1.2 6 3 元收盘,和国泰君安预测的理论价格相差甚远.这是因为B 1 a c k S c h o自4 济典式不符合我国证券市场的实际情况:我国没有卖空机制,B 1 a c k S c h o 1 e s 模型的前提假设条件不满足.实际上,我国目前的权证产品的能介值远高于其理论价值.数据挖掘领域中的许多学者对权证价格预测问题也十分关注,结合一定的金融背景知识,众多数据挖掘算法在该问题的应用上,取得不错的效果.现阶段应用于权证价格预测的数据挖掘方法主要有:神经网络算法(A r t i f i c i a 1 n e u r a 1net w orks)1 0 1 2 1,
24、遗传算法(Genet i c A 1 g o r i t h m s)13,支持向量机(Su pport v ect orMachines)C l 4,1 5 ,於些算法的应用取得了一定的效果.本文主要的工作是应用数据挖掘的相关算法,构建分类模型,对欧式股票权证的升跌趋势进行预测.具体的处理方法如下:通过对权证市场的历史数据,价格趋势和各种指标属性的离散化处理,分析,应用分类器技术预测权证产品的升跌趋势.在数据预处理的基础上,本文利用聚类算法SOM(自组织映射网络)对权证产品的各个属性分别独立聚类,很好的解决了连续值转换为离散值的问题,而且该聚类方法很好的减少了离散化过程中的信息损失.权证波动
25、趋势(升,跌)的预测作为一个分类问题,本文选用了N a i v e B a y e s i a n M o d e 1+A d a B o o s t A 1 g o r i t h m构建最终的分类器.其中N a i v eB a y e s i a nM o d e 1 (朴素贝叶斯模型)作为弱分类器,用机器学习方面的A d a B o o s t算法来训练加强,以构造强分类器.本文应用此实验方案对我国证券市场上的三个权证产品的真实交易数据进行分类预测,实验结果表明,该方案能很好的处理股票权证的波动趋势预测问题.1.3 本文结构本文接下来的部分安排如下:第二章介绍数据挖掘的相关技术,其中重
26、点介绍应用于本文的聚类,分类算法.第三章重点介绍机器学习方面的A d a B。s t 算法,主要介绍该算法将弱分类器训练转化为强分类器的相关思想.第四章将具体介绍本文构建的股票权证升跌趋势分类预测模型:以S 0 M算法将各属性列的连续值离散化,在此基础上,应用N a i v e B a y e s i a n M o d e 1 +A d a B o o知媲野箍奥脍证的升跌趋势进行预测.本文的第五章介绍上述模型对我国证券市场上的三个权证产品的真实交易数据进行分类预测的相关结果,通过具体的实验结果检验模型的可靠性.第六章,总结全文的工作,提出进一步工作的想法.第二章数据挖掘概述在具体介绍股票权证
27、分类预测模型之前,我们先介绍相关的数据挖掘知识及本文用到的相关算法.2.1概述数据挖掘(DataMining)是近年来随着人工智能、机器学习和数据库技术的发展而出现的一门新兴的技术,它主要利用各种分析工具在海量数据中发现模型和数据间关系,提取隐含的但有用的信息和知识的过程【16】.数据挖掘起源于二十世纪六十年代开始的统计分析和神经网络研究.在不断的发展过程中,数据挖掘充分融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术.2 0世纪8 0年代末出现了一个新的术语,即数据库中的知识发现,简称 K DD(KnowledgeDiscoveryinDatabase).K D D 是从数据中
28、发现模大或描述数据间的联系的过程,其主要步骤包括数据选择、数据预处理、数据转换、数据挖掘、结果解释及评估1 1 7 1 ,如图2 1所示.图2 1 K D D过程其中数据挖掘只是KDDH 的一个阶段,却是最重要的一个阶段,因为它发现隐藏的知识.人们往往不加区别地使用这两个概念,一般在工程应用领域多称为数据挖掘,而在研究领域则多称为数据库中的知识发现.因此,在本文以下部分将不再区分数据挖掘与数据库中的知识发现这两个概念.目前数据挖掘已经广泛地应用于各种领域:市场分析方面的数据挖掘应用1 8,生物科学界针对蛋白质和D N A序列分析的数据挖掘应用【1 9】,金融领域的数据挖掘应用2 0 2 2,财
29、务领域的数据挖掘应用【23 1作为一个知识体系,数据挖掘比较典型的方法有关联分析、序列模式分析、分类分析、聚类分析等.各种方法简单介绍如下:关联分析(As s o c i a t i o n Ana&s i s)关联分析,即利用关联规则进行数据挖掘.关联分析的目的是挖掘发现存在于大量数据项集之间有趣的关联或相关关系,它能发现数据库中诸如“同一次的超市购物过程中,如果顾客购买牛奶,他同时也购买面包(具体是什么类型的面包)的概率有多大”这类的问题,常用的算法包括A p r i。r i算 法【2 4】,频繁模式增长 7 5 1 ,多层关联规则 2 6,2 7 1,多维关联规则【2 8】.序列模式分析
30、(S e q u e n c e P a t t e r nAn a l y s i s)序列模式分析主要应用于挖掘时间变化过程中,研究对象的变化规律或趋势,主要的一些应用包括:金融市场的分析预测,动态产品的加工过程,科学实验等.其研究内容主要包括:趋势分析,时序分析中的相似度搜索【2 9】,序列模式和循环模式挖掘 3 0 1.分类分析(Cl as s i f i c at i onAn a l y s i s)设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集.分类分析就是通过分析示例数据库中的数据,为每个类别做出准
31、确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类.常用的分类算法包括:决策树算法【3 1】,贝叶斯分类算法3 2 1,神经网络【3 2】,K一嗷察类算法【3 3】,遗传算法【3 3】等.聚类分析(Cl u s t e r i n g An al y s i s)聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所属类别.它所采用的分类规则是由聚类分析工具决定的.采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果.常用的聚类算法包括:k 一均值【3 4,
32、k 中心点 3 5 1,D B S C A N 3 6,S TI N G 3 7,S O M 音施基/知网络)3 9 等.针对本文实验的具体应用,下面将具体介绍聚类算法S O M (自组织映射网络)及分类算法贝叶斯分类模型.2.2聚类算法S O M自组织映射网络S O M (S ei f 0 r ganiz ingM aps l是由芬兰赫尔辛基大学神经网络专家K o h o n e n教授在1 9 8 1 年提出的【40,这种网络模拟大脑神经系统自线特征映射的功能,是一种竞争式的学习网络,在学习中能无监督地进行自组织学 习.S O M 的网络拓扑结构包含输入层和输出层,输出层也称为映射层.输入
33、层由IV 个神经元组成,竞争层由膳个输出神经元组成,且形成一个二维阵列.输入层与竞争层各神经元之间实现全互连接,竞争层之间实行侧向连接.S O M 网络的主要特性为:1)自组织排序性质,即拓扑保序能力;2 )自组织概率分布性质.其网络拓扑结构如图2-2所示:输出层输入层图 2 2 S O M 的网络拓扑结构S O M 网络首先把所有的映射结点(输出结点)向量用小的随机值进行初始化,然后计算每一个实际输入向量同输出二维阵列中所有的映射结点的欧氏距离,距离最小的那一个映射结点作为获胜结点(WinningN ode),把该输入向量映射到获胜结点,并调整该获胜结点向量的权值,同时按比例调整获胜结点邻域
34、内结点的权值,把所有的输入向量提交给网络进行训练(通常每个输入向量要提交若干次),相类似的输入向量被映射到输出层中临近的区域,最后得到输入向量的聚类,同时把高维的输入向量空间非线性地投射到二维的映射网络上,该网络的拓扑结构反映了输入向量的分布情况.算法的具体步骤如下:设网络的输入层有W个输入向量,维数为厅,记为:X (f)k,屯 t,,%t,E R”,t ;1 ,2.I V.输 出层有M个神经元为A.,=1 ,2 ,M.输入层向量与输出层神经元月,之间的连接权值向量记为:=(%。,:,),其电,0加 做 各 训 曲 过 程 如 下 (1 )初始化.将权值向量;(叶。,叶:,%)(,=1,2,M
35、)化,耳 携 孵 区(晒蝌P 谶 台.,哝).设置初始学习速率叩初翦焉由余必扇艮正0。),区域函数N 9 0)具体指以获胜神经元g为中心,且包含若干其它神经元的区域范围.一般的,NO)的值为受影响_ _ _ _ _ 的呼啊询最后 对 确邻域所包含的神经,有:设置网络总的训练次数为P“2,izzt.口初始极值向量帼归一化,日 日C Z 1,科尸禹王扇镌篇高小(2 )从输虻(3)寻求获胜元N.Z,上算训窜羊本附与权值向量之间的距离 城.,IVd,=o i c 七,一矿川以 距 离 最 小 的 输 月c 弊,蛭 元 面 满 足:“2t g=盯 g m 如瞄 j】,=l,4,M(2 4)=1 ,z,.
36、,Nf从而实现神经元的竞争过程.(4)网络更新对获胜神经元的拓扑邻域以(f)内的所有兴奋神经元更新其权值向量:哗川=形哪)即氓一一HO 7(f)l r O t j 表 陋 拉 网 营 训 绚 汽:习 号率,这一调整实现了神经合作和更新过程.(5)更新学习速率和邻域函数,归一化权值向量.叩 o,2 叩 c。,(,一*事)其中,7(0)是初始学习速(,2为甘前网络训&,T 为开始设定的网络训练总次数.N A t)2 叫 以 c 南(,一钊其 中 刀 订 卜 表 示 对(X吻 整 一 以,1 v,0)的 初 始 值.,1.r、,匕 匕 ,矽=矗核等%?口(6)令训练次数t=t+1,返回步骤(2),直
37、至t;T 为止.构建S 0M 网络的目的是用低维目标空间的点表示高维原始空间的点,同时在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构.S 0M网络不需要存储大量样本的空间,所以具有比一般的多维尺度变化算法低得多的空间复杂性,很好的提高了算法的性能.S 0 M 网络还具备将高维到低维的映射可视化特征,这也是其得到广泛应用的一个原因.目前,S 0 M 网络不仅仅应用于聚类,在分类,机械控制,语音识别,向量量化等领域都有广泛的应用 4 0 1.2.3朴素贝叶斯分类模型贝叶斯分类模型是一种基于统计学理论的分类方法.主要应用于预测样本属于一个特定类别的概率等问题.对于样本分类预测问题,我们一般
38、是基于样本各属性的信息做分类决策.要是我们把分类模型简化,假设每个属性对样本分类结果的影响独立于其它属性,这可以大大的减轻计算的复杂度.基于对样本属性相互独立的假设,是朴素贝叶斯分类模型(N a iveBayes i a n C 1 a s s i f i er )的主要特征.朴素贝叶斯分类器fNa iveBayes i a n c lass i f i e r)是贝叶斯分公 认 成 那 简 徵 而 相 M概率分类方法,其性能可与决策树、神经网络等算法相媲美.即使应用于大型数据库,朴素贝叶斯分类器也表现出高准确率和高速度 4 1 4 2 .贝叶斯分类模型的理论主要源于贝叶斯定理,下面先对贝叶斯
39、定理作简单的介绍.2.3.1贝叶斯定理设 u =x,c 是 随 机 变 量 的 有 限 集,其 中 x=墨,X:,间的氤2 变 馨 鳌 我 谯 森 穆 据 样 本 有 n 维的属性,具体可以用一个n 维特征向量表示:协,工:,9 .下文为了表述方便,仍以记号X表示一个数据样本,即z -怯,而,*).C=C 1 ,C:,C o )是类标的集合,标志样本空间可能的类别,类 别 数 目 是 1C 1s七,即给定数据样本x=,屯,狂|母r类 问 卑T我们哂 俞 定F(君钛尸1 SIrjr%丁 样 本 土 属 于。上 甘归由凯 旺 腕 包 里 可知:其中P (c ,I x)称为后验x 2 ,.矗)可能属
40、于 c,类的概率.相应的,Pi l i ty),P (X I c J)ri orprobabi 1 i t y),即工J的先验概率(pri orprobab称为类条件概率.上述贝叶斯概率公式给出了一种由P暧),P(XIc),P(c,)这三个概率值表示后验概率1 工、方法.y)2.3.2朴素贝叶斯分类模型朴素贝叶斯分类模型的具体思想如F :(1 )最大后验概率原则给定一个数据样本x=能,X 2,.9 ,该样本所属类别未知,根据朴素贝叶斯分类模型的规则,该样本丑=怯,而,”将被判为属于具有最大后验概率的类.具体用符号表示该思想即为:朴素贝叶斯分类模型将样本工=,而,)判为属于c 类,当且仅当:(2
41、)根据贝叶s e于所有七类都有相同的值,所以可以看作常数.为求得m 哆 Psi 工),我们只需求得练 集(,)“c过对训分析求得,具体可以表示为:P桂赤6个亚,詈木 训 练 集 袁 琳平|练集中属于Z/i(3 止 条 件 独 立%的 应 用)1 /2 ,b reaktheAdaBoos t ingprocessandturnt o 3 .O therwise,g o o n f o r (4 ).s M献 e q2 r t c、i t s f o r e 础 s卿kInf 啊“.m t科 f+i(f)删 m一旦XIef 啊)=丫 1 ,n蜩删删峨簪咖蜿十3 .A R ec 1 a也 tr nE
42、nd1 s af i ee s w e i g ha/、m p 1sale renewed,notedowntheweakh ib ai mh2;t oe,a n d(1)S tc kO utput:s t rongc lass i fi e r :删=叫耄q)(4 9)应用由N a i v e B a y e s Mo d e l +A d a B o o s t i n g 过程训练得到的强分类器H),对于任意输入的对应一个交易日的股票权证新样本X f f i (x 1 ,x 2 ,,),我们应用分类器确定其类标:嘲=倦 卜 陋卜e伽(,一撕即H o)能实现预料h1交易日加卷呼 升 跌 躁
43、.4-1 Q )对于分类器H 0)的性能,我们将用测试集(T e s t s e t )中的样本对其进行评估分析.具体的评估分析过程在下一章具体讲述.4 .4本章小结本章首先介绍了本文所需解决问题的相关背景及其挑战性.在此基础上,按模型的构造过程,具体介绍了数据集的预处理,数据合理离散化,最终分类模型构造等核心步骤.至此,股票权证升跌波动趋势分类预测模型得以建立.第五章实验设计与结果分析本章应用本文提出的股票权证升跌趋势分类预测模型,对我国证券市场的三个权证产品的真实交易数据,进行升跌预测,通过具体的实验结果检验模型的相关 性 能.5.1 数据集简介用于本文模型测试的三个数据集是来源于我国证券
44、市场的三个股票权证产品的相关交易数据,这三个股票权证产品分别是:宝钢权证,万科权证和武钢权证.三个数据集合的格式相同,每条记录表示该股票权证产品在特定的一个交易目的一定时间段的价格,交易量等波动情况.每个交易日分为等长的五个时间段予以记录.宝钢权证数据集合包含的记录由该权证上市的第一个交易日(2005.0 8 .2 2 ).0 3 .2 4 日,易起主6OO2到日以固定的时间段划分为5,其中包括1 4 1 个交易日的交易信息.原始数据集合的每条记录.即原宝钢权证数据集包括:1 4 1x5=705条记录.其中5 7个交易日对应的样本属于正类(即其下一个交易日该权证产品的平均价格上升),占所有交易
45、日总数的4 0.7 1%.8 3个交易日对应的样本属于负类(即其下一个交易日该权证产品的平均价格下跌),负类比例5 9 .2 9%.万科权证数据样本集合与之相类似,数据集合中起始交易日是万科权证的上市时间(2005.1 2 .0 5 ),截止交易日是2 0 0 6.0 3 .2 3日.每个交易日也对应5 条记录.该数据集正类比例3 6.2 3%,负类比例6 3.7 7%.武钢权证数据样本集合起始交易日是武钢权证的上市时间(2005.1 1 .2 3),止 交 日 2 0 0 6.0 3.2 7 0.每个交易日也对应5 条记录.该数据集正类比例37.97%负类 比例6 2.0 3%.5 .2实验
46、设计方案5.2.1实验评价指标本文采用的分类性能评价指标是分准率和AUC,这两个评价指标简单介绍如 下:分准:AUC是AreaUnd e r R O C C u r v e的缩写,其中ROCC u r v e指受试者工作特征曲 线(R e c e i v e r 0 p h ,r,4Pf risticCurve).对于分类器的性能测试,我们定 于:I Ll l义以下四个指标/上4属F止在j 147负例预测为正例 T P (T h e T o s r e J F P,(F,a 1 s e P o s i t i v e )预测为负例 F N (F a 1 s e N e g a t i v e)
47、T N (T rueNegat i v e)根据上述四个指标,我们将正类中的样本被正确预测为正例类的比例(T PRa t e)称为灵敏度(Sensi t i vi t y)负类中的样本被正确预测为负例类的比例称为特 异 度(Speci f i c i t y).而FPRate=l 一 S pe c i f i c i t y .对于同一个分类器的分类效果,T P R a t e和F P R a t e互相影响,通过改变一定的阈值,我们可以同时得到不同的T P R a t e和F P R a t e.R 0 C曲线就是反映分类器的T PRate和FPRate随阈值的变化,同时改变的情况.ROC曲
48、线一定通过(0 ,0)和(1 ,1 )两点,这两点分别相当于灵敏度为0而特异度为1和灵敏度为1而郢度为0.若R 0 C曲线是条从原点到右上角(1,1)点的对角线,则表示该分类器的性能与随机决策一样.理想的情况是希望使(T P R a t e,F P R a t e)对应(1 ,0),即R O C曲线越靠近左上角(曲线下面包围的面积越大),相应的分类器性能更优.RO C曲线如图5 1所示:图5 1 R O C曲线示例图(图中有4条R O C曲线)A U C值等于单位正方形中,R O C曲线下面包含的面积的值.由上面对ROC曲线的介绍可知,A U C的取值范围是【0,1 .A U C的值越大表示相
49、应的分类器性能越好,当A U C;0 .5时,即在单位正方形中,对应的R。C曲线包围的面积为0 .5时,则分类器的性能与随机决策的效果一样.因为朴素贝叶斯分类模型能分别预测样本属于正类,负类的两个概率值(后验概率),性能评价指标“分准率”只从最后的分类结果(样本的预测类标是否正确)考虑分类器的性能,忽略了上述分类器更细化的性能信息:对于每个测试样本给出的正类概率,负类概率.A U C评价指标则考虑到分类器此类的性能信息,能更好的评价分类器的分类性能.本文同时选用分准率,A U C两个指标来评价分类模型的性能.实验的过程中,本文采用随机子选样方法进行实验评估,它是评估分类器性能技术“保持”方法中
50、的一种变形.保持”算法将整个数据样本集合随机的划分为两个独立的集合:训练集和测试集.通过对训练集的学习,导出分类器,然后用测试集对分类器的性能进行评估.而随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次,分类器的性能以这k次的指标值的平均值表示.本文应用随机子选样方法,每次随机选取总样本的8 0%作为训练样本,训练导出权证的升跌分类预测模型,剩下的2 0%作为测试样本,将分类器应用于测试样本作分类预测,计算分准率及A U C值.上述过程重复1 0次,把1 0次的分准率,A U C的平均值作为该分类预测模型在整个数据集中的分准率利A U C值.5.2.2 so M和A d a Bo