《论基于股票时间序列数据的关联规则挖掘研究bana.docx》由会员分享,可在线阅读,更多相关《论基于股票时间序列数据的关联规则挖掘研究bana.docx(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、南昌大学20003级硕士学学位论文文献综述报告基于股票时间序序列数据的关关联规则挖掘掘研究Study oon Minning AAssociiationn Rulees froom Stoock Tiime Seeries Data 系 别: 计算机科科学与技术系系专 业: 计算机应应用技术研究方向: 人人工智能研 究 生: 汪廷华导 师: 程从从(教教授)2005年033月一引言随着计算机信息息系统的日益益普及,大容量存储储技术的发展展以及条形码码等数据获取取技术的广泛泛应用,人们们在日常事务务处理和科学学研究中积累累了大量的各各种类型的数数据。在这些些数据中,有有很大一部分分是呈现时间间序
2、列(tiime seeries)类类型的数据。所所谓时间序列列数据就是按按时间先后顺顺序排列各个个观测记录的的数据集11,如金融融证券市场中中每天的股票票价格变化;商业零售行行业中,某项项商品每天的的销售额;气气象预报研究究中,某一地地区的每天气气温与气压的的读数;以及及在生物医学学中,某一症症状病人在每每个时刻的心心跳变化等等等。然而,我我们应该注意意到:时间序序列数据不仅仅仅是历史事事件的记录,更更重要的是蕴蕴藏这些数据其中不不显现的、有有趣的模式。随随着时间推移移和时间序列列数据的大规规模增长,如如何对这些海海量数据进行行分析处理,挖挖掘其背后蕴蕴藏的价值信信息,对于我我们揭示事物物发展
3、规律变变化的内部规规律,发现不不同事物之间间的相互关系系,为人们正正确认识事物物和科学决策策提供依据具具有重要的实实际意义。时间序列数据分分析按照不同同的任务有各各种不同的方方法,一般包包括趋势分析析、相似性搜搜索、与时间间有关数据的的序列模式挖挖掘、周期模模式挖掘等2。本综综述是针对证证券业中股票票时间序列分分析的,试图图通过列举、分分析有关证券券业中股票时时间序列数据据分析的原理理、方法与技技术,着重探探讨数据挖掘掘中基于股票时时间序列数据据的关联规则则挖掘的概念念、原理技术术、实施过程程及存在的障障碍和问题,以以期能有新的的发现和领悟悟。二股票时间序序列传统研究究方法概述随着我国市场经经
4、济建设的发发展,人们的的金融意识和和投资意识日日益增强。股股票市场作为为市场经济的的重要组成部部分,正越来来越多地受到到投资者的关关注。目前股股票投资已经经是众多个人人理财中的一一种重要方式式。不言而喻喻,如果投资资者能正确预预测股票价格格、选准买卖卖时机,无疑疑会给投资者者带来丰厚的的收益。于是是,在股票的的预测和分析析方面出现了了大量的决策策分析方法和和工具,以期期能有效地指指导投资者的的投资决策。目目前,我国股股市用得较多的方法法概括起来有有两类3:一类是基基本分析和技技术分析,另另一类是经济济统计分析。1基本分析和和技术分析在股票市场上,当当投资者考虑虑是否投资于于股票或购买买什么股票
5、时时,一般可以以运用基本分分析的方法对对股市和股票票进行分析;而在买卖股股票的时机把把握上,一般般可以运用技技术分析的方方法4。基本分析指的是是通过对影响响股票市场供供求关系的基基本因素(如如宏观政治经经济形势、金金融政策、行行业变动、公公司运营财务务状况等)进进行分析,来来确定股票的的真正价值,判判断未来股市市走势,是长长期投资者不不可或缺的有有效分析手段段。技术分析是完全全根据股市行行情变化而加加以分析的方法,它它通过对历史史资料(成交交价和成交量量)进行分析析,来判断大大盘和个股价价格的未来变变化趋势,探探讨股市里投投资行为的可可能转折,从从而给投资者者买卖股票的的信号,适合合于投资者作
6、作短期投资。目目前技术分析析常用的工具具是各种各样样的走势图(KK线图、分时时图)和技术术指标(MAA、RSI、OOBV等)。2经济统计学学分析主要针对时间序序列数据进行行数学建模和和分析。传统统的时间序列列数据分析已已经是一个发发展得相当成成熟的学科,有有着一整套分分析理论和工工具,是目前前时间序列数数据分析的主主要方法,它它主要用经济济统计学的理理论和方法对对经济变量进进行描述、分分析和推算。传统时间序列数据分析的研究目的在于5:分析特定的数数据集合,建建立数学模型型,进行模式式结构分析和和实证研究;预测时间序列列的未来发展展情况。传统的时间序列列数据分析最最基本的理论论是40年代代分别由
7、Noorbor Wieneer和Anddrei KKolmoggomor提提出的。200世纪70年年代,G.PP.Box和和G.M.JJenkinns发表专著著时间序列列分析:预测测和控制,对对平稳时间序序列数据提出出了自回归滑滑动平均模型型(ARMAA),以及一一整套的建模模、估计、检检验和控制方方法,使得时时序数据分析析得以广泛运运用于各种工工程领域。其其基本思想是是根据各随机机变量间的依依存关系或自自相关性,从从而由时间序序列的过去值值及现在值来来预测出未来来的值。该模模型以证券市市场为非有效效市场为前提提,当期的股股票价格变化化不仅受当期期随机因素的的冲击,而且且受前期影响响。换句话说
8、说,就是历史史信息会对当当前的股票价价格产生一定定程度的影响响。采用的方方法一般是在在连续的时间间流中截取一一个时间窗口口(一个时间间段),窗口口内的数据作作为一个数据据单元,然后后让这个时间间窗口在时间间流上滑动,以以获得建立模模型所需要的的训练集66。7基于股票票时间序列是是一种混沌时时间序列的认认知,提出一一种新颖的非非线性时间序序列预测模型型,即滑动窗窗口二次自回回归(MWDDAR)模型型,该模型使使用部分的历历史数据及其其二次项构造造自回归模型型,模型参数数用最小二乘乘法估计。其其基本理论基基础是:一个个线性模型不不能描述混沌沌时间序列的的全局性特征征,但在一个个小的时间间间隔内,系
9、统统的行为却可可以用某种线线性模型近似似。8则则提出了一种种基于嵌入理理论和确定集集上的预测误误差的混沌时时间序列预测测方法,并探探讨了在股票票价格预测上上的应用。可以看出,经济济统计学为问问题的探索解解决方案提供供了有用而实实际的框架;模型是经济济统计学的核核心,模型的的选择和计算算往往被认为为是次要的,是是建立模型的的枝节。经济济统计学本质质上是从事“确定性”分析的,可可以说统计方方法是“目标驱动”的。但是,在在大量数据集集中往往存在在一些未被人人们预期到但但又具有价值值的信息,人人们为发现大大量数据中隐隐藏的规律和和模式,就需需要新的具有有“探索性”的分析工具具。显然,数数据挖掘就是是这
10、样的一门门工具。三数据挖掘技技术应用于股股票时间序列列分析的研究究现状数据挖掘(DMM,Dataa Miniing),也也称为数据库库中的知识发发现(KDDD,Knowwledgee Disccoveryy in DDatabaase)是数数据库技术和和机器学习等等人工智能技技术相结合的的产物,是一一门新兴的数数据智能分析析技术9。20世纪纪80年代末末,随着数据据库、互联网网技术的迅速速发展以及管管理信息系统统(MIS)和和网络数据中中心(IDCC)的推广应应用,数据的的存取、查询询、描述统计计等技术已日日臻完善,但但高层次的决决策分析、知知识发现等实实用技术还很很不成熟,导导致了“信息爆炸
11、”但“知识贫乏”的现象。到到了90年代代,人们提出出在数据库基基础上建立数数据仓库,应应用机器学习习和统计分析析相结合的方方法处理数据据,这两者的的结合促成了了数据挖掘技技术的诞生。所谓数据挖掘,简简单地说,就就是从大量数数据中提取或或挖掘知识2;详细细一点可以描描述为主要利利用某些特定定的知识发现现算法,在一一定的运算效效率的限制下下,从大量的的数据中抽取取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1相关技术介介绍(1)关联规则则挖掘关联规则是美国国IBM AAlmadeen Ressea
12、rchh Centter的 RRakeshh Agraawal等人人于19933年首先提出出来的KDDD研究的一个个重要课题10。关关联规则挖掘掘本质是从大大量的数据中中或对象间抽抽取关联性,它它可以揭示数数据间的依赖赖关系,根据据这种关联性性就可以从某某一数据对象象的信息来推推断另一对象象的信息。它它可以做如下下形式化定义义:设I = ii1,i2,.,im是一组项的的集合(例如如一个商场的的物品),DD是一组事务务集(称之为事务务数据库)。D中的每个事事务T是项的集合合,且满足TTI。称事务T支持物品集集X,如果XT。关联规则则是如下形式式的一种蕴含含式:XY,其中XI,YI,且XY= f
13、。(1) 称关联联规则XY在事务数据据库D中具有大小小为s的支持度,如如果物品集XXY的支持度为为s%,即suupportt(XY)=P(XX U Y)。(2) 称规则则XY在事务数据据库D中具有大小小为c的可信度,如如果D中支持物品品集X的事务中有有c%的事务同时时也支持物品品集Y,即connfidennce(XY)=P(YY|X)。从语义的角度来来分析,规则则的可信度表表示这条规则则的正确程度度;支持度表表示用这条规规则可以推出出百分之几的的目标,即这这一规则对于于整体数据的的重要程度。用用户可以定义义二个阈值,要要求数据挖掘掘系统所生成成的规则的支支持度和可信信度都不小于于给定的阈值值。
14、这样,就就用蕴含式、支支持度和可信信度唯一标识识了每一个挖挖掘出来的关关联规则。已知事物数据库库D,关联规规则的挖掘问问题就是产生生支持度与置置信度分别大大于用户给定定的最小阈值值的所有关联联规则。该问问题分两步来来求解:第一一步是找出事事务数据库DD中所有满足足条件的具有有用户指定最小小支持度的项项目集。具有有最小支持度度的项目集称称为频繁项集集。第二步是是从频繁项集集中构造可信信度不低于用用户要求的规规则。形式地地,对于每一一个频繁项目目集A,找出出A的所有非非空子集a,如如果比率suupportt(A)/ssupporrt(a)min_conf(可可信度),就就生成关联规规则a(AA-a
15、)。识别或发现所有有的频繁项集集是关联规则则挖掘算法的的核心,也是是计算量最大大的部分。目目前已有不少少挖掘频繁项项集的方法,其其中最著名的的是R.Aggrawall和R.Srrikantt提出的Appriorii算法111,其核心心是利用这样样一个性质:频繁项集的的所有非空子集都都是频繁的。基基于这样的先先验知识,AApriorri使用一种种“逐层搜索“的迭代方法法,k-项集集用于探索(kk+1)项集集。首先找出出频繁1-项项集,记作LL1;用L11找频繁2-项集L2;而L2用于于找L3,如如此下去,直直到不能找到到频繁k-项项集。虽然Aprioori算法能能最终挖掘出出所有的关联联规则,但
16、由由于处理的数数据量非常大大,因而算法法的效率显得得十分重要。后后来的一些研研究人员对算算法的连接和和剪枝过程进进行各种优化化。如12提出出了称为ApprioriiTid的改改进算法,该该算法提出了了在每一步(第第一步除外)计计算候选频繁繁项集的支持持度时不需要要浏览整个事务务数据库。它它认为不包含含任何k-项项集的事务不不可能包含任任何k+1项项集,这样,这这种事务在其其后的考虑时时,可以加上上标记或删除除,因为为产产生j-项集集(jk),扫扫描数据库时时不再需要它它们。该算法法的本质是压压缩进一步迭迭代扫描的事事务数。而13提出出的ApriioriPrro算法,其其基本思想与与Aprioo
17、riTidd是一致的,也也是减少对数数据集的扫描描,不同的是是ApriooriProo算法是通过过在原有的数数据集上增加加一个属性,通通过这个属性性的取值来减减少对某些事事务的扫描。14是结合合Aprioori和ApprioriiTid两种种算法,提出出了一种混合挖掘掘算法AprrioriHHybridd,其基本思思想是在扫描描的早期使用用Aprioori算法,当当候选模式集集中记录条数数小到可以放放进内存时就就转向AprrioriTTid算法。这些改进算法虽虽然比Aprriori算算法在挖掘效效率上有一些些提高,但本本质上没有什什么区别,都都要在挖掘过过程中生成大大量的候选模模式集。“有没有
18、这样的的算法,挖掘掘全部的频繁繁项集而不产产生候选?” 19999年Han等等人提出FPP-Growwth算法15,以以及 Agrrawal等等人提出的树树投影(TTree PProjecct)166关联规则则挖掘算法就就是这样的算算法,它们在在性能上均获得得了突破,与与Aprioori算法相相比,挖掘效效率有了数量量级的提高。利利用FP-TTree 可可以压缩事务务数据集,压压缩有的达到到100多倍倍;而树投投影方法从原原理上讲是适适应任何数据据集的,无论论其据量多大大该算法都能能有效运行,从从而使得关联联规则挖掘可可以应用于海海量数据的挖挖掘和稠密数数据集的挖掘掘。除了上述关联规规则挖掘的
19、经经典算法之外外,人们着重重在以下几个个方面对关联联规则进行了了研究。(1)继续通过过各种手段提提高挖掘效率率。这方面包包括对原有算算法的进一步步改进177,18;提出一些并并行挖掘算法法19,220、增量量算法211以及带约约束的关联规规则挖掘策略略(元规则制制导关联规则则挖掘)222,23。(2)不同形式式关联规则的的研究。关联联规则最早是是由购物篮分分析开始的,但但是随着研究究的扩展和深深入,关联规规则的应用范范围不断扩大大,因此出现现了多种形式式关联规则的的研究。由最最简单的单维维、单层、布布尔关联规则则逐渐向复杂杂形式扩展。在在基本关联规规则的基础上上提出了布尔尔型加权关联联规则和广
20、义义模糊型加权权关联规则算算法24,由单层的的关联规则扩扩展为多层次次关联规则的的研究255等等。关关联规则形式式的多样化,反反映了人们从从不同角度认认识同一事物物的不同视点点,加深了对对关联规则的的认识与研究究。(3)结合其它它理论(如软软计算理论)对对关联规则进进行研究。引引入粗糙集概概念,使关联联规则发现的的模式具有较较高的解释能能力和精确度度26;通过引入神神经网络的概概念,提出用用相互激活与与竞争网络来来进行数据库库中的关联规规则的发现27;还还有基于遗传传算法的多维维关联规则挖挖掘28等。可以看看出通过引入入其他领域的的先进理论,丰丰富了关联规规则研究的内内容,提高了了算法的有效效
21、性。(4)关联规则则的价值评判判标准研究。如如29分分别讨论了关关联规则的客客观评价指标标(支持度、可可信度和相关关强度)和主主观评价指标标(新颖性、用用户感兴趣性性和简洁性),在此基础础上给出了一一种关联规则则的综合自动动评价方法。(5)关联规则则的应用研究究。理论从实实践中来,但但最终是为了了指导实践。关关联规则自提提出以来,经经过无数学者者的研究努力力,广泛应用用于社会生产产和科研的各各个方面,产产生了巨大的的效益300,31,332,33。(2)序列模式式挖掘序列模式(Seequenttial PPatterrn)挖掘最最早也是由RR.Agraawal首先先提出来的34。设设有一个交易
22、易数据库D,每每个顾客可在在不同时间购购买不同物品品,每次购买买活动称为交交易(Traansacttion)。这这里,顾客、交交易时间和所所购物品分别别以Custtomer_ID、Trransacction_Time和和Itemsset标识。如如果以Cusstomerr_ID为第第一关键字,TTransaactionn_Timee为第二关键键字对数据库库D排序,那那么,对每一一顾客而言,他他进行的所有有交易是以交交易时间的升升序排列的,从从而构成一个个序列,称这这种序列为顾顾客序列CSS(Custtomer Sequeence)。一一般地,令某某顾客的各次次交易时间为为t1,t22,t3,tn
23、,该该顾客在交易易时间ti购购买的物品集集记为iteemset(i),于是是该顾客的CCS序列为iitemseet(t1), iteemset(t2), itemsset(t33), itemmset(ttn)。相应应地,可以认认为上述交易易数据库D已已转换为顾客客序列数据库库。如果某序序列s包含在在某顾客的CCS序列中,那那么称该顾客客支持(Suupportt)该序列ss。某序列的的支持度为支支持该序列的的顾客数与顾顾客序列数据据库中顾客总总数之比。序序列模式就是是在上述顾客客序列数据库库中满足用户户指定最小支支持度的最长长序列。序列模式的问题题定义与关联联规则很相似似,它们之间间的区别可以
24、以用下列例子子描述,关联联规则描述的的是在一次购购物中所购买买物品之间的的关联关系,而而序贯模式则则是描述同一一顾客在不同同次购物所购购物品之间可可能存在的某某种关联关系系。换句话说说,关联规则则仅仅发现事事务内部(iintra-transsactioon)的模式式,而序列模模式则是发现现事务之间(iinter-transsactioon)的模式式。序列模式的发现现方法与关联联规则的发现现方法大致相相同,R.AAgrawaal在Aprriori算算法的基础上上提出了三个个序列模式的挖掘掘算法AprrioriAAll、ApprioriiSome和和DynammicSomme34。Apriiori
25、Alll算法采用用哈希树储存存候选序列,将将所有的候选选序列均储存存在哈希树的的叶子节点中中;将候选序序列的记数划划分为向前及及向后两阶段段:向前阶段段跳跃性地产产生所有特定定长度的频繁繁序列,而向后阶阶段找出在向向前阶段未考考虑的频繁序序列。 在335366中提出了了挖掘具有概概念分层、滑滑动时间窗口口及最大和最最小时间约束束的 GSPP(Geneeralizzed Seequenttial PPatterrns)算法法。该算法也也采用哈希树树存储候选序序列,仍将候候选序列的记记数分为向前前及向后阶段段,但此法划划分向前阶段段与向后阶段段的目的与实实现均与 AApriorriAll 算法不同
26、。 PSPP(Perffectlyy Sequuentiaal Pattternss)算法在37中提提出,该算法法采用了前缀缀树结构(而而非哈希树)存存储候选序列列,从而导致该算算法的候选序序列集的产生生和记数均不不同与GSPP算法; 同同时,由于前前缀树的每个个节点只存储事务中的一一项,故与哈哈希树结构相相比较大的节节省了内存空空间。(3)软计算方方法软计算(Sofft Commputinng)是方法法论的集合,这这些方法集互互相协作,并并以一种形式式或其它某种种形式为现实实中的模糊情情况提供灵活活信息处理功功能38。它的目的的是为了获得得易处理的、粗粗糙的、低成成本的解决方方法而对不确确定
27、的数据进进行处理。遵遵从的原则是是以追求近似似解决模糊/精确问题,并并低成本地设设计解决方案案。软计算方方法主要包括括模糊逻辑、RRough集集、遗传算法法、神经网络等。模模糊逻辑是处处理不确定性性概念及其推推理机制的过过程,Rouugh集和神神经网络常被被用来分类和和规则抽取,遗遗传算法包括括最优解和搜搜索过程,像像问题最优解解和样本选择择。针对时间间序列挖掘,软软计算方法的的应用研究简简要介绍如下下:模糊逻辑是最早早、应用最广广泛的软计算算方法,模糊糊逻辑的发展展导致了软计计算方法的出出现。399在挖掘时时间序列数据据时使用了模模糊语言概化化;40针对商业销销售的智能分分析需求,提提出了一
28、种基基于模糊集合合的数据挖掘掘时间序列模模式算法。神经网络是一个个黑箱问题,它它先前被认为为不适合应用用于数据挖掘掘,且在符号号格式中,它它并不能获得得有用信息,但但却适合进行行解释。近年年来,挖掘训训练过的网络络中的嵌入知知识,已广泛泛地应用于数数据挖掘中。它它对属性或逐逐个或合并地地进行判别,这这对于决策或或分类是非常常重要的。它它对数据挖掘掘的贡献是在在规则提取和和自组织性上上。遗传算法是可调调节的、鲁棒棒的、有效率率的搜索方法法,它适应于于搜索大空间间集。它相对对数据挖掘的的标准来优化化功能,并达达到搜索最优优解的目的。41提出出了一个基于于小生境遗传传算法和模式式缓存的时间间序列中频
29、繁繁结构模式的的发现算法,该该算法具有轻轻便、灵活、可可扩展性好的的特点,可根根据实际情况况合理配置计计算时间和所所占用的内存存资源,可实实现挖掘结果果的实时动态更新新输出,并通通过在在实际际时间序列数数据上的实验验证明了该算算法的有效性性。 Rough集理理论由波兰逻逻辑学家Paawlak教教授在20世世纪80年代代提出,是一一种处理含糊糊和不确定问问题的新型数数学工具,其其出发点是根根据目前已有有的对给定问问题的知识将将问题的论域域进行划分,然然后对划分的的每一部分确确定其对某一一概念的支持持程度:即肯肯定支持此概概念,肯定不不支持此概念念和可能支持持此概念,并并分别用三个个近似集合来来表
30、示为正域域、负域和边边界。它能有有效地分析不不精确、不一一致、不完整整等各种不完完备的信息,还还可以对数据据进行分析和和推理,从中中发现隐含的的知识和潜在在的规律。同同时,Rouugh集理论论在处理大数数据量,消除除冗余信息等等方面有着良良好的效果,因因此广泛应用用于数据挖掘掘的数据预处处理(数据约约简)、规则则生成等方面面42,443。股票时间序列列挖掘股票市场高风险险和高收益并并存,因此对对于股票数据据知识发现的的研究一直受受到人们的关关注。目前对对股票时间序序列的数据挖挖掘方法大致致集中在以下下三个方面。(1)相似性的的研究。该方法是在时间间序列数据库库中找出与给给定查询序列列最接近的数
31、数据序列,它它包含了全序序列匹配和子子序列匹配两两种问题。子子序列匹配就就是找出与给给定模式序列列相似的所有有子序列,而而全序列匹配配就是找出彼彼此间相似的的序列。具体体的操作时将将时间窗口在在时间序列上上滑动,通过过距离计算从从一个时间序序列和多个时时间序列中寻寻找相似的时时间序列模式式进行聚类形形成相似组群群,当有一个个新的时间序序列需要分析析时,可以从从相似组群中中寻找与它最最相似的类来来匹配。一般般有两个研究究方向,一种种是将时间序序列从时间域域(timee domaain)到频频率域(frrequenncy doomain)后后在进行相似似性匹配。至至于为什么要要进行这种数数据变换,
32、主主要是基于许许多信号分析析技术(如离离散傅立叶变变换DFT和和离散小波变变换DWT)需需要数据来自自频率域22。另一种种则是直接在在时间域上研研究。主要应应用是从股票票数据中识别别具有相似变变化趋势的模模式,以预测测新数据在未未来的发展行行为。在时间间序列相似性性方面的研究究文献有444,45,46,477。(2)趋势分析析与值预测研研究。趋势分析研究时时间序列的变变化趋势,其其理论基础是是将时间序列列视为一个动动力系统,认认为在其过去去的波动中蕴蕴涵有可用于于预测未来的的信息。给定定一组值(YY1,Y2,Y3,),确定数数据趋势的方方法通常有两两种2:一种是N阶阶的移动平均均值,即 ()/
33、n,()/n,()/n,。移动平均均可以降低数数据集中的变变化总量,用用移动平均替替代时序,可可以减少不希希望出现的波波动,故它也也称为时序的的平滑。另一一种是最小二二乘法,即以以最好的拟合合曲线C作为为最小二乘曲曲线,即曲线线具有最小的的,其中偏差差或误差dii是指点(xxi,yi)的值yi与对应曲线线C的值之间间的差值。趋势分析可以用用来值预测,除除此之外,用用得较多的是是神经网络48,499。这种预预测方法由于于是基于时间间序列的具体体数值,而这这些数据往往往含有许多干干扰数据,因因此该值预测测方法的抗干干扰能力较弱弱。(3)时间序列列中关联规则则的抽取。Gautam Das等对对从时间
34、序列列中发现关联联规则进行了了研究500,这里规规则是对时间间序列中不同同模式间关系系的一种描述述,50的主要贡献献在于给出了了一个将原始始时间序列转转换成有各个个模式表示符符组成的符号号序列的一般般方案,该方方案由三部分分组成,即分分割,聚类和和符号替换。然然后采用序列列模式发现算算法实现了符符号序列中规规则的发现。针对股票时间序序列的特殊性性,许多学者者在经典关联联规则挖掘算算法的基础上上,又提出了了许多新的算算法。19996年R.SStrikaant给出了了关系数据库库中数量关联联规则的挖掘掘算法511;19998年H.LLu对股票变变动的预测以以及内联相关关性分析进行行了研究552;1
35、9999年M.Garoffalakiis提出了具具有约束限制制的时序数据据挖掘533;20002年 Y.Chen对对时序数据库库的多维回归归分析进行了了研究544。国内学学者在这方面面也做了相当当的研究,55对股股票时间序列列的挖掘,分分别探讨了一一维和二维关关联规则的发发现;566通过一个个具体的实例例描述了从股股票时间序列列中挖掘一维维关联规则的的方法;557提出了了延迟关联规规则的概念,并并在股票时间间序列上实现现挖掘该规则则的算法;58在时时间序列中引引入多重时间间粒度,以模模糊规则的形形式给出数据据挖掘的结果果。Rough集理理论在数据挖挖掘领域的应应用主要体现现在数据约简简和关联规
36、则则的抽取上,这这方面的研究究已经有了少少量的文献。59提出出的一种基于于Roughh集的时间序序列数据挖掘掘策略,显然然适用于股票票时间序列的的挖掘;660则提出出将正则化神神经网络与RRough集集理论相结合合应用于股票票时间序列数数据库的挖掘掘。该方法融融合了正则神神经网络优良良的泛化性能能和Rouggh集理论的的规则生成能能力,充分展展示了软计算算方法应用于于时间序列数数据分析的新新颖性。四总结与展望望从大的方面来说说,时间序列列数据的挖掘掘技术可分为为统计分析法法和数据挖掘掘。众所周知知,统计学是是数据挖掘的的三大支柱之之一(另两种种是数据库和和人工智能);同时,数据据挖掘在统计计学
37、的基础上上另有扩充和和发展,这使使得数据挖掘掘技术成为一一种更具优势势性的研究方方法。统计学学为问题的探探索解决方案案提供了有用用而实际的框框架;模型是是现代统计学学的核心,模模型的选择和和计算往往被被认为是次要要的,是建立立模型的枝节节。统计学本本质上是从事事“确定性”分析的,可可以说统计方方法是“目标驱动”的。但数据据挖掘却不同同,它的核心心是算法,当当然也考虑模模型和可解释释性问题,但但算法及可实实现性是第一一位的。它所所强调的首先先是发现,其其次才是解释释。数据挖掘掘,作为很多多学科交叉的的结果,继承承了机器学习习的“冒险”态度,比统统计学更强调调实践性、探探索性和灵活活性。证券市场是
38、国民民经济的晴雨雨表,是政府府主管部门、券券商和广大投投资者的兴趣趣中心。长期期以来各券商商的交易系统统一直走在IIT技术应用用革新的前沿沿,同时也积积累了大量的的数据;挖掘掘、开发和利利用这些数据据一方面可以以有效指导证证券投资者的的投资,另一一方面可以使使证券公司进进行最适合的的定位,从而而使企业长期期的积累得以以充分发挥,树树立竞争优势势。作为数据据挖掘的主要要组成部分之之一,关联规规则挖掘获得得了广泛的研研究,但从关关联规则的角角度进行股票票时间序列分分析,从学术术上来说具有有一定的新颖颖性,其终极极目标是以极极大的概率预预测股价的未未来走势。股股票的涨跌不不是各自互不不影响的,传传统
39、意义上的的“板块联动”就是极好的的证明。考察察股票价格之之间的涨跌关关系,如能在在传统分析方方法的基础上上,采用先进进的数据挖掘掘技术,挖掘掘出股票之间间的价格联动动关联规则,显显然具有十分分重要的意义义。Rough集理理论是一种处处理含糊和不不精确性问题题的新型数学学工具,是采采用精确的数数学方法分析析不精确系统统的一种理想想方法。大量量文献已经说说明Rouggh集理论是是从数据集中中提取关联规规则的有效方方法,其中主主要的原因应应归功于Roough集理理论强大的数数据约简能力力。应用Roough集理理论对股票时时间序列数据据进行建模、约约简、规则抽抽取,显然又又是一个极具具新颖和创新新的研
40、究领域域。参考文献 1 安鸿志志,陈兆国,杜杜金观,潘一一民. 时间间序列的分析析与应用. 科学出版社社 19833.2 Jiaawei HHan,Miicheliine Kaamber. 数据挖掘掘: 概念与与技术.北京京:机械工业业出版社20001.36、2788285.3 贝政新新,陈瑛. 证券投资资通论. 上上海:复旦大大学出版社,11998.4 安妮. 股票投资资技术方法与与应用. 深深圳:海天出出版社,19995.5 王耀动动,张德远,张张海雄. 经经济时间序列列分析. 上上海财经大学学出版社 11996.6 李民,邵邵建中,李俊俊平等. 用用ARMA模模型预测深沪沪股市. 长长沙
41、铁道学院院学报,20002,188(1):77884.7 李爱国国,覃征. 滑动窗口二二次自回归模模型预测非线线性时间序列列. 计算机机学报,第227卷,第77期20044年7月.8 孙宏义义,朱梅. 混沌时间序序列预测及在在股票市场中中的应用. 安徽工程科科技学院学报报,第18卷卷,第4期22003年112月.9 李菁菁菁,邵培基,黄黄亦潇. 数数据挖掘在中中国的现状和和发展研究. 管理工程程学报 20004年第33期.10 R.Agrawwal, TT.Imieelinskki, A.Swamii. Minning AAssociiationn Rulees Bettween Sets o
42、f Ittems iin Larrge DaatabassesC. Prooceediings oof ACMM SIGMMOD Innt1 Connf. Maanagemment oof Datta, Waashinggton DD.C., 1993.2072216. 11 R.Agrawwal, RR.Srikkant. Fast Algorrithmss for Mininng Asssociattion RRulesJ. VVLDB944, Sanntiagoo, Chiile,19994:47784999.12 Maannilaa H, TToivonnen, IInkerii Ve
43、rkkamo AA. Effficiennt alggorithhms foor disscoverry asssociattion rrules. In PProceeedingss of AAAAI WWorkshhop onn Knowwledgee Disccoveryy in ddatabaase. JJuly 11994.11811992.13 Haannu TToivonnen, MMika KKlemetttinenn, Pirrjo Roonkainne etaal. Prruningg and groupping ddiscovvered assocciatioon rul
44、les. IIn Mlnnet woorkshoop on Statiisticss, Macching Learnning aand Diiscoveery inn Dataabase. Heraaklionn, Rette. Appril 11995.14 Aggrawall R, SSrikannt R. Fast Discoovery of Asssociaation Ruless. In Fayyaad. 19966.15 J.Han, J.Peii. Minning FFrequeent Paatternns Witthout Candiidate Generrationn. In
45、 PProc. 2000 ACM-SSIGMODD Intll. Connf. onn Manaagemennt of Data(SIGMOOD20000) Daallas TX 20000,112.16 R.Agarwwal, C.Agggarwaal, V.Prrasad. A Treee Projjectioon Alggorithhm forr Geneeratioon of Frequuent Itemssets. Jourrnal oof Parrallell and Distrributeed Commputinng Speecial Issuee on HHigh PPerfo
46、rrmancee Data Mininng 20001,350-3371.17 倪旻旻,徐晓飞,邓胜春,赵政. 基于于频繁项目对对支持矩阵的的Aprioori优化算算法.小型微微型计算机系系统.Voll.25 NNo.5, May 22004.18 邓砚砚谷,王丽珍珍. 对FPP-Treee头表节点数数据结构的改改进.计算机工程程与应用. 2004,25.19 R.Agrawwal, JJ.Shaffer. Paraallel Mininng of Assocciatioon Rulles. IEEEE Tranns.On Knowlledge and Data Enginneer 11996
47、,9962969.20 张兆兆功,李建中中,张艳秋. 海量数据上上挖掘关联规规则的并行算算法. 哈尔尔滨工业大学学学报,20004年055期.21 朱红红蕾,李明. 一种高效效维护关联规规则的增量算算法. 计算机应应用研究,22004年009期.22 M.Kambeer, J.Hann, J.Y.Chianng. Metaarule-Guideed Minning oof Mullti-Deemensiional Assocciatioon Ruless Usinng Datta Cubbes Inn Procc.19977 Intll. Connf. Knnowleddge Diiscoveery annd Datta Minnin KDDD19997 Newpoort Beeach CCA. 19997,2007-2100.23 程继继华,郭建生生,施鹏飞. 元规则指指导的知识发发现方法研究究. 计算机机工程与应用用,19999年第10期期.24 陆建建江. 数据据库中布尔型型及广义模糊糊型加权关联联规则的挖掘掘.系系统工程理论论与实践,22002,22:28332.25 程继继华,施鹏飞飞. 多层次次关联规则的的有效挖掘算算法.软件学报,1998,9(12):