《时序数据知识发现幻灯片.ppt》由会员分享,可在线阅读,更多相关《时序数据知识发现幻灯片.ppt(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、博士中期报告博士中期报告博士中期报告博士中期报告时序数据知识发现技术时序数据知识发现技术时序数据知识发现技术时序数据知识发现技术 -焦吉成焦吉成焦吉成焦吉成时序数据知序数据知识发现第1页,共10页,编辑于2022年,星期六第2页 共34页4.3 粗糙集属性约简常用算法粗糙集属性约简常用算法(1)Pawlak(1)Pawlak约简算法约简算法 通过逐步删除属性,属性约简。实质是穷举。通过逐步删除属性,属性约简。实质是穷举。(2)Skowron(2)Skowron可辩识矩阵算法可辩识矩阵算法 建立一个较大的矩阵来进行逻辑演算。建立一个较大的矩阵来进行逻辑演算。(3)(3)各种启发式算法各种启发式算
2、法 在删除过程中,提供一此启发式信息,减少搜在删除过程中,提供一此启发式信息,减少搜 索的次数。索的次数。针对这些不足,我们提出一个新的约简算法针对这些不足,我们提出一个新的约简算法针对这些不足,我们提出一个新的约简算法针对这些不足,我们提出一个新的约简算法(RedAttrBU)(RedAttrBU)(RedAttrBU)(RedAttrBU)。把对表的搜索转化为集合的运算,极大的提高约简效率。把对表的搜索转化为集合的运算,极大的提高约简效率。把对表的搜索转化为集合的运算,极大的提高约简效率。把对表的搜索转化为集合的运算,极大的提高约简效率。第2页,共10页,编辑于2022年,星期六第3页 共
3、34页4.4 4.4 基于关系积属性约简算法基于关系积属性约简算法基于关系积属性约简算法基于关系积属性约简算法X X1 1X X2 2Y Y1 1Y Y2 2Y Y3 3Y Y4 4X X2 2 Y Y1 1X X1 1YY1 1X X1 1YY2 2X X1 1YY4 4X X1 1YY3 3X X2 2 Y Y2 2X X2 2 Y Y4 4X X2 2 Y Y3 3(b)b)属性属性a a和和b b的关系积的关系积(a)a)属性属性a a和属性和属性b b对集合的划分对集合的划分关系积示意图关系积示意图第3页,共10页,编辑于2022年,星期六第4页 共34页4.4 基于关系积属性约简算
4、法基于关系积属性约简算法基于关系积属性约简算法基于关系积属性约简算法(续)续)续)续)开始结束输入初始决策表输入初始决策表,置最小约简集为空置最小约简集为空是否构成最小约简?Y YN N计算一阶关系积计算高一阶关系积输出核及最小约简高阶关系积是由高阶关系积是由一阶关系积和次一阶关系积和次阶关系积进行集阶关系积进行集合运算得到。合运算得到。关系积运算满足关系积运算满足交换率和结合率。交换率和结合率。第4页,共10页,编辑于2022年,星期六第5页 共34页条件属性决策属性(d)Outlook(a1)Temperature(a2)Humidity(a3)Windy(a4)1SunnyHotHigh
5、FalseN2SunnyHotHighTrueN3OvercastHotHighFalseP4RainMildHighFalseP5RainCoolNormalFalseP6RainCoolNormalTrueN7OvercastCoolNormalTrueP8SunnyMildHighFalseN9SunnyCoolNormalFalseP10OvercastMildNormalFalseP11RainMildNormalTrueP12OvercastMildHighTrueP13OvercastHotNormalFalseP14RainMildHighTrueN利用RedAttrBU算法的
6、约简结果与采用Pawlak算法约简结果相同。4.4 4.4 基于关系积属性约简算法基于关系积属性约简算法基于关系积属性约简算法基于关系积属性约简算法(续)续)续)续)第5页,共10页,编辑于2022年,星期六第6页 共34页5.1 关联规则挖掘常用算法关联规则挖掘常用算法(1)Apriori(1)Apriori算法算法 主要思想主要思想:使用频繁项集性质的先验知识,它使用一种逐使用频繁项集性质的先验知识,它使用一种逐层搜索的迭代方法。层搜索的迭代方法。K-K-项集用于探索项集用于探索(K+1)-(K+1)-项集。首先项集。首先找出频繁找出频繁1-1-项集的集合,该集合记作项集的集合,该集合记作
7、L L1 1,L,L1 1用于找频繁用于找频繁2-2-项集的集合项集的集合L L2 2,而而L L2 2用于找用于找L L3 3,如此下去如此下去,直到找到频繁直到找到频繁K-K-项集。项集。找每个找每个L Lk k 需要一次数据库的扫描。需要一次数据库的扫描。性质性质:频繁项集的所有非空子集都必须也是频繁的。:频繁项集的所有非空子集都必须也是频繁的。实现实现:包括两步:包括两步:连接;连接;剪枝;剪枝;第6页,共10页,编辑于2022年,星期六第7页 共34页(2)FP-tree(2)FP-tree算法算法 主要思想主要思想:任何频繁项集都是最大频繁项集的子集。可:任何频繁项集都是最大频繁项
8、集的子集。可以把发现所有频繁项集的问题转化为发现所有最大频繁以把发现所有频繁项集的问题转化为发现所有最大频繁项集的问题。项集的问题。实现实现:包括两步:包括两步:构造频繁模式树构造频繁模式树FP-tree;FP-tree;利用利用FP-treeFP-tree挖掘最大频繁模式挖掘最大频繁模式;5.1 关联规则挖掘常用算法(续)关联规则挖掘常用算法(续)第7页,共10页,编辑于2022年,星期六第8页 共34页结论(结论(1):已完成的工作):已完成的工作针对时序数据特点,提出了小波去噪的框架。在此基础针对时序数据特点,提出了小波去噪的框架。在此基础上,对时序数据分段,转化为决策表。上,对时序数据
9、分段,转化为决策表。针对粗糙集属性约简的不足,提出了基于关系积针对粗糙集属性约简的不足,提出了基于关系积的属性约简算法的属性约简算法RedAttrBURedAttrBU。把多维时间序列转化为常用的事务数据库,并结合把多维时间序列转化为常用的事务数据库,并结合时间序列的特殊性,提出了时间序列的特殊性,提出了AprioriCRAprioriCR算法。算法。第8页,共10页,编辑于2022年,星期六第9页 共34页结论(结论(2)未来的工作)未来的工作针对实际应用中,多维属性的特点,探索多维时间序列针对实际应用中,多维属性的特点,探索多维时间序列的聚类算法;的聚类算法;探索属性对属性约简算法。时间序列离散化后,探索属性对属性约简算法。时间序列离散化后,属性是以特征对的形式出来,约简算法对此考虑属性是以特征对的形式出来,约简算法对此考虑的不足。的不足。开展时间序列挖掘的应用研究。通过实际应用,发现我开展时间序列挖掘的应用研究。通过实际应用,发现我们所提算法的不足和缺陷,进行改进和完善。们所提算法的不足和缺陷,进行改进和完善。第9页,共10页,编辑于2022年,星期六恳请指正!第10页,共10页,编辑于2022年,星期六