《天体光谱数据挖敬葱买技术.ppt》由会员分享,可在线阅读,更多相关《天体光谱数据挖敬葱买技术.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、天体光谱数据挖敬葱买技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一、概一、概 述述 1)数据挖掘数据挖掘数据挖掘数据挖掘 2 2)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘 3 3)课题的研究意义)课题的研究意义)课题的研究意义)课题的研究意义二、主要研究工作二、主要研究工作 1 1)基于约束基于约束基于约束基于约束FPFP树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析
2、2 2)基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘 Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.数据挖掘数据挖掘 定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中
3、,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持服务。信息和知识,为决策支持服务。信息和知识,为决策支持服务。信息和知识,为决策支持服务。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决
4、策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.天体光谱数据挖掘天体光谱数据挖掘 我国正在建造一台大天区面积多目标光纤光谱望远我国正在建造一台大天区面积多目标光纤光谱望远我国正在建造一台大天区面积多目
5、标光纤光谱望远我国正在建造一台大天区面积多目标光纤光谱望远镜(镜(镜(镜(LAMOSTLAMOST),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。预计预计预计预计LAMOSTLAMOST所观测到的光谱数据容量将有可能达所观测到的光谱数据容量将有可能达所观测到的光谱数据容量将有可能达所观测到的光谱数据容量将有可能达到到到到4TB4TB。急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的
6、数据分析技术急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的数据分析技术,分析分析分析分析和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容:预处理预处理预处理预处理(去噪、归一化去噪、归一化去噪、归一化去噪、归一化等等等等)、分类与识别分类与识别分类与识别分类与识别、测量(红移等参数)测量(红移等参数)测量(红移等参数)测量(红移等参数)等。等。等。等。Evaluation only.Created with A
7、spose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.一条一条Seyfert 2 光谱数据图光谱数据图(红移为红移为0)天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱
8、的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题。形成和随时间的演化等重大科学问题。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.主要的方法主要的方法主要的方法主要的方法 交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(PCAPCA)、人工神经网络、)、人工神
9、经网络、)、人工神经网络、)、人工神经网络、小波变换、贝叶斯统计、小波变换、贝叶斯统计、小波变换、贝叶斯统计、小波变换、贝叶斯统计、SVMSVM等。等。等。等。典型的成果典型的成果典型的成果典型的成果 1 1)Autoclass Autoclass,基于贝叶斯统计的一种光谱分类方,基于贝叶斯统计的一种光谱分类方,基于贝叶斯统计的一种光谱分类方,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;2 2)Gulati Gulati等人采用两层等人采用两
10、层等人采用两层等人采用两层BPBP神经网络方法,用于恒星神经网络方法,用于恒星神经网络方法,用于恒星神经网络方法,用于恒星光谱次型的分类;光谱次型的分类;光谱次型的分类;光谱次型的分类;3 3)EllisEllis等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;4 4)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别;谱的分类识别;谱的分类识别;谱的分类识别;5
11、5)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法;征空间的快速光谱识别方法;征空间的快速光谱识别方法;征空间的快速光谱识别方法;6 6)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的MM型星自动识别型星自动识别型星自动识别型星自动识别方法等。方法等。方法等。方法等。Evaluation only.Created with Aspose.Slides for.NET 3.5
12、 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.课题的研究意义课题的研究意义课题的研究意义课题的研究意义 由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,LAMOSTLAMOST巡天巡天巡天巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱
13、数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。索的新应用领域。索的新应用领域。索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的面向特定任务的数据挖掘是当前数据挖掘领域发展的面向特定任务的数据挖掘是当前数据挖掘领域发展的面向特定任务的数据挖掘是当前数据挖掘领
14、域发展的趋势之一。以趋势之一。以趋势之一。以趋势之一。以LAMOSTLAMOST项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到而且可直接应用到而且可直接应用到而且可直接应用到LAMOSTLAMOST中,为国家重大科学工程提供中,为国家重大科学工程提供中,为国家重大科学工程提供中,为国家重大科学工程提供技术支撑
15、。技术支撑。技术支撑。技术支撑。退回Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.引言引言引言引言关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。述了数据集属性之间的相关性关系。述了数据集属性之间的相关性关系。述了数据集属性之间的相关性
16、关系。利用关联规则来描述天体光谱数据特征与其物理化学性质利用关联规则来描述天体光谱数据特征与其物理化学性质利用关联规则来描述天体光谱数据特征与其物理化学性质利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用价值。价值。价值。价值。频繁模式集的生成频繁模式集的生成频繁模式集的生成频繁模式集的生成是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖
17、掘效率的关键。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:AprioriApriori和和和和FPFP两类算法。两类算法。两类算法。两类算法。AprioriApriori算法算法算法算法 优点优点优点优点:思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁
18、思路比较清晰,以递归统计为基础,剪枝生成频繁集;集;集;集;缺点缺点缺点缺点:在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,多次遍历数据库,多次遍历数据库,多次遍历数据库,I/OI/O代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。FPFP算法算法算法算法 优点优点优点优点:(l)(l)通过对通过对通过对通过对FPFP树的递归访问,产生频繁模式集,仅需树的递归访问,产生频
19、繁模式集,仅需树的递归访问,产生频繁模式集,仅需树的递归访问,产生频繁模式集,仅需要构造要构造要构造要构造FPFP树和条件树和条件树和条件树和条件FPFP树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;(2)(2)对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第l l次遍历产生频繁次遍历产生频繁次遍历产生频繁次遍历产生频繁l-l-项集,第项集,第项集,第项集,第2 2次遍历用于构造次遍历用于构造次遍历用于构造次遍历用于构造FPFP树,从而降低了访问数据树,从而降低了访问数据树,从而降
20、低了访问数据树,从而降低了访问数据库的次数。库的次数。库的次数。库的次数。缺点缺点缺点缺点:FP:FP树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.约束约束约束约束FPFP树及其构造树及其构造树及其构造树及其构造 一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识 数据挖掘是从宏观角度利用积累的巨量数
21、据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景
22、知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行
23、的。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定义定义定义定义3-1 3-1 设设设设r r 是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,f f 是是是是表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,k k 是支持度是支持度是支持度是支持度(0k10
24、k1),则背景知识),则背景知识),则背景知识),则背景知识G G可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑运算符组成合适公式。运算符组成合适公式。运算符组成合适公式。运算符组成合适公式。(1)Interesting(f(r)(1)Interesting(f(r)(2)support(f(r),k)(2)support(f(r),k)Interesting(f(r)Interesting(f(r)(3)Interested(f(r)(3)Interested(f(r)Interesting(f(r)Interesting(f(r)(
25、4)P(f(r)Q(f(r)(4)P(f(r)Q(f(r)Interesting(f(r)Interesting(f(r)定义定义定义定义3-3 3-3 设设设设D D为交易数据库,为交易数据库,为交易数据库,为交易数据库,minmin为最小支持度,为最小支持度,为最小支持度,为最小支持度,G G为背为背为背为背景知识,如果景知识,如果景知识,如果景知识,如果L L是一频繁模式,且是一频繁模式,且是一频繁模式,且是一频繁模式,且G G(L L)=True=True,则称,则称,则称,则称L L为约束频繁模式。为约束频繁模式。为约束频繁模式。为约束频繁模式。Evaluation only.Cre
26、ated with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.CFP-treeCFP-tree及构造及构造及构造及构造 定义定义定义定义3-4 3-4 设设设设G G为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树FP-treeFP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根
27、节点到叶子节点的路径中,所描述的任一频繁模式模式模式模式P P,使得,使得,使得,使得G G(P P)=True=True,则称,则称,则称,则称FP-TreeFP-Tree为约束频繁模为约束频繁模为约束频繁模为约束频繁模式树式树式树式树CFP-treeCFP-tree。构造思想与方法构造思想与方法构造思想与方法构造思想与方法:只有数据库中的事务只有数据库中的事务只有数据库中的事务只有数据库中的事务T T满足满足满足满足G G所构造出的所构造出的所构造出的所构造出的FP-TreeFP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数
28、才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成据库来完成据库来完成据库来完成CFP-treeCFP-tree的构造的构造的构造的构造 。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理2-1 2-1 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为最小支持度、为最小支持度、为最小支持度、为
29、最小支持度、G G为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,则从,则从,则从,则从CFP-treeCFP-tree提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式P P,一定是满足,一定是满足,一定是满足,一定是满足G G(P P)=true=true(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。定理定理定理定理2-2 2-2 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库
30、、minmin为最小支持度、为最小支持度、为最小支持度、为最小支持度、G G为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,P P为任为任为任为任意频繁模式,若意频繁模式,若意频繁模式,若意频繁模式,若G G(P P)=true=true(即约束频繁模式),则(即约束频繁模式),则(即约束频繁模式),则(即约束频繁模式),则P P一定是一定是一定是一定是CFP-treeCFP-tree中的频繁模式。中的频繁模式。中的频繁模式。中的频繁模式。Evaluation only.Creat
31、ed with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理2-3 CFP-tree2-3 CFP-tree是是是是FP-treeFP-tree的子集。的子集。的子集。的子集。定理定理定理定理2-4 2-4 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1,G2G2为背景知识,为背景知识,为背景知识,为背景知识,且且且且G1G2G1G2、T1T1,T2T2分别是基于分别是基于分别是基于分别是基于G1G1,G2G
32、2构造的构造的构造的构造的CFP-treeCFP-tree,则,则,则,则T1T2T1T2。(约束的单调性)。(约束的单调性)。(约束的单调性)。(约束的单调性)推论推论推论推论3-1 3-1 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1,G2G2为背景知识,为背景知识,为背景知识,为背景知识,T1T1,T2T2分别是基于分别是基于分别是基于分别是基于G1G1,G2G2构造的构造的构造的构造的CFP-treeCFP-tree,当,当,当,当G1=G2G1=G2时时时时T1=T2T1=T2。(约束的唯一性约束的唯一性约束的唯一性约束的唯一性)Ev
33、aluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.推论推论推论推论3-2 3-2 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1为背景知识,为背景知识,为背景知识,为背景知识,T TCFPCFP是是是是基于基于基于基于G1G1构造的构造的构造的构造的CFP-treeCFP-tree,T TFPFP是数据库是数据库是数据库是数据库D D的的的的FP-treeFP-tree,当,当
34、,当,当G1=G1=时时时时T TCFPCFP=T=TFPFP。定理定理定理定理3-5 3-5 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为一个最小支持为一个最小支持为一个最小支持为一个最小支持度、度、度、度、G G为背景知识,构造出的约束为背景知识,构造出的约束为背景知识,构造出的约束为背景知识,构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,由,由,由,由G G将交易数据库分为两部分,即:将交易数据库分为两部分,即:将交易数据库分为两部分,即:将交易数据库分为两部分,即:D=D1D=D1D2,D2,其中:其中:其
35、中:其中:T TD1D1,那么,那么,那么,那么G G(T T)=True=True,T TD2D2,G G(T T)=False=False,如果对于如果对于如果对于如果对于D1D1,采用传统,采用传统,采用传统,采用传统FP-treeFP-tree构造方构造方构造方构造方法的法的法的法的FPFP树为树为树为树为FP-Tree1FP-Tree1,则,则,则,则CFP-treeCFP-tree与与与与FP-Tree1FP-Tree1是同一是同一是同一是同一棵树。棵树。棵树。棵树。Evaluation only.Created with Aspose.Slides for.NET 3.5 Cli
36、ent Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.约束约束约束约束FPFP树的构造算法树的构造算法树的构造算法树的构造算法 算法描述及分析(见算法描述及分析(见算法描述及分析(见算法描述及分析(见P23-24P23-24)实验分析实验分析实验分析实验分析 硬件:硬件:硬件:硬件:PentiumIV-2.0G CPU PentiumIV-2.0G CPU,512M 512M 内存;内存;内存;内存;软件:软件:软件:软件:Windows XP Windows XP 操作系统,操作系统,操作系统,操作系统,DBMS DBMS 为为为为OR
37、ACLE9iORACLE9i,VC+VC+为编程语言;为编程语言;为编程语言;为编程语言;数据预处理:数据预处理:数据预处理:数据预处理:(8400(8400 条条条条SDSSSDSS恒星光谱数据恒星光谱数据恒星光谱数据恒星光谱数据)1 1)选定间隔为)选定间隔为)选定间隔为)选定间隔为20 20 的的的的200200个波长,离散化为十三种个波长,离散化为十三种个波长,离散化为十三种个波长,离散化为十三种值;值;值;值;2 2)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温
38、度离散化为二十一种值;化为二十一种值;化为二十一种值;化为二十一种值;3 3)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表表表表3-2 3-2 约束约束约束约束FPFP树构造效率比较树构造效率比较树构造效率比较树构造效率比较1 1(|
39、DB|=6000|DB|=6000,单位:秒),单位:秒),单位:秒),单位:秒)最小支持度(min)约束条件5%3%2%1%无约束(FP算法)384503640819光度_1化学丰度_2191253298385光度_1162217241320光度_1化学丰度_2130168197259Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表表表表3-3 3-3 约束约束约束约束FPFP树构造效率比较树构造效率比较树构造效率
40、比较树构造效率比较2 2(min=3%min=3%,单位:秒),单位:秒),单位:秒),单位:秒)数据集|DB|约束条件2000400060008400无约束(FP算法)104302503797光度_1化学丰度_252154253360光度_142120217299光度_1化学丰度_236103168244Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表3-4 约束频繁模式(|DB|=8400,min=1%,单位:个
41、)约束条件无约束光度_1化学丰度_2光度_1光度_1化学丰度_2频繁模式个数5732710408221Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.基于基于CFP树的天体光谱数据相关性分析系统树的天体光谱数据相关性分析系统 天体光谱数据预处理天体光谱数据预处理天体光谱数据预处理天体光谱数据预处理 归一化归一化归一化归一化 离散化(表离散化(表离散化(表离散化(表3-5 3-5 恒星光谱数据离散化参数恒星光谱数据离散化
42、参数恒星光谱数据离散化参数恒星光谱数据离散化参数)天体光谱知识表示天体光谱知识表示天体光谱知识表示天体光谱知识表示 给定一个天体光谱数据库给定一个天体光谱数据库给定一个天体光谱数据库给定一个天体光谱数据库DB=I1,I2,DB=I1,I2,Im,Im为为为为DBDB中中中中mm条光谱数据的集合,条光谱数据的集合,条光谱数据的集合,条光谱数据的集合,DBDB中每一条光谱中每一条光谱中每一条光谱中每一条光谱IiIi就是就是就是就是I I中的一组中的一组中的一组中的一组项目子集,即项目子集,即项目子集,即项目子集,即IiIi I I,其中:,其中:,其中:,其中:I=A1,A2,An,S1,S2,S
43、m I=A1,A2,An,S1,S2,Sm,Ai Ai为第为第为第为第i i波长处的离散化特征属性,波长处的离散化特征属性,波长处的离散化特征属性,波长处的离散化特征属性,SjSj第第第第j j个物理化学个物理化学个物理化学个物理化学性质的离散化属性。性质的离散化属性。性质的离散化属性。性质的离散化属性。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定义定义定义定义3-5 3-5 设设设设r r 是天体光谱数据库中的
44、关系表名个体变量,是天体光谱数据库中的关系表名个体变量,是天体光谱数据库中的关系表名个体变量,是天体光谱数据库中的关系表名个体变量,f f 是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,min min 是最小支持度是最小支持度是最小支持度是最小支持度(00 min1min1),则天体光谱知识),则天体光谱知识),则天体光谱知识),则天体光谱知识G G可由如下谓词公式,可由如下谓词公式,可由如下谓词公式,可由如下谓词公式,通过逻辑运算符组成合适公式。通过逻辑运算符组成合适公式。通过逻辑运算符组成合适公式。通过逻辑运
45、算符组成合适公式。(1)Interesting(f(r)(1)Interesting(f(r)(2)support(f(r),(2)support(f(r),min)min)Interesting(f(r)Interesting(f(r)(3)Interested(f(r)(3)Interested(f(r)Interesting(f(r)Interesting(f(r)对于任意天体光谱知识对于任意天体光谱知识对于任意天体光谱知识对于任意天体光谱知识G G,G G是由定义是由定义是由定义是由定义3-53-5中的三类谓中的三类谓中的三类谓中的三类谓词公式,通过逻辑运算符组成的合适公式,由文献词公
46、式,通过逻辑运算符组成的合适公式,由文献词公式,通过逻辑运算符组成的合适公式,由文献词公式,通过逻辑运算符组成的合适公式,由文献5656可可可可知,知,知,知,G G可化简为合取范式,并用子句集可化简为合取范式,并用子句集可化简为合取范式,并用子句集可化简为合取范式,并用子句集S S来表示。来表示。来表示。来表示。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理3-6 3-6 设设设设S S是表示天体光
47、谱知识是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识G G的子句集,任一子句的子句集,任一子句的子句集,任一子句的子句集,任一子句s sS S是由谓词是由谓词是由谓词是由谓词Interesting(f(r)Interesting(f(r)、support(f(r),support(f(r),min)min)、Interested(f(r)Interested(f(r)所表达的若干有限文字析取式,所表达的若干有限文字析取式,所表达的若干有限文字析取式,所表达的若干有限文字析取式,且下列公式成立。且下列公式成立。且下列公式成立。且下列公式成立。Interesting(f1(r1)Inter
48、esting(f1(r1)support(f2(r1),support(f2(r1),min)min)Interested(f3(r1)Interested(f3(r1)InterestingInteresting(f1(r1)f1(r1)f2(r1)f2(r1)f3(r1)f3(r1))定理定理定理定理3-7 3-7 设设设设S S是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识G G的子句集,任一子句的子句集,任一子句的子句集,任一子句的子句集,任一子句s sS S是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。推论推
49、论推论推论3-1 3-1 设设设设G G为天体光谱知识,则为天体光谱知识,则为天体光谱知识,则为天体光谱知识,则G G描述了一组感性趣的天描述了一组感性趣的天描述了一组感性趣的天描述了一组感性趣的天体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.天体光谱数据的频繁模式提取与关联规则挖掘天体光谱数据的频
50、繁模式提取与关联规则挖掘天体光谱数据的频繁模式提取与关联规则挖掘天体光谱数据的频繁模式提取与关联规则挖掘 CFPCFP树的遍历:树的遍历:树的遍历:树的遍历:创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它在树中的位置。提取过程从在树中的位置。提取过程从在树中的位置。提取过程从在树中的位置。提取过程从1 1频繁模式开始,构造它的条频繁模式开始,构造它的条频繁模式开始,构造它的条频繁模式开始,构造它的条件模式基;件模式基;件模式基;件模式基;然后构造它的条件然后