《最新天体光谱数据挖敬葱买技术PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新天体光谱数据挖敬葱买技术PPT课件.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、天体光谱数据挖敬葱买技术天体光谱数据挖敬葱买技术一、概一、概 述述 1)数据挖掘数据挖掘数据挖掘数据挖掘 2 2)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘 3 3)课题的研究意义)课题的研究意义)课题的研究意义)课题的研究意义二、主要研究工作二、主要研究工作 1 1)基于约束基于约束基于约束基于约束FPFP树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析 2 2)基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘 Evaluatio
2、n only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:AprioriApriori和和和和FPFP两类算法。两类算法。两类算法。两类算法。AprioriApriori算法算法算法算法 优点优点优点优点:思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,
3、剪枝生成频繁集;集;集;集;缺点缺点缺点缺点:在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,多次遍历数据库,多次遍历数据库,多次遍历数据库,I/OI/O代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。FPFP算法算法算法算法 优点优点优点优点:(l)(l)通过对通过对通过对通过对FPFP树的递归访问,产生频繁模式集,仅需树的递归访问,产生频繁模式集,仅需树的递归访问,产生
4、频繁模式集,仅需树的递归访问,产生频繁模式集,仅需要构造要构造要构造要构造FPFP树和条件树和条件树和条件树和条件FPFP树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;(2)(2)对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第l l次遍历产生频繁次遍历产生频繁次遍历产生频繁次遍历产生频繁l-l-项集,第项集,第项集,第项集,第2 2次遍历用于构造次遍历用于构造次遍历用于构造次遍历用于构造FPFP树,从而降低了访问数据树,从而降低了访问数据树,从而降低了访问数据树,从而降低了访问数
5、据库的次数。库的次数。库的次数。库的次数。缺点缺点缺点缺点:FP:FP树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.约束约束约束约束FPFP树及其构造树及其构造树及其构造树及其构造 一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识 数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利
6、用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背
7、景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。Evaluation onl
8、y.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定义定义定义定义3-1 3-1 设设设设r r 是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,f f 是是是是表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,k k 是支持度是支持度是支持度是支持度(0k10k1),则背景知识),则背景知识
9、),则背景知识),则背景知识G G可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑运算符组成合适公式。运算符组成合适公式。运算符组成合适公式。运算符组成合适公式。(1)Interesting(f(r)(1)Interesting(f(r)(2)support(f(r),k)(2)support(f(r),k)Interesting(f(r)Interesting(f(r)(3)Interested(f(r)(3)Interested(f(r)Interesting(f(r)Interesting(f(r)(4)P(f(r)Q(f(r)(4
10、)P(f(r)Q(f(r)Interesting(f(r)Interesting(f(r)定义定义定义定义3-3 3-3 设设设设D D为交易数据库,为交易数据库,为交易数据库,为交易数据库,minmin为最小支持度,为最小支持度,为最小支持度,为最小支持度,G G为背为背为背为背景知识,如果景知识,如果景知识,如果景知识,如果L L是一频繁模式,且是一频繁模式,且是一频繁模式,且是一频繁模式,且G G(L L)=True=True,则称,则称,则称,则称L L为约束频繁模式。为约束频繁模式。为约束频繁模式。为约束频繁模式。Evaluation only.Created with Aspose
11、.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.CFP-treeCFP-tree及构造及构造及构造及构造 定义定义定义定义3-4 3-4 设设设设G G为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树FP-treeFP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的
12、任一频繁模式模式模式模式P P,使得,使得,使得,使得G G(P P)=True=True,则称,则称,则称,则称FP-TreeFP-Tree为约束频繁模为约束频繁模为约束频繁模为约束频繁模式树式树式树式树CFP-treeCFP-tree。构造思想与方法构造思想与方法构造思想与方法构造思想与方法:只有数据库中的事务只有数据库中的事务只有数据库中的事务只有数据库中的事务T T满足满足满足满足G G所构造出的所构造出的所构造出的所构造出的FP-TreeFP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式
13、,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成据库来完成据库来完成据库来完成CFP-treeCFP-tree的构造的构造的构造的构造 。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理2-1 2-1 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为最小支持度、为最小支持度、为最小支持度、为最小支持度、G G为背景知识,所
14、构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,则从,则从,则从,则从CFP-treeCFP-tree提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式P P,一定是满足,一定是满足,一定是满足,一定是满足G G(P P)=true=true(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。定理定理定理定理2-2 2-2 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为最小支持度、为最
15、小支持度、为最小支持度、为最小支持度、G G为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,P P为任为任为任为任意频繁模式,若意频繁模式,若意频繁模式,若意频繁模式,若G G(P P)=true=true(即约束频繁模式),则(即约束频繁模式),则(即约束频繁模式),则(即约束频繁模式),则P P一定是一定是一定是一定是CFP-treeCFP-tree中的频繁模式。中的频繁模式。中的频繁模式。中的频繁模式。Evaluation only.Created with Aspose.S
16、lides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理2-3 CFP-tree2-3 CFP-tree是是是是FP-treeFP-tree的子集。的子集。的子集。的子集。定理定理定理定理2-4 2-4 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1,G2G2为背景知识,为背景知识,为背景知识,为背景知识,且且且且G1G2G1G2、T1T1,T2T2分别是基于分别是基于分别是基于分别是基于G1G1,G2G2构造的构造的构造的构造的CFP
17、-treeCFP-tree,则,则,则,则T1T2T1T2。(约束的单调性)。(约束的单调性)。(约束的单调性)。(约束的单调性)推论推论推论推论3-1 3-1 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1,G2G2为背景知识,为背景知识,为背景知识,为背景知识,T1T1,T2T2分别是基于分别是基于分别是基于分别是基于G1G1,G2G2构造的构造的构造的构造的CFP-treeCFP-tree,当,当,当,当G1=G2G1=G2时时时时T1=T2T1=T2。(约束的唯一性约束的唯一性约束的唯一性约束的唯一性)Evaluation only.Cr
18、eated with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.推论推论推论推论3-2 3-2 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、G1G1为背景知识,为背景知识,为背景知识,为背景知识,T TCFPCFP是是是是基于基于基于基于G1G1构造的构造的构造的构造的CFP-treeCFP-tree,T TFPFP是数据库是数据库是数据库是数据库D D的的的的FP-treeFP-tree,当,当,当,当G1=G1=时时时时T
19、TCFPCFP=T=TFPFP。定理定理定理定理3-5 3-5 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为一个最小支持为一个最小支持为一个最小支持为一个最小支持度、度、度、度、G G为背景知识,构造出的约束为背景知识,构造出的约束为背景知识,构造出的约束为背景知识,构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,由,由,由,由G G将交易数据库分为两部分,即:将交易数据库分为两部分,即:将交易数据库分为两部分,即:将交易数据库分为两部分,即:D=D1D=D1 D2,D2,其中:其中:其中:其中:T T D1D1,那
20、么,那么,那么,那么G G(T T)=True=True,T T D2D2,G G(T T)=False=False,如果对于如果对于如果对于如果对于D1D1,采用传统,采用传统,采用传统,采用传统FP-treeFP-tree构造方法的构造方法的构造方法的构造方法的FPFP树为树为树为树为FP-Tree1FP-Tree1,则,则,则,则CFP-treeCFP-tree与与与与FP-Tree1FP-Tree1是同一棵树。是同一棵树。是同一棵树。是同一棵树。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5
21、.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.约束约束约束约束FPFP树的构造算法树的构造算法树的构造算法树的构造算法 算法描述及分析(见算法描述及分析(见算法描述及分析(见算法描述及分析(见P23-24P23-24)实验分析实验分析实验分析实验分析 硬件:硬件:硬件:硬件:PentiumIV-2.0G CPU PentiumIV-2.0G CPU,512M 512M 内存;内存;内存;内存;软件:软件:软件:软件:Windows XP Windows XP 操作系统,操作系统,操作系统,操作系统,DBMS DBMS 为为为为ORACLE9iORACLE9
22、i,VC+VC+为编程语言;为编程语言;为编程语言;为编程语言;数据预处理:数据预处理:数据预处理:数据预处理:(8400(8400 条条条条SDSSSDSS恒星光谱数据恒星光谱数据恒星光谱数据恒星光谱数据)1 1)选定间隔为)选定间隔为)选定间隔为)选定间隔为20 20 的的的的200200个波长,离散化为十三种个波长,离散化为十三种个波长,离散化为十三种个波长,离散化为十三种值;值;值;值;2 2)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温度离散)温度等间隔离散化为三种值,七类恒星温度离散化为二十一种值;化为
23、二十一种值;化为二十一种值;化为二十一种值;3 3)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。)光度、化学分度、微湍流等间隔离散化为三种值。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表表表表3-2 3-2 约束约束约束约束FPFP树构造效率比较树构造效率比较树构造效率比较树构造效率比较1 1(|DB|=6000|DB|=
24、6000,单位:秒),单位:秒),单位:秒),单位:秒)最小支持度(最小支持度(minmin)约约束条件束条件5%5%3%3%2%2%1%1%无无约约束(束(FPFP算法)算法)384384503503640640819819光度光度_1_1化学丰度化学丰度_2_2191191253253298298385385光度光度_1_1162162217217241241320320光度光度_1_1化学丰度化学丰度_2_2130130168168197197259259Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profi
25、le 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表表表表3-3 3-3 约束约束约束约束FPFP树构造效率比较树构造效率比较树构造效率比较树构造效率比较2 2(min=3%min=3%,单位:秒),单位:秒),单位:秒),单位:秒)数据集数据集|DB|DB|约约束条件束条件20002000400040006000600084008400无无约约束(束(FPFP算法)算法)104104302302503503797797光度光度_1_1化学丰度化学丰度_2_25252154154253253360360光度光度_1_142421201202172172
26、99299光度光度_1_1化学丰度化学丰度_2_23636103103168168244244Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.表3-4 约束频繁模式(|DB|=8400,min=1%,单位:个)约约束条件束条件无无约约束束光度光度_1_1化学化学丰度丰度_2_2光度光度_1_1光度光度_1_1化学丰化学丰度度_2_2频频繁模式繁模式个数个数57325732710710408408221221Evalua
27、tion only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.基于基于CFP树的天体光谱数据相关性分析系统树的天体光谱数据相关性分析系统 天体光谱数据预处理天体光谱数据预处理天体光谱数据预处理天体光谱数据预处理 归一化归一化归一化归一化 离散化(表离散化(表离散化(表离散化(表3-5 3-5 恒星光谱数据离散化参数恒星光谱数据离散化参数恒星光谱数据离散化参数恒星光谱数据离散化参数)天体光谱知识表示天体光谱知识表示天体光谱知识表示天体光谱知识表示
28、 给定一个天体光谱数据库给定一个天体光谱数据库给定一个天体光谱数据库给定一个天体光谱数据库DB=I1,I2,DB=I1,I2,Im,Im为为为为DBDB中中中中mm条光谱数据的集合,条光谱数据的集合,条光谱数据的集合,条光谱数据的集合,DBDB中每一条光谱中每一条光谱中每一条光谱中每一条光谱IiIi就是就是就是就是I I中的一组中的一组中的一组中的一组项目子集,即项目子集,即项目子集,即项目子集,即IiIi I I,其中:,其中:,其中:,其中:I=A1,A2,An,S1,S2,Sm I=A1,A2,An,S1,S2,Sm,Ai Ai为第为第为第为第i i波长处的离散化特征属性,波长处的离散化
29、特征属性,波长处的离散化特征属性,波长处的离散化特征属性,SjSj第第第第j j个物理化学个物理化学个物理化学个物理化学性质的离散化属性。性质的离散化属性。性质的离散化属性。性质的离散化属性。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定义定义定义定义3-5 3-5 设设设设r r 是天体光谱数据库中的关系表名个体变量,是天体光谱数据库中的关系表名个体变量,是天体光谱数据库中的关系表名个体变量,是天体光谱数据库中的
30、关系表名个体变量,f f 是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,是表示关系表到属性的映射的函词,min min 是最小支持度是最小支持度是最小支持度是最小支持度(00 min1min1),则天体光谱知识),则天体光谱知识),则天体光谱知识),则天体光谱知识G G可由如下谓词公式,可由如下谓词公式,可由如下谓词公式,可由如下谓词公式,通过逻辑运算符组成合适公式。通过逻辑运算符组成合适公式。通过逻辑运算符组成合适公式。通过逻辑运算符组成合适公式。(1)Interesting(f(r)(1)Interesting(f(r)(2)support
31、(f(r),(2)support(f(r),min)min)Interesting(f(r)Interesting(f(r)(3)Interested(f(r)(3)Interested(f(r)Interesting(f(r)Interesting(f(r)对于任意天体光谱知识对于任意天体光谱知识对于任意天体光谱知识对于任意天体光谱知识G G,G G是由定义是由定义是由定义是由定义3-53-5中的三类谓中的三类谓中的三类谓中的三类谓词公式,通过逻辑运算符组成的合适公式,由文献词公式,通过逻辑运算符组成的合适公式,由文献词公式,通过逻辑运算符组成的合适公式,由文献词公式,通过逻辑运算符组成的合
32、适公式,由文献5656可可可可知,知,知,知,G G可化简为合取范式,并用子句集可化简为合取范式,并用子句集可化简为合取范式,并用子句集可化简为合取范式,并用子句集S S来表示。来表示。来表示。来表示。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.定理定理定理定理3-6 3-6 设设设设S S是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识G G的子句集,任一子句的子句集,任一子句的子句集,任
33、一子句的子句集,任一子句s s S S是由谓词是由谓词是由谓词是由谓词Interesting(f(r)Interesting(f(r)、support(f(r),support(f(r),min)min)、Interested(f(r)Interested(f(r)所表达的若干有限文字析取式,且下所表达的若干有限文字析取式,且下所表达的若干有限文字析取式,且下所表达的若干有限文字析取式,且下列公式成立。列公式成立。列公式成立。列公式成立。Interesting(f1(r1)Interesting(f1(r1)support(f2(r1),support(f2(r1),min)min)Inter
34、ested(f3(r1)Interested(f3(r1)InterestingInteresting(f1(r1)f1(r1)f2(r1)f2(r1)f3(r1)f3(r1))定理定理定理定理3-7 3-7 设设设设S S是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识是表示天体光谱知识G G的子句集,任一子句的子句集,任一子句的子句集,任一子句的子句集,任一子句s s S S是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。是感兴趣的天体光谱模式。推论推论推论推论3-1 3-1 设设设设G G为天体光谱知识,则为天体光谱知识,则为天体光谱知识,则为天体光谱知识,
35、则G G描述了一组感性趣的天描述了一组感性趣的天描述了一组感性趣的天描述了一组感性趣的天体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。体光谱模式,即天体光谱模式集。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.天体光谱数据的频繁模式提取与关联规则挖掘天体光谱数据的频繁模式提取与关联规则挖掘天体光谱数据的频繁模式提取与关联规则挖掘天体光谱数据的频繁模式提取与关联规则挖掘 CF
36、PCFP树的遍历:树的遍历:树的遍历:树的遍历:创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它创建一个项头表,使得每个项通过一个节点链指向它在树中的位置。提取过程从在树中的位置。提取过程从在树中的位置。提取过程从在树中的位置。提取过程从1 1频繁模式开始,构造它的条频繁模式开始,构造它的条频繁模式开始,构造它的条频繁模式开始,构造它的条件模式基;件模式基;件模式基;件模式基;然后构造它的条件然后构造它的条件然后构造它的条件然后构造它的条件CFPCFP树,并递归地在该树上树,并递归地在该树上树,并递归地在
37、该树上树,并递归地在该树上进行提取。进行提取。进行提取。进行提取。关联规则生成:关联规则生成:关联规则生成:关联规则生成:对于任一频繁模式对于任一频繁模式对于任一频繁模式对于任一频繁模式P P L L,其中:,其中:,其中:,其中:P=P1P=P1 P2P2,P1P1是是是是天体光谱数据特征的非空子模式,天体光谱数据特征的非空子模式,天体光谱数据特征的非空子模式,天体光谱数据特征的非空子模式,P2P2是物理化学性质的是物理化学性质的是物理化学性质的是物理化学性质的非空子模式,如果非空子模式,如果非空子模式,如果非空子模式,如果 (P1(P1 P2/DB)/P2/DB)/(P1/DB)(P1/D
38、B)minmin,则生成一条关联规则,则生成一条关联规则,则生成一条关联规则,则生成一条关联规则“P1“P1 P2”P2”。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.体系结构与功能体系结构与功能体系结构与功能体系结构与功能 主 程 序数据预处理背景知识获取CFP树构造频繁模式提取关联规则挖掘Evaluation only.Created with Aspose.Slides for.NET 3.5 Client
39、Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.预处理参数输入挖掘结果输出用户接口 规则提取FP树的构造 频繁模式挖掘归一化恒星光谱库恒星光谱数据离散化Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.运行结果及分析运行结果及分析运行结果及分析运行结果及分析 Evaluation only.Created with Aspose.Slides for.NET 3.5
40、Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.退回Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.引言引言引言引言 离群数据识
41、别的主要方法:离群数据识别的主要方法:离群数据识别的主要方法:离群数据识别的主要方法:距离的方法、统计的方法、局部密度的方法和基于偏距离的方法、统计的方法、局部密度的方法和基于偏距离的方法、统计的方法、局部密度的方法和基于偏距离的方法、统计的方法、局部密度的方法和基于偏离模型的方法等。离模型的方法等。离模型的方法等。离模型的方法等。大多数的方法是从全局的观点看待离群数据,很难发大多数的方法是从全局的观点看待离群数据,很难发大多数的方法是从全局的观点看待离群数据,很难发大多数的方法是从全局的观点看待离群数据,很难发现低维子空间中的偏移数据,而且很难应用于高维数据。现低维子空间中的偏移数据,而且很
42、难应用于高维数据。现低维子空间中的偏移数据,而且很难应用于高维数据。现低维子空间中的偏移数据,而且很难应用于高维数据。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.C C.AgarwalC C.Agarwal等人在等人在等人在等人在20052005年提出了一种基于子空间的年提出了一种基于子空间的年提出了一种基于子空间的年提出了一种基于子空间的高维离群数据识别算法,该算法采用遗传算法搜索离群数据。高维离群数据识别算法,
43、该算法采用遗传算法搜索离群数据。高维离群数据识别算法,该算法采用遗传算法搜索离群数据。高维离群数据识别算法,该算法采用遗传算法搜索离群数据。C C.Agarwal,P S.Yu.An effective and efficient algorithm C C.Agarwal,P S.Yu.An effective and efficient algorithm for high-dimensional outlier detectionfor high-dimensional outlier detection,The International The International Journ
44、al on Very Large Data BasesJournal on Very Large Data Bases,2005,14(2)2005,14(2):211 221211 221 存在问题:存在问题:存在问题:存在问题:仅利用稀疏度系数,在子空间中来考察数据的行为,仅利用稀疏度系数,在子空间中来考察数据的行为,仅利用稀疏度系数,在子空间中来考察数据的行为,仅利用稀疏度系数,在子空间中来考察数据的行为,无法避免由于正常数据的稀疏,导致在子空间中也是稀疏的无法避免由于正常数据的稀疏,导致在子空间中也是稀疏的无法避免由于正常数据的稀疏,导致在子空间中也是稀疏的无法避免由于正常数据的稀疏,
45、导致在子空间中也是稀疏的不足,因此识别结果不是准确的;不足,因此识别结果不是准确的;不足,因此识别结果不是准确的;不足,因此识别结果不是准确的;不能确保能发现稀疏度系数最小的子空间,进而发现不能确保能发现稀疏度系数最小的子空间,进而发现不能确保能发现稀疏度系数最小的子空间,进而发现不能确保能发现稀疏度系数最小的子空间,进而发现的离群数据也不够准确,该文献中的实验也验证了这一点;的离群数据也不够准确,该文献中的实验也验证了这一点;的离群数据也不够准确,该文献中的实验也验证了这一点;的离群数据也不够准确,该文献中的实验也验证了这一点;不能确保发现所有满足条件的离群数据,识别结果的不能确保发现所有满
46、足条件的离群数据,识别结果的不能确保发现所有满足条件的离群数据,识别结果的不能确保发现所有满足条件的离群数据,识别结果的完备性得不到保证。完备性得不到保证。完备性得不到保证。完备性得不到保证。Evaluation only.Created with Aspose.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.概念格概念格概念格概念格,由由由由Wille R Wille R 提出提出提出提出,是一种支持数据分析和知识是一种支持数据分析和知识是一种支持数据分析和知识是一种支持数据分析和知识发
47、现的一种有效工具。发现的一种有效工具。发现的一种有效工具。发现的一种有效工具。每个节点是一个形式概念每个节点是一个形式概念每个节点是一个形式概念每个节点是一个形式概念,由由由由外延外延外延外延和和和和内涵内涵内涵内涵两部分组成。两部分组成。两部分组成。两部分组成。通过通过通过通过Hasse Hasse 图生动和简洁地体现了这些概念之间的图生动和简洁地体现了这些概念之间的图生动和简洁地体现了这些概念之间的图生动和简洁地体现了这些概念之间的泛化泛化泛化泛化和和和和特化特化特化特化关系。关系。关系。关系。具有知识表示的具有知识表示的具有知识表示的具有知识表示的完备性完备性完备性完备性、直观性直观性直
48、观性直观性和和和和简洁性简洁性简洁性简洁性等特点。等特点。等特点。等特点。将概念格中每个概念内涵看作子空间,内涵看作子空将概念格中每个概念内涵看作子空间,内涵看作子空将概念格中每个概念内涵看作子空间,内涵看作子空将概念格中每个概念内涵看作子空间,内涵看作子空间所包含的对象,从而用概念格结点,描述子空间中的离间所包含的对象,从而用概念格结点,描述子空间中的离间所包含的对象,从而用概念格结点,描述子空间中的离间所包含的对象,从而用概念格结点,描述子空间中的离群数据,是可行的。群数据,是可行的。群数据,是可行的。群数据,是可行的。Evaluation only.Created with Aspose
49、.Slides for.NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.基于概念格的低维子空间离群数据基于概念格的低维子空间离群数据基于概念格的低维子空间离群数据基于概念格的低维子空间离群数据 在稀疏子空间中,稀疏度系数仅反映了子空间中包含在稀疏子空间中,稀疏度系数仅反映了子空间中包含在稀疏子空间中,稀疏度系数仅反映了子空间中包含在稀疏子空间中,稀疏度系数仅反映了子空间中包含的数据对象个数远小于期望值,但数据对象个数远小于期的数据对象个数远小于期望值,但数据对象个数远小于期的数据对象个数远小于期望值,但数据对象
50、个数远小于期的数据对象个数远小于期望值,但数据对象个数远小于期望值,可能是数据对象在更低维子空间上的过度稀疏造成望值,可能是数据对象在更低维子空间上的过度稀疏造成望值,可能是数据对象在更低维子空间上的过度稀疏造成望值,可能是数据对象在更低维子空间上的过度稀疏造成的,稀疏度系数并不能正确反映稀疏子空间上的数据偏离的,稀疏度系数并不能正确反映稀疏子空间上的数据偏离的,稀疏度系数并不能正确反映稀疏子空间上的数据偏离的,稀疏度系数并不能正确反映稀疏子空间上的数据偏离程度。因此仅采用程度。因此仅采用程度。因此仅采用程度。因此仅采用S(D)S(D)来判断稀疏子空间的方法,不能来判断稀疏子空间的方法,不能来