《地质数据处理_15-云模型专题.ppt》由会员分享,可在线阅读,更多相关《地质数据处理_15-云模型专题.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1,云 模 型 方 法,洪金益中南大学地学院,空间数据挖掘专题,2,主要参考文献,王树良:基于数据场与云模型的空间数据挖掘和知识发现,博士论文;邸凯昌 空间数据发掘和知识发现的理论与方法,博士论文;李德仁、王树良、李德毅:空间数据挖掘理论与方法,科学出版社,2006.,3,主要内容,0 应用实例1 云的定义和特性 2 云模型的类型 3 云发生器 4 虚拟云 5 云变换 6 基于云模型的不确定推理,4,应用实例,一组(4*100*3)数据:x1(1,:)=5.1,4.9,4.7,4.6,5.0,5.4,4.6,5.0,4.4,4.9,5.4,4.8,4.8,4.3,5.8,5.7,5.4,5;
2、x1(2,:)=3.5,3.0,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,3.7,3.4,3.0,3.0,4.0,4.4,3.9,3; x1(3,:)=1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,1.5,1.6,1.4,1.1,1.2,1.5,1.3,1; x1(4,:)=0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,0.2,0.2,0.1,0.1,0.2,0.4,0.4,0; x2(1,:)=7.0,6.4,6.9,5.5,6.5,5.7,6.3,4.9,6.6,5.2,5.0,5.9,6.0,6.1
3、,5.6,6.7,5.6,5; x2(2,:)=3.2,3.2,3.1,2.3,2.8,2.8,2.3,2.4,2.9,2.7,2.0,3.0,2.2,2.9,2.9,3.1,3.0,2; x2(3,:)=4.7,4.5,4.9,4.0,4.6,4.5,4.7,3.3,4.6,3.9,3.5,4.2,4.0,4.7,3.6,4.4,4.5,4; x2(4,:)=1.4,1.5,1.5,1.3,1.5,1.3,1.6,1.0,1.3,1.4,1.0,1.5,1.0,1.4,1.3,1.4,1.5,1; x3(1,:)=6.3,5.8,7.1,6.3,6.5,7.6,4.9,7.3,6.7,7.2
4、,6.5,6.4,6.8,5.7,5.8,6.4,6.5,7; x3(2,:)=3.3,2.7,3.0,2.9,3.0,3.0,2.5,2.9,2.5,3.6,3.2,2.7,3.0,2.5,2.8,3.2,3.0,3; x3(3,:)=6.0,5.1,5.9,5.6,5.8,6.6,4.5,6.3,5.8,6.1,5.1,5.3,5.5,5.0,5.1,5.3,5.5,5; x3(4,:)=2.5,1.9,2.1,1.8,2.2,2.1,1.7,1.8,1.8,2.5,2.0,1.9,2.1,2.0,2.4,2.3,1.8,1;,5,Matlab部分云模型程序,逆向云子程序:function
5、 b_Ex,b_En,b_He=back_cloud(x) b_Ex=mean(x); b_En=mean(abs(x-b_Ex)*sqrt(pi/2); b_He=sqrt(var(x)-b_En2);,6,经过Matlab处理,7,得到的部分结果,8,9,10,11,12,1 云的定义和特性,云是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型。它主要反映客观世界中事物或人类知识中概念的两种不确定性:模糊性(边界的亦此亦彼性)和随机性(发生的概率),并把二者完全集成在一起,构成定性和定量相互间的映射。因为在数域空间中,云既不是一个确定的概率密度函数,也不是一条明晰的隶属曲线,而
6、是一朵可伸缩、无边沿、有弹性、近视无边、远观像云的一对多的数学映射图象,与自然现象中的云有着相似的不确定性质,所以借用“云”来命名这个数据概念之间的数学转换理论。,13,云的基本定义,T是U空间上的定性概念,若元素x(xX)对T的隶属的确定度CT(x)0,1是一有稳定倾向的随机数(式F1.1),则概念T从论域U到区间0,1的映射在数域空间的分布,称为云(Cloud)。,设U是一个用精确数值表示的定量论域,,14,这个定义还可以推广到N维云。即若U是N维论域,XU,则N维元素x=(x1,x2,xn) (xX)对T的隶属的确定度CT(x)0,1也是一有稳定倾向的随机数(式F1.1)。由此,如果在给
7、定论域的数域空间中,x为(xl,x2,xn),那么一个云滴的严格表达,应为一个由自变量的论域空间坐标及其对概念的确定度的数值对,即:,15,从云的基本定义中可以看出,论域U上的概念T从论域U到区间0,1的映射是一对多的关系。即论域中某一元素与它对概念T的隶属度之间的映射是一对多的转换,而不是传统的模糊隶属函数中的一对一关系。表达概念T的云由许许多多的云滴组成,每个云滴均是这个定性概念映射到数域空间的一个点,即定性概念的语言值在数量上的一次具体样例实现。这种实现带有不确定性,模型同时给出这个点能够代表该定性概念的确定程度。每个云滴都是随机产生的,而且每个云滴代表该定性概念的确定程度也是模糊的,始
8、终在细微变化着。,16,这种一个定量数值属于一个定性概念语言的不确定变化,在每个云滴表现出来时,也许不会剧烈影响到云的整体特征。即某一个特定的云滴可能无足轻重。但是,一定数量的云滴的整体分布特性就体现了云映射的模糊性和随机性,也就是说,云的整体形状反映了在用定量数值表示定性概念时的不确定特性。例如,“滑坡体向南位移20毫米左右”就是一个空间概念,而“滑坡体向南位移20毫米”就是一个空间数据,是该定性概念在论域中的一次具体定量实现,经过云映射,这个云滴代表该定性概念的确定程度是1。可是,这种实现也可能是“滑坡体向南位移19毫米”等数据,代表该定性概念的确定程度也可能是0.9等。所有的这些实现积累
9、到一定数量,经过云映射,在论域空间中就形成一朵云,表达“滑坡体向南位移20毫米左右”这个概念。,17,因此,云把模糊性和随机性有效地完全集成在一起,研究自然语言中的最基本的语言值所蕴含的不确定性的普遍规律,使得有可能从语言值表达的定性信息中获得定量数据的范围和分布规律。也有可能把精确数值有效转换为恰当的定性语言值。,18,云的数字特征,云的数字特征反映了定性概念的定量特性,用期望Ex(Expected value)、熵En(Entropy)和超熵He(Hyperentropy)三个数值来表征(图F1.1)。云的数字特征是描述云模型、产生虚拟云、实现云计算、完成云变换的数值基础,也是利用云技术从
10、含有不确定性的空间数据库或空间数据仓库中发现空间知识的基础。,19,1期望Ex:是在数域空间中最能够代表定性概念的点值,反映了这个概念的云滴群的云重心。2熵En:原是统计热力学的概念,度量物理系统的无组织程度,即序的不确定性的表现强弱。在云模型中,熵被用来综合度量定性概念的模糊度和概率,揭示了模糊性和随机性的关联性。熵具有双重作用,体现了定性概念的亦此亦彼性的裕度和出现多寡。它一方面直接地反映了在数域空间中可被概念接受的元素范围,即模糊度,是定性概念亦此亦彼性的度量;另一方面还反映了在数域空间中的点能够代表这个概念的概率,表示定性概念的云滴出现的随机性。3超熵He:是熵的不确定度量,即熵的熵反
11、映了在数域空间代表该语言值的所有点的不确定度的凝聚性,即云滴的凝聚度。超熵的大小间接地表示了云的离散程度和厚度。,20,云的数字特征的独特之处在于仅仅用三个数值就可以勾画出由成千上万的云滴构成的整个云来,把定性表示的语言值中的模糊性和随机性完全集成到一起。能够极大地节省存储资源和计算资源。,21,上图显示了具有不同数字特征的云模型,其中图1和图 2的期望不同,1 和3的熵不同,1和4的超熵不同。而且,与研究不确定性的和数学工具相比,一朵云在计算机中存储的只是三个数字特征,能够极大地节省存储资源和计算资源。,22,云的3En规则,在论域U内,X中的任一小区间上的元素x对定性概念T的贡献C为:,显
12、然,论域上所有元素对概念T的总贡献C为:,所以对于论域X中的定性概念T有贡献的定量值,主要落在区间Ex3En,Ex+3En。因此,可以忽略Ex-3En,Ex+3En区间之外的定量值对定性概念T的贡献。,23,例如,正态云的数学期望曲线(Mathematical expected curve)由期望和熵便可确定:,不难看出,对于某一定性概念或知识,其相应的云对象中位于Ex3En。Ex+3En之外的云滴元素是小概率事件,一般均可忽略(图F1.1)。而且,在实际运用中,常常可以找到类似x的元素并得到;En=(x一E)/3,从而节省计算量。,24,云的可视化,可视化将抽象的云模型利用一定的技术和设备表
13、示为人的眼睛可以直接感知的图形、图像或影像等,是云模型应用于空间数据挖掘和知识发现的重要内容。 云图有三种可视化方法,25,下图是由10000个云滴生成的“靠近坐标原点”概念的云。1带有灰度的点:给出云滴在数域空间(一维、二维或多维)的位置,用一个点表示一个云滴,并用该点的灰度表示出这个云滴能够代表概念的确定度。任何一个云滴都可以在一定程度上代表这个概念。2带有尺度的圈或球:用数域里的一个圈或球表示一个云滴,其心反映云滴在数域的位置,且圈或球的大小表示出这个云滴能够代表概念的确定度。3N+1维:N维空间的点表示云滴在数域的位置,另一维表示这个云滴能够代表概念的确定度。,1带有灰度的点 2带有尺
14、度的圈或球 3N+1维云图的三种可视化方法,26,云的数学外延,从不同角度、用不同的方法认识云,可以得到不同的理解。1随机数集:对于每一元素,其隶属度都是遵循某一分布规律的随机数。云是符合该分布的随机数的集合。并且云的厚度是不均匀的,云的顶端及两端尾部最窄,而腰部最厚。2隶属曲线簇:对于任一模糊子集,都可给出对应的隶属函数,这些隶属函数曲线构成一个曲线簇。每条曲线的超熵是随机的,但整个曲线簇显现出一定的整体规律性,即腰部最发散,而顶部和底部则相对集中。曲线簇可看作云的一个近似,当曲线数目趋向无穷时,即形成云。3截集:沿用模糊集中的截集概念。截集的宽度反映了模糊集的水平截集所覆盖的论域中的元素集
15、合的大小。对于云而言,其截集的宽度不固定。具有随机性,宽度的随机变化体现了超熵符合某一随机分布规律。,1随机数集 2隶属曲线簇 3 截集,27,由此可见,云克服了常用定性定量转换中的、和人类的认知过程相悖的夹心饼干式的强硬规定性和确定性的弊端,且在数域空间中灵活伸缩。同时,云模型兼顾了现实世界的随机性和模糊性,拥有自己的理论基础,是一个十分严格的数学方法。它不是“随机+模糊”,也不是“模糊+随机”,更不是“二次模糊”,而是把定性概念的模糊性和随机性有机地结合在一起,实现了定性语言值与定量数值之间的自然转换。可以用云来解释概率论(只有随机性)和模糊集合(只有模糊性)等数学理论。,28,2 云模型
16、的类型,云模型(Cloud model)是定性定量转换的基本模型,既是用语言值表示的定性概念与其定量表示之间的不确定转换模型,也是各种云技术的核心。它的最小单位是基云,对应于自然语言中最基本的语言值语言原子,或思维的基本单位原子概念。云模型把模糊性和随机性完全集成在一起,可以研究自然语言中的语言原子所蕴含的不确定性的普遍规律,使得有可能从语言值表达的定性信息中获得定量数据的范围和分布规律,也有可能把精确数值转换为恰当的定性语言值。,29,正态云模型,正态云模型是基本的云模型,是表征语言原子的有力工具之一。正态分布具有普适性,大量社会和自然科学中定性知识的云的期望曲线都近似服从正态或半正态分布。
17、在论域空间中正态云模型的某一点的隶属度分布符合统计学意义上的正态分布规律,以云的稳定倾向云期望曲线上的点为期望值。由期望和熵便可确定具有正态分布形式的云期望曲线方程:,30,正态云模型包括完整云、左半云和右半云。完整云表示具有完备特征的定性概念,而半云模型则主要表示具有单侧特征的定性概念,例如完整云表示“距离”,右半云表示“很小”左半云表示“很大”,如图。,1正态云及其左、右半升云和左、右半降云,31,衍生云模型,衍生云模型是在正态云模型的基础上,增加某个或某些参数,根据不同用途生成的不同形态的云模型。首先,尽管正态云模型具有广泛的适用性,但是由于自然语言和现实空间世界具有多样性,它并不能满足
18、所有的情况。例如,许多概念的云是不对称的,且其云中心不是一个单一的值。而是包含论域中的部分元素。为此,有必要生成实现云、三角形云、梯形云等多种衍生云模型。,32,2 云及其左、右半升云和左、右半降云,3正态梯形云和三角梯形云,4三角云、频谱云和N维云(N=2),33,3 云发生器,云发生器(Cloud generator,简称CG)指被软件模块化或硬件固化了的云模型的生成算法。云发生器建立起定性和定量之间相互联系、相互依存、性中有量、量中有性的映射关系,主要包括正向云发生器、逆向云发生器、X条件云发生器和Y条件云发生器。云发生器是构造不确定性推理的基础,由多个云发生器按照一定的规律有机地集成一
19、起构成的云的不确定性推理器,是基于云模型的SDMKD的基本工具。因正态云模型是基本云模型,故主要以正态云模型为例研究云发生器:,34,云发生器,35,正向云发生器,正向云发生器(Forward cloud generator)是用语言值描述的某个基本概念与其数值表示之间的不确定性转换模型,是从定性到定量的映射。它根据云的数字特征产生云滴,积累到一定数量汇聚为云(图)。正向云发生器实现了从语言值表达的定性信息中获得定量数据的范围和分布规律,是一个前向的、直接的过程,其输入为表示定性概念的期望值Ex、熵En和超熵He,云滴数量N。输出是N个云滴在数域空间的定量位置及每个云滴代表该概念的确定度。,3
20、6,正向云发生器的具体算法为:,其中,NORM(Ex,En)为生成以Ex为期望值,Eni为方差的正态随机数的函数。给定正态云的三个数字特征值(Ex,En,He),上述算法可以生成任意个云滴组成的正态云模型。,37,逆向云发生器,逆向云发生器(Backward cloud generator)是实现数值和其语言值之间的不确定性转换模型,是从定量到定性的映射。它将一定数量的精确数据有效转换为以恰当的定性语言值Ex,En,He表示的概念,并据此代表这些精确数据所反映的云滴的整体(图F1.52)。云滴对应的精确数据的数量越多,反映的概念越确切。通过正向云发生器和逆向云发生器。云模型就建立起了定性和定量
21、之间相互联系、相互依存,性中有量、量中有性的映射关系。逆向云发生器的传统算法是基于数理统计的样本均值和样本方差的均值算法,简称均值法。,38,基于均值法的逆向云发生器的输入是N个云滴在数域空间的精确位置和每个云滴代表该概念的确定度,输出是这N个云滴表示的定性概念的期望值Ex、熵En和超熵He。,其中,MEAN()和STDEV()分别为求样本均值和样本方差的函数。,39,基于拟合的逆向云发生器算法(简称拟合法)的输入为云滴在数域空间的定量位置及每个云滴代表该概念的确定度,输出是某定性概念的三个数字特征和给定的云滴数量,具体形式描述如下:,输入;每个云滴在数域空间的坐标值xi及其代表概念的确定度C
22、T(xi);输出:概念的Ex、En和He,云滴数N;,40,多维云的拟合算法,可以通过逐次降维,根据一维云算法来实现。下面以二维云向一维云转化的算法过程为例:,41,x条件云发生器和y条件云发生器,在给定论域的数域空间中,当已知云的三个数字特征(Ex,En,He)后,如果还有特定的x=x0条件,那么正向云发生器称为x条件云发生器(图F1.53);如果特定的条件不是x=x0,而是CT(x)=CT(x0),那么正向云发生器叫做Y条件云发生器或隶属度条件云发生器(图F1.54)。由于空间坐标系的纵轴一般称为Y轴,而隶属度CT(x0)又常常用纵轴表示,因此隶属度条件云发生器更多地被称作Y条件云发生器。
23、X条件云发生器和Y条件云发生器是利用云模型进行不确定性推理的基础,如将X条件云和Y条件云相连接,就构成了一个单条件规则发生器。,42,X条件云发生器和Y条件云发生器的输出结果都是云带,X条件云发生器为一条,Y条件云发生器为以云的数学期望为对称中心的对称两条。云带的云滴密集度具有离心衰减的特点,即云带中心对概念的隶属确定度大,云滴密集,越偏离云带中心对概念的确定度越小,云滴越稀疏。,43,X条件云发生器产生的云滴Drop(x0,CT(xi)都呈概率分布在直线x=x0上,是规则前事件表示的基础。其中,CT(xi)是N个隶属度数值的集合,而不是一个数值。下图1显示了云模型在给定的输入值x0条件下,其
24、x条件云发生器的输出结果。X条件云发生器的具体算法为:,44,Y条件云发生器产生的云滴Drop(xi,CT(xo)都呈概率分布在直线CT(x)=CT(x0)上,分别处于期望值Ex的两侧,被期望值Ex分为左右对称的两部分。Y条件云发生器是规则后件表示的基础。下图2显示了云模型在给定的输入值CT(x)=CT(x0)条件下,其Y条件云发生器的输出结果。Y条件云发生器的具体算法为:,45,图F1.6条件云发生器的输出结果,46,云的不确定性推理器,云的不确定性推理器是基于空间不确定性,从空间数据库或空间数据仓库中挖掘知识,实现不确定推理和充分顾及不确定性的智能决策的理论基础。各种云模型可用于表达各种语
25、言值和概念。可是,在数据挖掘中更重要的是知识的表达,知识不单单是概念,而是多个概念的因果逻辑关系,常用规则来表示。知识的应用过程实质上是一个推理过程,这个过程既可能是确定的,也可能是不确定的,既可能是一对一的,也可能是多对一,甚至是多对多的。因此,基于云模型的不确定性推理器就主要有单条件单规则、单条件多规则、多条件单规则和多条件多规则等四种。,47,云的单条件单规则不确定性推理器,48,云的单条件多规则不确定性推理器,49,云的多条件单规则不确定性推理器,50,云的多条件多规则不确定性推理,51,需要说明的是,虽然通过云的软计算可以将相邻的两个基本概念提升为能概括它们的较高层次的新概念,但是云
26、的软运算的实质为一种概念运算,具有不确定性。在多条件单规则(图F1.10)和多条件多规则(图F1.11)的云不确定性推理器中,云的逻辑运算软“AND”或软“OR”,也就是云模型对软“AND”或软“OR”的概念计算,当基云T1和基云T2对概念软“OR”的确定度为其数学期望时,计算方法就蜕变为经典的硬计算,而当确定度的熵和超熵增大时,计算方法的软成分则随之增大。这里仅给出软“OR”的一种计算方法。,52,设在论域U上存在两个相邻的基本云模型,T1(Exl,Enl,Hel)和T2(Ex2,En2,He2)。如果ExlEx2,且T1和T2的软“AND”不为空,那么T1与T2进行软“OR”得到的新云模型
27、T3(Ex3,En3,He3)为图F1.12。如果软“OR”的前提条件得不到满足,那么就必须使用原来的T1和T2共同表示它们的软“OR”结果“T1T2”。,云T1和云T2的软“OR”结果“T1T2”,53,4 虚拟云,虚拟云(Viaual cloud)是按照某种应用目标,对各个基云的数字特征进行计算,将得到的结果作为新的数字特征所构造的云。根据云模型,语言变量由论域上的原子概念组成,表示原子概念的为基云。例如,语言变量T可由原原子概念定义为:TT1(Exl,Enl,Hel),T2(Ex2,En2,He2),Tn(Exn,Enn,Hen),这就是对空间数据软划分的实现。语言原子分布于整个论域空间
28、中,表示某个空间概念的基云在整个论域空间中自由浮动,映射了论域空间中存在的任意语言原子。虚拟云主要分为浮动云、综合云、分解云和几何云。此外,根据云的代数运算、逻辑运算或语气运算结果得到的新云,也可以看作虚拟云的一种。基于云模型的各种虚拟云技术是表示和处理连续型数据与定性知识的有效工具。,54,浮动云和综合云,浮动云(Floating cloud)是在已知两朵云的数字特征的前提下,根据线性缺省假设生成的一朵给定期望值的新云。浮动云的期望值是用户根据具体要求事先指定的,具有一定的灵活性,熵和超熵可由两朵己知云的数字特征计算求得。,55,假设在论域空间中存在两朵基云T1(Exl,Enl,Hel)和T
29、2(Ex2,En2,He2),且Ex1Ex2,则位于论域中(Ex1,Ex2)区间内任意位置Ex=的浮动云的数字特征可以定义为两朵基云的数字特征的距离加权和,如式(F1.2)。从定义公式可以看出,浮动云越靠近T1,受T1的影响越大。受T2的影响越小,反之亦然。图F1.13为利用式(F1.2)生成的浮动云的示意图。浮动云在论域空间中主要解决概念或规则的稀疏问题。利用浮动云,可以在未被给定语言值覆盖的空白区域自动生成虚拟语言值,用于知识表达和归纳;在未被给定规则覆盖的区域生成虚拟规则,进行缺省推理。,56,浮动云示意图(左为一维浮动云,右为二维浮动云),57,综合云(Synthesized clou
30、d)用于将两朵或多朵相同类型的子云进行综合,生成一朵新的高层概念的父云。其本质为提升概念,将两个或两个以上的同类型语言值综合为一个更广义的概念语言值。一般地,综合云的熵大于基云的熵,覆盖了论域空间的更大范围。综合云对应的语言变量表示更一般性的概念,适用于概念数的概念层次爬升(图)。在实际应用中两朵基云不能相距太远,否则就失去了综合的意义。,58,作为父云的综合云,其数字特征可以根据所有子云的数字特征计算求得。假设在论域中存在n个同类型的基云T1(Exl,Enl,Hel),T2(Ex2,En2,He2),Tn(Exn,Enn,Hen),则由T1,T2,Tn可以生成一个同类型的综合云T,T覆盖了T
31、1,T2,Tn所覆盖的所有范围。这里以n=2为例具体讨论。设ExlEx2、Enl和En2、CT1(x)和CT2(x)、CT1(x)和CT2(x)分别是T1和T2的截断熵、数学期望曲线、数学期望曲线的不重叠部分.则由T1、T2构造的综合云T的数字特征(Ex,En,He)定义为式(F1.3)。图F1.14为利用式(F1.3)生成的综合云的示意图。,59,60,综合云示意图(左为一维综合云,右为二维综合云),61,分解云和几何云,分解云(Resolved cloud)是把一个基云分解形成若干个子云(Subcloud)。在语言原子分布的数域空间中,高层次概念可被分解为若干个低层次概念,构成概念树。概念
32、树的各层次都对应若干个语言变量,每个语言变量对应一个云对象。例如,“距离不远不近”就可分解为“距离不远”和“距离不近”两个概念。分解云适用于概念树层次间的概念细化操作。 几何云(Geometric cloud)根据云模型的已知局部特性,采用几何数学拟合法生成一个完整的新云涵盖之。它和逆向云发生器的区别在于,几何云只是根据局部特性生成虚拟云,对云滴的数目、分布和精度要求都不高;而逆向云发生器是由某参数未知的云模型的云滴来估计其数字特征,需要较多的、精度较高的云滴。,62,5 云变换,云变换(Cloud transform)根据某种规律把任意一个不规则的空间数据分布进行数学变换,生成原子概念的云模
33、型集,使之成为若干个大小不同的云的叠加,每个云代表一个离散的、定性的概念。叠加的云的个数越多,变换误差越小。云变换在一定的误差范围内将任意函数分解为基云的叠加,在于从数据分布中提取定性概念的描述,实现对连续数据的软划分。,其中,g(x)为数据的分布函数,fi(x)为云模型的期望函数,ci为权重系数,n为叠加的云的个数,为误差域值。,63,云变换的实质是采用云模型来拟合空间数据分布的概率密度函数,即计算系列原子概念的云模型的数字特征值。从SDMKD的角度看,云变换就是从某一论域的实际空间数据分布中恢复其概念描述的过程,是从定量描述到定性描述的转换,也是一个概念归纳学习的最优化过程,其解并不唯一。
34、云变换从空间数据分布的概率密度函数构造原子概念集的基本思想是两个启发性原理:1论域中的元索对定性概念的隶属程度是一具有随机性的统计属性;2高频率元素对定性概念的贡献大于低频率元素对定性概念的贡献。 因此。可以采用启发式算法实现云变换,峰值法云变换即为其中方法之一。,64,峰值法云变换,峰值法云变换认为空间数据分布的局部峰值处是数据的汇聚中心,根据启发性原理2,把它作为概念的中心即云模型的数学期望是合理的。峰值越高,数据汇聚越多,应当优先考虑其反映的定性概念。具体算法如下:,65,其中,函数CLOUD_EXP(Ex,En)通过计算云模型的期望曲线来拟合h(x)。误差阈值用于控制熵的构造和迭代拟合
35、次数,通常由用户指定或根据经验给定。越小,拟合云模型越多,拟合精度越高。算法得到的原子云模型集CLOUDS除了云模型的三个数字特征外,还包含了云模型的种类typei(0:全云,-1:左半云,1:右半云)以及原子云模型的权重wi(h(Exi),即TT1(Exl,En1,Hel,type1,w1),T2(Ex2,En2,He2,type2,w2),Tn(Exn,Enn,Hen,typen,wn),66,下图分别显示了误差阈值=0.100和=0.001时峰值法云变换法对基本的方波函数(区间均匀分布)的测试结果,其中,原函数为算法中的数据分布概率密度函数f(x)。拟合函数是云变换的最终拟合结果,残差指
36、算法中的h(x),即定义中的。从图中可以看出,当误差阈值=0.100时,拟合的云模型个数为4,当=0.001,云模型个数激增到242个,最大误差也由0.032降至9.471e4。这表明峰值法云变换算法能够对各种概率密度分布函数进行云变换生成原子概念集,随着误差阈值的减小,拟合精度提高,但拟合云模型的个数和耗费的时间也成倍增长。 在实际应用中,并不是越小越好,根据具体情况选择合适的误差阈值即可。由于方波函数是其它函数的基础,任意函数都可近似分解成为多个方波函数,因此峰值法云变换算法具有广泛的适用性。,67,云变换(=0.100),云变换(=0.001),68,原子云模型集的归整,尽管通过云变换能
37、够较好地拟合原始数据分布,但由于没有考虑云模型之间的关系,得到的云模型集较为粗糙。通常会出现下列两种特殊情况:1 云模型之间的交叠关系过于复杂,有些云模型之间的距离过近,所表达的定性概念非常近似;2 云模型之间过于稀疏,甚至出现概念“真空地带”。 所以,对原子云模型集进一步做归整处理是不可缺少的。归整操作包含两部分内容,分别解决上述两个问题:其一是通过加权软或合并距离过近的原子云模型;其二是生成加权浮动云弥补概念“真空地带”。由此,可以得到基于云模型的泛概念树叶结点集的自动生成算法。,69,值得注意的是,通过归整后得到的原子云模型集已不能完全精确地表示原始数据分布。然而,云变换要求原子概念集能
38、够反映数据的分布,而不可能绝对地表示其分布。而且,重要的不是论域上某一点对某一原子概念的隶属程度,而是它对集合中各原子概念的隶属程度之间的关系,是根据数据分布得到的整个原子概念集对整个论域空间的软划分。因此,归整后的原子云模型集合乎人的思维情理,可以被接受和应用。对连续数据,首先求得各数据点的频数,然后对其分布进行云变换使之成为多个大小不同的云的叠加,就可以把数据转换为概念。,70,6 基于云模型的不确定推理,基于云模型的不确定推理是根据一定的已知条件,利用云的不确定性推理器,在一定的环境中推导得到目标规则的过程。规则一般由规则前件(条件)和规则后件(规则知识)两部分组成,根据规则前件或规则后
39、件的数量的不同,基于云模型的不确定推理可以分为单规则推理和多规则推理两类。在空间数据挖掘和知识发现中,就是顾及空间实体的不确定性,在空间数据库或空间数据仓库中利用云的不确定性推理器挖掘事先未知的感兴趣空间规则知识。,71,单规则推理,单规则推理使用的是云的单条件单规则(图F1.8)和多条件单规则(图F1.10)的不确定性推理器。单规则可形式化地表示为:“IF A,THEN B”或“IF Al,A2,An ,THEN B”。其中A和B为用云模型表示的语言值。例如,“如果土地区位好,则地价高”,“如果水平方向位移很小,垂直方向几乎没有沉降,那么滑坡体稳定”。这些语言值都不能用简单的精确数值予以准确
40、的描述。 单条件单规则推理的算法可以通过把X条件云发生器和Y条件云发生器的算法结合起来生成。由X条件云发生器和Y条件云发生器的特性可知,在利用单条件单规则不确定性推理器作单规则推理时,规则的输出值不是一个单一的数值,而是一个随机分布的云团,其输入输出之间的关系也不再是简单的点对点的函数式关系,而是多对多的不确定性关系,如下图所示。,72,单条件单规则推理图,73,在多条件单规则推理的算法中,构造由多个语言值组成的规则前件的直接方法是采用多维云发生器。可是,若要表示前件所对应的多维论域空间中的所有语言值,则需要太多的多维云。例如,假定规则前件有两个语言变量,每个变量有五个语言值,那么经过组合前件
41、可能有25个语言值,即表示整个论域空间中的语言值需要有25个二维云,复杂度太高,难以实现。因此,当多条件中语言值情况较为复杂时,采用云模型的逻辑运算来实现定性推理。这样,多条件单规则推理的算法相对于单条件单规则推理的算法,只是增加了X条件云发生器的个数,在和Y条件云发生器的算法结合时,也仅仅需要增加几次循环次数和一个逻辑运算,因为在多条件单规则不确定性推理器中,规则前件的多个条件即由多个一维云通过逻辑软“OR”或软“AND”实现(下图)。,74,多条件单规则推理图 (左二规则后件,右三规则后件),75,多条件单规则推理,多规则推理使用的是云的单条件多规则(图F1.9)和多条件多规则(图F1.1
42、1)的不确定性推理器。在实际应用中,更多出现的是多规则推理。单条件多规则推理可形式化表示为:“IF A THEN B1,B2,Bn”。多条件多规则推理较为复杂,其形式化表示为“IF A,THEN Bn”,具体有两种形式:,76,形式一:多个不同的规则前件组各自决定不同的多个不同的规则后件,即:IF All,A12,A1n THEN B1IF A2l,A22,A2n THEN B2 IF Aml,Am2,Amn THEN Bm形式二:多个不同的规则前件组各自决定不同的多个不同的规则后件组,即:IF All,A12,A1n THEN B1,B2,BmIF A2l,A22,A2n THEN B1,B
43、2,Bm IF Aml,Am2,Amn THEN B1,B2,Bm,77,显然,形式二是形式一基于规则后件的空间叠加,无论复杂度和计算难度,形式二都大于形式一。如果再考虑多个规则前件(或规则后件)之间的相关性,那么两种形式的多条件多规则推理的复杂度和计算难度将都可能呈级数增长,并且形式二的增长速度大于形式一。所以,把形式二拆分为形式一计算是必要的,同时还应该消除多条件多规则推理的多个规则前件(或规则后件)之间的相关性,消除算法可以采用空间数据库的第三范式算法。,78,下图所示的就是假设多个规则前件(或规则后件)之间互不相关,彼此独立,多条件多规则的推理是按照形式一实现的云的不确定性推理器。可见
44、,多规则推理中每一条规则的构成同单规则推理中的单规则,多规则推理的算法是多个单规则推理算法的综合,其推理机制的关键点在于如何处理多个规则之间的关系。可以首先使用输入值激活每一条定性规则,然后采用几何云技术综合每一条规则被激活后产生的云团,最后把生成的几何云的期望值作为推理结论输出。,79,多规则推理图(多条件多规则),80,再观察应用实例的原程序,在matlab的editor中观察云模型的应用过程:输入原数据-统计数据参数-逆向发生器-正向发生器-规则推理,81,作业,通读李德仁等的空间数据挖掘理论与应用(王树良的博士论文),写一篇500字左右的读书报告;利用给定的数据,采用合适的方法进行空间数据挖掘实验,写出实验报告。要求:根据K、G、D、U、L五个数据属性,挖掘S的结果。,82,THE END,