《气候统计第三章聚类分析优秀课件.ppt》由会员分享,可在线阅读,更多相关《气候统计第三章聚类分析优秀课件.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、气候统计第三章聚类分析第1页,本讲稿共27页 聚类分析是研究多要素的客观分类方法,聚类分析是研究多要素的客观分类方法,即运用数学方法对不同的样品进行数字分类,即运用数学方法对不同的样品进行数字分类,定量地确定样品之间的亲疏关系,并按照它定量地确定样品之间的亲疏关系,并按照它们之间的相似程度,归组并类,以便客观分们之间的相似程度,归组并类,以便客观分类的一种统计分析方法。它同判别分析同属类的一种统计分析方法。它同判别分析同属分类问题,但前提不相同,所给的样本类型分类问题,但前提不相同,所给的样本类型和类型数都是未知的。气象学中存在许多分和类型数都是未知的。气象学中存在许多分类问题,如气候分类区划
2、、天气过程分类、类问题,如气候分类区划、天气过程分类、环流分类、预报因子的合并归类、相似年的环流分类、预报因子的合并归类、相似年的确定等。确定等。第2页,本讲稿共27页 一、相似性指标统计量一、相似性指标统计量 1样品与分类指标样品与分类指标 对与研究对象有关的对与研究对象有关的m个变量作个变量作n次观测,次观测,得样本矩阵,得样本矩阵,称每行为一个分类指标,每一列为一个样称每行为一个分类指标,每一列为一个样品,对样品进行分类;每个样品包含品,对样品进行分类;每个样品包含m个指个指标,即样品的特征用标,即样品的特征用m个指标来描写,可以个指标来描写,可以是一个测站的是一个测站的m个指标的时间分
3、布,也可以个指标的时间分布,也可以是同一指标的是同一指标的m个测站的时空分布个测站的时空分布。第3页,本讲稿共27页 2距离和相似系数距离和相似系数 进行分类,要将特征相似的样品聚为同一类,首先要进行分类,要将特征相似的样品聚为同一类,首先要定义样品之间亲疏程度的数量指标。定义样品之间亲疏程度的数量指标。A、距离、距离 样品看作样品看作m维空间的点,以某种形式定义点与点之间差维空间的点,以某种形式定义点与点之间差异大小(不完全是地理或几何距离),数学上的距离异大小(不完全是地理或几何距离),数学上的距离可以有不同定义,但要满足可以有不同定义,但要满足4个条件个条件 1)dij=0时,样品时,样
4、品i和和j 恒等(恒等(dii=0)唯一性和单一性唯一性和单一性 2)dij0,非负性非负性 3)dij=dji 对称性对称性 4)dijdik+dkj 三角不等式三角不等式第4页,本讲稿共27页 常用距离常用距离1.1.MinkowskiMinkowski距离距离:绝对距离绝对距离Euclid距离距离 2.Mahalanobis2.Mahalanobis距离距离马氏距离考虑了类型总体的内部结构,更加马氏距离考虑了类型总体的内部结构,更加合理,但计算繁琐。合理,但计算繁琐。第5页,本讲稿共27页 在距离指标中,当样品指标不是同一变量时,各在距离指标中,当样品指标不是同一变量时,各变量对距离的影
5、响与它们的量纲有关,如气温为变量对距离的影响与它们的量纲有关,如气温为101,气压为,气压为103量级,气压变化对距离的影响远大于量级,气压变化对距离的影响远大于气温。克服这一缺点的方法是对各指标标准化气温。克服这一缺点的方法是对各指标标准化 第6页,本讲稿共27页B B 相似系数相似系数 1)将样品将样品i、j看作看作m维空间的向量,常用于要素场的相似。维空间的向量,常用于要素场的相似。包括空间点的相似和时间点的相似度量。包括空间点的相似和时间点的相似度量。第7页,本讲稿共27页二、二、类类与与类类的特征的特征 1 1,类类的定的定义义 由于客由于客观观事物的千差万事物的千差万别别,在不同,
6、在不同问题问题中,中,类类的含的含义义是不尽是不尽相同的,相同的,给类给类下下严严格地定格地定义义是不容易的,有不同的定是不容易的,有不同的定义义。如:。如:定定义义1 1:T T为为一一给给定的定的阈值阈值,如果,如果对对任意的任意的,有,有,则则称称G G为为一个一个类类。定定义义2 2:对阈值对阈值T T,如果,如果对对于每一个于每一个,有,有,则则称称G G为为一个一个类类。定义定义3:对阈值:对阈值T,如果对于每一个,如果对于每一个 ,一定存在一定存在使得使得,则则称称G G为为一个一个类类。第8页,本讲稿共27页2 2类类的距离的距离 由于由于类类的形状是多种多的形状是多种多样样的
7、,所以的,所以类类与与类类之之间间的距离也有多种的距离也有多种计计算方法,算方法,设设中分中分别别有有l l和和m m 个个样样品,它品,它们们之之间间的距离的距离用用D(p,q)表示,常用定义有:表示,常用定义有:1.1.最短距离法:最短距离法:即即为为中最中最邻邻近的两个近的两个样样品的距离品的距离。第9页,本讲稿共27页2 2。最。最长长距离法:距离法:即即为为中最中最远远的两个的两个样样品的距离品的距离。3.3.重心法:重心法:它它为为两个两个类类的重心的重心间间的距离的距离4.4.类类平均平均 法法:它等于它等于中所有任意两个中所有任意两个样样品距离的平均。品距离的平均。第10页,本
8、讲稿共27页3.4 系统聚类法(逐级归并法)系统聚类法(逐级归并法)系统聚类法是聚类分析中使用最多的方法,系统聚类法是聚类分析中使用最多的方法,其其基本思路基本思路是:先将是:先将n个样品各自看成一类,个样品各自看成一类,然后规定样品之间的距离然后规定样品之间的距离(或相似系数)和类或相似系数)和类与类之间的距离,开始,将每个样品各自成与类之间的距离,开始,将每个样品各自成一类,根据距离选择最相似的一对并成一个一类,根据距离选择最相似的一对并成一个新类,计算新类与其他类的距离,再将距离新类,计算新类与其他类的距离,再将距离最近的两类合并,依次下去,直至所有样品最近的两类合并,依次下去,直至所有
9、样品并成一类,或各类之间的距离大于给定阈值并成一类,或各类之间的距离大于给定阈值T为止。为止。第11页,本讲稿共27页包含步骤包含步骤(1)计算计算n个样品两两间的距离个样品两两间的距离dij(2)构造构造n个类,每类只包含一个样品个类,每类只包含一个样品(3)合并距离最近(最相似)的两类为一个新类合并距离最近(最相似)的两类为一个新类(4)定义定义类间距离类间距离,计算新类与当前各类的距离。,计算新类与当前各类的距离。若类的个数等于若类的个数等于1,转到(,转到(5)。否则回到步骤)。否则回到步骤(3)。)。(5)画聚类图画聚类图(6)决定类的个数和类决定类的个数和类第12页,本讲稿共27页
10、 使用不同的类间距离,便得到不同的系统聚使用不同的类间距离,便得到不同的系统聚类法。如最短距离法、最长距离法、重心法类法。如最短距离法、最长距离法、重心法等。等。第13页,本讲稿共27页i i1 12 23 34 45 56 67 78 8x1x12 22 24 44 4-4-4-2-2-3-3-1-1x2x25 53 34 43 33 32 22 2-3-3一、最短距离法一、最短距离法例例 对同量纲指标对同量纲指标x1和和x2进行八次观测得各样品数据如下进行八次观测得各样品数据如下试以最短距离法将其分类。试以最短距离法将其分类。解:解:x1和和x2为同量纲,无需标准化为同量纲,无需标准化采用
11、欧氏距离采用欧氏距离第14页,本讲稿共27页1、计算距离,如、计算距离,如d1,3得距离阵:得距离阵:G1G1G2G2G3G3G4G4G5G5G6G6G7G7G8G8G1G10 0G2G22 20 0G3G32.22.22.22.20 0G4G42.82.82 21 10 0G5G56.36.36 68.18.18 80 0G6G65 54.14.16.36.36.16.12.22.20 0G7G75.85.85.15.17.37.37.17.11.41.41 10 0G8G88.58.56.76.78.68.67.87.86.76.75.15.15.45.40 0D(0)第15页,本讲稿共2
12、7页、计算新类与其他类的距离、计算新类与其他类的距离GkGpGqGr例如例如:第16页,本讲稿共27页2、定义类间距离、定义类间距离在在()中,中,即即G3,G4 和和G6,G7最为相似。最为相似。故将故将G3,G4 并成并成G9G6,G7并为并为G10合并最相似两类合并最相似两类Gr=Gp,Gq第17页,本讲稿共27页删除删除p,q行和列,加上行和列,加上r行和列行和列 得得D(1)G1G1G2G2G5G5G8G8G9G9G1G1G2G22 2G5G56.36.36 6G8G88.58.56.76.76.76.7G9G92.22.22 28 87.87.8G10 G10 5 54.14.11
13、.41.45.15.16.16.14、在、在D(1)中,)中,D5,10=1.4是最小值,是最小值,将将G5和和G10并成并成G11,进一步计算进一步计算D(2)第18页,本讲稿共27页G1G1G2G2G8G8G9G9G1G1G2G22 2G8G88.58.5 6.76.7G9G92.22.22 27.87.8G11G115 54.14.1 5.15.1 6.16.1在(在(2)中,)中,D1,2,D2,9=2是最小元素,是最小元素,将将G1,G2,G9合并为新类合并为新类G12。计算新类与各类的距离:计算新类与各类的距离:G8G8G11G11G8G8G11G115.15.1G12G126.7
14、6.7 4.14.1得得D(3),其中,其中D11,12=4.1为最小元素,为最小元素,合并合并G11,G12 为为G13D(3)D13,8=5.1最后最后G13,G8并成一并成一类类G14第19页,本讲稿共27页第20页,本讲稿共27页5、画聚类图、画聚类图绘制各次聚类结果。绘制各次聚类结果。若选择若选择T=3.0,从图可从图可见,见,1,2,3,4合并合并一类,一类,5,6,7并成并成一类,一类,8自成一类,自成一类,全部样品分成三类为全部样品分成三类为宜。宜。第21页,本讲稿共27页 最长距离法、重心法等其他系统聚类法的最长距离法、重心法等其他系统聚类法的步骤相同,仅在计算类间距离时的定
15、义不同。步骤相同,仅在计算类间距离时的定义不同。最短距离法也可用于变量的分类,分类指标最短距离法也可用于变量的分类,分类指标也可用相似系数,在用相似系数时,要找相也可用相似系数,在用相似系数时,要找相似系数最大的两类合并,似系数最大的两类合并,即总是最相似的两即总是最相似的两类合并。类合并。下面看一实例:下面看一实例:第22页,本讲稿共27页 例例,某地用,某地用4个因子表示气候闷热状况,分别是个因子表示气候闷热状况,分别是 x1:日平均温度日平均温度 x2:14时气温时气温 x3:14时相对湿度时相对湿度 x4:日最低气温日最低气温 试根据下表所列相似系数将因子分类试根据下表所列相似系数将因
16、子分类G1G1G2G2G3G3G2G20.930.93G3G3-0.74-0.74-0.83-0.83G4G40.690.690.50.5-0.38-0.38第23页,本讲稿共27页 解:解:G1和和G2的相似系数最大,的相似系数最大,R1,2=max,表明两者最接,表明两者最接近,先将它们并成近,先将它们并成G5。计算计算G5与与G3,G4的相似系数分别为:的相似系数分别为:第24页,本讲稿共27页G3G3G4G4G4G4-0.38-0.38G5G5-0.74-0.740.690.69R(1)中,)中,R4,5=0.69=max,将,将G4,G5并成并成G6G3与与G6变化趋势相反,并成一类无意义,聚类结束变化趋势相反,并成一类无意义,聚类结束第25页,本讲稿共27页 聚类结果中,聚类结果中,x1,x2,x4表表示温度状态,自然成为一类,示温度状态,自然成为一类,而而x3是空气湿度因子,物理是空气湿度因子,物理上属于另一类。上属于另一类。第26页,本讲稿共27页逐步聚类法逐步聚类法略略 第27页,本讲稿共27页