第六章聚类分析.ppt-淘文阁

资源描述

《第六章聚类分析.ppt》由会员分享，可在线阅读，更多相关《第六章聚类分析.ppt（58页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第六章第六章聚聚类类分分析析1 聚类分析和聚类统计量2 聚合法聚类分析3 分解法聚类分析(最优分割法)4 应用简介1v引言引言地质学中有很多分类研究的问题，如地质学中有很多分类研究的问题，如沉积岩、古沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分生物、矿物、油气藏、油气地球化学勘探指标的分类类等是一些直接分类的例子；油气资源评价、油源等是一些直接分类的例子；油气资源评价、油源对比等研究中也有分类；地层划分属于另一种分类。对比等研究中也有分类；地层划分属于另一种分类。为叙述方便，在此把分类的具体目标统称为为叙述方便，在此把分类的具体目标统称为个体个体(样品或变量样品或变量)。聚

2、类分析聚类分析:根据个体之间的亲疏程度，将它们进根据个体之间的亲疏程度，将它们进行逐级定量分类的一种多元统计分析方法。行逐级定量分类的一种多元统计分析方法。根据分类的不同方式，又把聚类分析分为根据分类的不同方式，又把聚类分析分为聚合法聚合法和和分解法分解法聚类分析。聚类分析。21 聚类分析和聚类统计量聚类分析和聚类统计量一、聚类分析一、聚类分析1 2 5 4 6 7 3 8 9 10 11 13 12 14 0.25 1.00 0.75 0.50 0.95 0.90 0.83 0.82 0.88 0.35 0.07 0.93 1.00 1.00 1.00 1.00 0.91 图图6-1 油气化

3、探指标聚类谱系图油气化探指标聚类谱系图(1，2，14为化探指标编号为化探指标编号)引例引例:化探指标的分类化探指标的分类如某地区油气地表化探如某地区油气地表化探样品具有样品具有14项指标，按照项指标，按照指标指标相关程度相关程度分类分类,结果如结果如图。类内指标具有密切的图。类内指标具有密切的成因联系，据此可以化简成因联系，据此可以化简研究系统研究系统。参照上例，给出聚合法聚类分析的一般概念。参照上例，给出聚合法聚类分析的一般概念。1.聚合法聚类分析聚合法聚类分析3 聚合法聚类分析聚合法聚类分析是按个体在性质或成因上的亲疏是按个体在性质或成因上的亲疏关系，把个体逐级聚集成类的一种多元统计分析

4、方关系，把个体逐级聚集成类的一种多元统计分析方法。又称为法。又称为点群分析点群分析，对对样品样品进行分类进行分类称称Q型聚类分析型聚类分析对对变量变量进行分类进行分类称称R型聚类分析型聚类分析这种聚类分析开始时，每个个体各自为一类，然这种聚类分析开始时，每个个体各自为一类，然后以后以某种表示个体亲疏关系的统计量某种表示个体亲疏关系的统计量为分类依据，为分类依据，把彼此关系相对密切的个体合并为小类，再把关系把彼此关系相对密切的个体合并为小类，再把关系相对密切的小类进一步合并，相对密切的小类进一步合并，最后直到合并成，最后直到合并成一个大类为止。最终得到一个反映各对象间亲疏关一个大类为止。最终

5、得到一个反映各对象间亲疏关系的分类结果系的分类结果聚类分析谱系图，如图聚类分析谱系图，如图6-1。4 例如例如1 1 2 2 3 3是是6个个体，据个体的相似性，个个体，据个体的相似性，把个体分为把个体分为3类类,结果是结果是:1 1、2 2、3 3。这是。这是一种把一种把大类分解成小类大类分解成小类的问题的问题，地层的岩性段划地层的岩性段划分属于这类问题。分属于这类问题。2.分解法聚类分析分解法聚类分析这种聚类方法与聚合法这种聚类方法与聚合法“方向方向”恰好相反，恰好相反，开始开始时全部个体为时全部个体为1大类，依据某种分类指标，把全部大类，依据某种分类指标，把全部个体分为个体分为2类、

6、类、3类、类、,直到满足分类的要求为止。直到满足分类的要求为止。二、聚类分析统计量二、聚类分析统计量衡量个体间衡量个体间性质或成因亲疏性质或成因亲疏(相似、相关相似、相关)程度程度的的统计指标。统计指标。5 1.聚合法聚类统计量聚合法聚类统计量设设有有n个个样样品品，每每个个样样品品有有m个个变变量量，它它们们的的观观测测值值xij(i=1,2,n;j=1,2,m)构构成成一一个个数数据据矩阵，记为：矩阵，记为：v 第第i行是第行是第i个样品个样品m个变量的观测值，可视为个变量的观测值，可视为m 维空间的一个点或一个矢量；维空间的一个点或一个矢量；由由 Xnm可以看出：可以看出：分分类类对

7、对象象几个常用的聚类分析统计量几个常用的聚类分析统计量:6v 样品间样品间的相似性就是的相似性就是矩阵行间矩阵行间的相似性，对样的相似性，对样品聚类就是将矩阵中相似程度高的行合并为类；品聚类就是将矩阵中相似程度高的行合并为类；v变量间变量间的相关性就是的相关性就是矩阵列间矩阵列间的相关性，对变量的相关性，对变量聚类就是将矩阵中相关程度高的列合并为类。聚类就是将矩阵中相关程度高的列合并为类。(1)Q型聚类分析统计量型聚类分析统计量相似系数相似系数设样品观测值设样品观测值:v 第第j 列是第列是第j个变量的个变量的n次观测值，可视为次观测值，可视为n维空间维空间的一个点或一个矢量；的一个点或一个

8、矢量；7(6-1)如此，可形成一个相似系数矩阵如此，可形成一个相似系数矩阵R=rijnn。将将Xi与与Xj看成两个矢量，则看成两个矢量，则Xi与与Xj的相似系数定的相似系数定义为义为两矢量夹角的余弦两矢量夹角的余弦：8 在上述相似系数矩阵中，在上述相似系数矩阵中，rij=rji,rii=1。rij 越接越接近近1，Xi与与Xj的性质越相近。的性质越相近。R描述了各样品间的相描述了各样品间的相似程度。似程度。9(6-2)矢量矢量Xi与与Xj的相关系数为的相关系数为:相关系数相关系数如此可形成一个相关系数矩阵如此可形成一个相关系数矩阵R=rijnn。在相关系数矩阵中：在相关系数矩阵中：rij=r

9、ji,rii=1。rij越接近越接近1，Xi与与Xj的相关程度越大。的相关程度越大。10为避免为避免dij过大造成计算溢出，将上式改为过大造成计算溢出，将上式改为:(6-3)距离系数距离系数在在m 维直角坐标系中，维直角坐标系中，2个点间的距离为：个点间的距离为：即形成距离系数矩阵即形成距离系数矩阵dijnn。dij=dji,dii=0。dij越接近越接近0，Xi与与Xj的性质越相近。的性质越相近。11(2)R型聚类分析统计量型聚类分析统计量仿照仿照Q 型聚类分析统计量，容易写出型聚类分析统计量，容易写出R型聚类分型聚类分析统计量。析统计量。变量间的相关性是数据矩阵变量间的相关性是数据矩阵列

10、列间的相关关系。间的相关关系。分分类类对对象象注意求和限的变化及角标的变化。注意求和限的变化及角标的变化。12(6-4)相似系数相似系数矢量矢量Xi与与Xj的相似系数为的相似系数为:形成相似系数矩阵形成相似系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1，Xi与与Xj的相似程度越大。的相似程度越大。13(6-5)相关系数相关系数矢量矢量Xi与与Xj的相关系数为的相关系数为:形成相关系数矩阵形成相关系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1，Xi与与Xj的相关程度越大。的相关程度越大。14 在在n 维直角坐标系中，维直角坐标

11、系中，2个点间的距离为：个点间的距离为：(6-6)距离系数距离系数形成距离系数矩阵形成距离系数矩阵dijmm。dij=dji,dii=0。dij越越接近接近0，Xi与与Xj的性质越相近。的性质越相近。15 仅介绍分解法中的仅介绍分解法中的最优分割法最优分割法。n个样品个样品m个变量的观测值构成一个数据矩阵个变量的观测值构成一个数据矩阵:分类分类对象对象这里的这里的Xnm是是数据序列数据序列(数据的排列顺序不能改变数据的排列顺序不能改变)。此处分类是指此处分类是指按行把数据序列分割开多个段。按行把数据序列分割开多个段。2.分解法聚类统计量分解法聚类统计量16第第1段段第第2段段第第k段段对

12、对Xnm的最优分割是指把的最优分割是指把Xnm 分段后，各分段后，各段内数段内数据的离差平方和最小据的离差平方和最小(各段内样品的差异最小各段内样品的差异最小)，而，而各各段间数据的离差平方和最大段间数据的离差平方和最大(各段之间样品的差各段之间样品的差异最大异最大)。如果把如果把Xnm分成分成k段段(组组),每段内有每段内有nl(l=1,2,k)个样品，分段结果记为：个样品，分段结果记为：17总离差平方和总离差平方和:(常数常数)把把Xnm分为分为k段有很多种可能的分法。对于其中段有很多种可能的分法。对于其中的任何一种分法，都有：的任何一种分法，都有：段内离差平方和段内离差平方和:(6-7)

13、段间离差平方和段间离差平方和:18为样品的总数；为样品的总数；xlj(i)为第为第l 段内第段内第j个样品第个样品第 i个变量的观测值；个变量的观测值；为第为第i个变量个变量n个观测值的平均值。个观测值的平均值。其中：其中：为第为第l 段内第段内第 i个变量个变量nl 个观测值的平均值；个观测值的平均值；19 对于给定的数据来说，对于给定的数据来说，S是个常数，是个常数，S1最小，最小，S2必然最大。因此可将必然最大。因此可将段内离差平方和段内离差平方和可以证明：可以证明：一一个个地地质质数数据据序序列列分分段段后后满满足足段段内内离离差差平平方方和和最小最小，则称相应的分法为，则称相应的分法

14、为最优分割最优分割。做为做为分解法聚类分析的聚类统计量分解法聚类分析的聚类统计量。20聚聚合合法法分分解解法法相似系数相似系数段内离差平方和段内离差平方和相关系数相关系数段间离差平方和段间离差平方和距离系数距离系数总离差平方和总离差平方和表表6-1 常用聚类分析统计量常用聚类分析统计量212 聚合法聚类分析聚合法聚类分析聚合法聚类是将类由多变少、直到把全部个体聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对合并成一类的聚类方法。它是目前对个体个体进行聚类进行聚类的常用方法。聚类过程大致如下：的常用方法。聚类过程大致如下：(1)原始类，即聚类以前的个体各自成类；

15、原始类，即聚类以前的个体各自成类；(2)第第1级级聚聚类类，以以某某种种统统计计量量计计算算各各个个体体间间的的亲亲疏疏程程度度，把把关关系系密密切切的的对对象象合合并并成成1类类，并并构构造造成成一个一个代表性个体代表性个体，做为新的个体参加下一级聚类；，做为新的个体参加下一级聚类；多个个体组成的小类多个个体组成的小类22(4)按上述方法进行第按上述方法进行第3级聚类、第级聚类、第4级聚类、级聚类、,直到全部个体合并为直到全部个体合并为1类为止。类为止。(3)第第2级聚类，再计算个体间的级聚类，再计算个体间的亲疏程度亲疏程度，把关，把关系密切的个体合并为系密切的个体合并为1类类(可能是个体与

16、个体或个体可能是个体与个体或个体与上一级已聚成的小类合并与上一级已聚成的小类合并)，并又构造一个代表，并又构造一个代表该类的该类的代表性个体代表性个体参加下一级聚类；参加下一级聚类；在上述聚类过程中，需要不断地计算在上述聚类过程中，需要不断地计算个体与个体、个体与个体、个体与类、类与类间个体与类、类与类间的亲疏程度，下面介绍计算它的亲疏程度，下面介绍计算它们之间亲疏程度的递推公式和聚类过程。们之间亲疏程度的递推公式和聚类过程。23 对于对于n维维(样品点样品点)或或m维维(变量点变量点)空间的空间的2个点来个点来说，其距离在概念上是明确的说，其距离在概念上是明确的(点间线段的长度点间线段的长度

17、)。但但2类间的距离类间的距离就有不同的定义，既可定义为就有不同的定义，既可定义为2类中类中相距最近相距最近2点之间的距离，又可定义为点之间的距离，又可定义为2类中相距最类中相距最远远2点之间的距离，还可以取点之间的距离，还可以取2类的重心距离等。类的重心距离等。一、距离类统计量聚合法一、距离类统计量聚合法由于距离的定义不同，因此也就产生了不同的聚由于距离的定义不同，因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。合法。下面介绍四种距离度量下的聚合法。24 1.最短距离法最短距离法 (1)最短距离最短距离如图，定义如图，定义p类和类和q类间类间的最短距离为：的最短距离为：(6-

18、8)dij是是p、q类类中中任任意意2个个样样品品Xi与与Xj之之间间的的距距离离。用最短距离进行的聚合聚类叫做用最短距离进行的聚合聚类叫做最短距离法最短距离法。最短距离最短距离最长距离最长距离图图6-2 类间距离类间距离ABCDp类类q类类聚聚类类过过程程中中不不可可避避免免要要涉涉及及到到合合并并成成的的类类与与另另一个类一个类之间最短距离的计算。之间最短距离的计算。25图图6-3 类类r与类与类f的最短距离的最短距离如如果果p类类和和q类类合合并并为为类类r，计计算算类类r与与另另外外的的类类f之之间间最最短短距距离离时时，直直接接方方法法是是逐逐一一计计算算类类r与与类类f中中所所

19、有有个个体体间间的的距距离离，选最小者即为最短距离。选最小者即为最短距离。(6-9)p类类q类类f类类r类类为为计计算算便便捷捷，可可由由之之前前的的计计算算结结果果进进行行递递推推，递推公式为：递推公式为：26 油源对比包括原油与原油、原油与生油岩的对油源对比包括原油与原油、原油与生油岩的对比，主要是解决油源的问题。设编号为比，主要是解决油源的问题。设编号为、的样品是取自生油层的样品是取自生油层k1、k2、k3的岩样，编号为的岩样，编号为的样品是取自储层的样品是取自储层k0的油样。需解决的问题是的油样。需解决的问题是:k0的的油来自哪个生油层？表油来自哪个生油层？表6-2给出了油源对比常用

20、的给出了油源对比常用的甾烷族化合物相对含量。甾烷族化合物相对含量。表表6-2 甾烷族化合物相对含量甾烷族化合物相对含量分子离子分子离子样品样品372386398400412414生油层岩样生油层岩样(k1)3.7211.205.7815.805.209.11生油层岩样生油层岩样(k2)5.306.125.308.107.127.80生油层岩样生油层岩样(k3)9.6510.209.6113.209.4010.70储集层油样储集层油样(k0)10.7813.107.8115.907.8112.80v以油源对比为例，说明聚类过程以油源对比为例，说明聚类过程27 计算个体计算个体(样品样品)点间的

21、距离矩阵，记为点间的距离矩阵，记为:第一级聚类第一级聚类D(0)中，中，d34=d43=5.2110 在所有距离中最短。在所有距离中最短。准备工作准备工作28 表表明明岩岩样样k3与与油油样样k0的的甾甾烷烷族族化化合合物物相相对对含含量量最最接接近近,应应合合成成1类类,记记为为r,r=,。同同时时按按式式(6-9)计计算类算类r与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵,记为记为D(1)：第二级聚类第二级聚类 r=,在在D(1)中中，d13=d31=8.8183在在所所有有距距离离中中最最短短，表表明明与与r类类最最亲亲近近，应应合合为为1类类，记记为为k,k=,。再再按按式式(

22、6-9)计计算算类类k与与其其它它各各类类(仅仅剩剩下下编编号号为为的样品了的样品了)间的最短距离矩阵，记为间的最短距离矩阵，记为D(2)：29 由由D(2)可可知知，四四个个样样品品以以距距离离D=9.6553聚聚为为一一大大类。按聚类顺序绘制聚类谱系如下：类。按聚类顺序绘制聚类谱系如下：0.0000 5.2110 8.8183 9.6553 根据聚类谱系图根据聚类谱系图,可认为可认为k0储层中的油主要来自储层中的油主要来自k3生油层，但也不能排除混有其他生油层的油。生油层，但也不能排除混有其他生油层的油。第三级聚类第三级聚类30 (2)最短距离法聚类的基本过程最短距离法聚类的基本过程准备

23、工作准备工作计算个体计算个体(样品或变量样品或变量)点间的距离矩阵点间的距离矩阵:第一级聚类第一级聚类在在D(0)中找出距离最短的类合成中找出距离最短的类合成1类，记为类，记为r。按。按式式(6-9)计算类计算类r与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵D(1)；第二级聚类第二级聚类在在D(1)中找出距离最短的类合为中找出距离最短的类合为1类，记为类，记为k。按。按式式(6-9)计算类计算类k与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵D(2)；重复重复上述过程上述过程,直到全部样品聚为一类为止。直到全部样品聚为一类为止。312.最长距离法最长距离法(1)最长距离最长

24、距离定义定义p与与q间的最长距离间的最长距离:(6-10)式中式中dij为为p、q类中类中2个样品个样品Xi与与Xj之间的距离。之间的距离。用最长距离进行的聚合聚类称用最长距离进行的聚合聚类称最长距离法最长距离法。若若p类与类与q类聚为类类聚为类r，新类新类r与另外的类与另外的类f之间的最长距之间的最长距离可由下列递推公式算出。离可由下列递推公式算出。32 定定义义p类类、q类类间间的的平平均均距距离离为为两两类类中中所所有有个个体体间距离的平均值：间距离的平均值：(2)聚类过程聚类过程聚聚类类过过程程与与最最短短距距离离法法聚聚类类相相同同，不不同同处处是是按按式式(6-10)计算下一级

25、聚类的矩阵计算下一级聚类的矩阵(计算最长距离计算最长距离)。3.类平均法类平均法(1)类平均距离类平均距离式中式中np、nq是类是类p、q中个体数。中个体数。dij为类为类p、q中中2个个体个个体Xi与与Xj之间的距离。之间的距离。33 假假设设类类p、q 的的重重心心分分别别是是、,那那么么类类 p、q 间的重心距离为：间的重心距离为：用类平均距离进行的聚合聚类叫做用类平均距离进行的聚合聚类叫做类平均法类平均法。若类若类p、类、类q合并为类合并为类r，计算新类，计算新类r与另外的类与另外的类f之之间类平均距离的递推公式为：间类平均距离的递推公式为：(2)类平均法聚类过程类平均法聚类过程

26、与上述方法相同，不同处是计算类平均距离。与上述方法相同，不同处是计算类平均距离。4.重心法重心法类类p、q合成类合成类r后，类后，类r的重心为：的重心为：34 类类r与另外的类与另外的类f 间重心距离的递推公式为：间重心距离的递推公式为：用重心距离进行的聚合聚类方法叫做用重心距离进行的聚合聚类方法叫做重心法重心法。35 相关类统计量包括相关系数、相似系数。相应的相关类统计量包括相关系数、相似系数。相应的聚合聚类法有近邻联接法、远邻联接法和类平均法，聚合聚类法有近邻联接法、远邻联接法和类平均法，相应的递推公式为：相应的递推公式为：近邻联接近邻联接二、相关类统计量聚合聚类二、相关类统计量聚合聚类

27、远邻联接远邻联接类类平平均均36统计量方法说明相关系数相似系数近邻联接最大相关表示两类的相关远邻联接最小相关表示两类的相关类平均平均相关表示两类的相关距离系数最短距离最短距离表示两类的距离最长距离最长距离表示两类的距离类平均平均距离表示两类的距离重心重心距离表示两类的距离表表6-3 类与类类与类(或个体或个体)之间相近程度计算之间相近程度计算37 三、聚类结果的选择三、聚类结果的选择采用不同的聚类方法，其聚类过程都是相同的采用不同的聚类方法，其聚类过程都是相同的,但结果却但结果却不一定完全相同不一定完全相同。究竟哪种方法分类结果。究竟哪种方法分类结果更好更好?目前尚无合适的

28、衡量标准。在实际应用中目前尚无合适的衡量标准。在实际应用中,要要结合其它地质理论及资料结合其它地质理论及资料,分析不同方法给出的分分析不同方法给出的分类结果类结果,从中确定一种合理的分类方案。从中确定一种合理的分类方案。38图图6-4 云南省某地超基性岩岩样聚类谱系图云南省某地超基性岩岩样聚类谱系图相关系数近相关系数近邻联接法邻联接法相关系数相关系数类平均法类平均法欧氏距离最欧氏距离最短距离法短距离法欧氏距离欧氏距离类平均法类平均法39 最优最优k分割的基本思想分割的基本思想:按照按照段内离差平方和最小段内离差平方和最小的原则，依次找出数据序列的原则，依次找出数据序列X的的k-1个分割点，把个

29、分割点，把X分为分为k段。段。3 分解法聚类分析分解法聚类分析(最优分割法最优分割法)一、最优分割的基本思想一、最优分割的基本思想如前所述，分割是把数据序列分段，最优如前所述，分割是把数据序列分段，最优k分割分割是指数据序列分为是指数据序列分为k段后，段后，段内离差平方和段内离差平方和达到最达到最小。将记数据序列记为：小。将记数据序列记为：402.分割过程分割过程 1.符号约定符号约定记符号记符号Sn(k;j)为把为把Xnm分为分为k段的段的段内离差平方和段内离差平方和，其中其中n是是X中样品数，中样品数，k是分段数，是分段数，j表示第表示第j个样品个样品和第和第j+1个样品之间为分割点个

30、样品之间为分割点(1jn-1)。(1)分分2段段取取k=2,令令j=1,2,n-1,按式按式(6-7)计算计算Sn(2;j),若若那么那么,1是最优是最优2分割的分割点，分割的分割点，X分割为分割为2段；段；二、最优二、最优k段分割的基本过程段分割的基本过程 41 则则2是最优是最优3分割的第分割的第2分割点分割点,X分割为分割为3段；段；(2)分分3段段取取k=3,令令j=1,2,.,n-1,j1，按式按式(6-7)计算计算Sn(3;j),若若 (3)分分k段段取取k=k,令令j=1,2,.,n-1,j1,2,k-2,按式按式(6-7)计算计算Sn(k;j)，若若42 则则k-1是最

31、优是最优k分割的第分割的第k-1个分割点。至此，已个分割点。至此，已将将X分割为分割为k段，分割点依次为段，分割点依次为1、2、k-1。2.69.328.52.79.629.72.59.127.83.88.630.63.28.532.53.68.234.63.78.435.13.58.731.90.612.120.60.512.020.00.712.220.20.212.120.7分割点分割点1(j=8)分割点分割点2(j=3)示例示例将下列将下列3个指标的数据序列分为个指标的数据序列分为3段：段：2.69.328.52.79.629.72.59.127.83.88.630.63.28.53

32、2.53.68.234.63.78.435.13.58.731.90.612.120.60.512.020.50.712.220.20.212.120.7434 应用简介应用简介例例1 油气地表化探指标分类油气地表化探指标分类内蒙古都日木地区地表化探采样点内蒙古都日木地区地表化探采样点1610个个,对每对每个点的土壤样品分析化验了个点的土壤样品分析化验了29项指标项指标,对这对这29项指项指标进行了聚类分析标进行了聚类分析,将将29项指标划分为项指标划分为4个大类个大类(见见图图6-5)。通过聚类分析。通过聚类分析,了解了该地区化探指标之了解了该地区化探指标之间的相关性间的相关性,为化探异常

33、圈定中指标的合理选取提为化探异常圈定中指标的合理选取提供了依据。供了依据。44图图6-5 都日木地区油气化探指标聚类谱系图都日木地区油气化探指标聚类谱系图45 例例2 储层评价参数优选储层评价参数优选大庆朝阳沟油田具有低孔隙度、低渗透率、高含大庆朝阳沟油田具有低孔隙度、低渗透率、高含水饱和度等特点。能够反映该油田低渗透储层的参水饱和度等特点。能够反映该油田低渗透储层的参数有：渗透率、孔隙度、有效厚度、储量丰度、启数有：渗透率、孔隙度、有效厚度、储量丰度、启动压力梯度、可动流体饱和度、平均孔隙半径、流动压力梯度、可动流体饱和度、平均孔隙半径、流度等。对众多参数都进行评价，将造成极大的工作度等。

34、对众多参数都进行评价，将造成极大的工作量。因此考虑用聚类分析方法剔除相似参数，优选量。因此考虑用聚类分析方法剔除相似参数，优选出具有代表性、可比性和实用性的参数。出具有代表性、可比性和实用性的参数。参数选取原则：参数选取原则：(1)必须体现储层最本质的特征；必须体现储层最本质的特征；(2)同一储层内的某参数必须有明显差异；同一储层内的某参数必须有明显差异；46 (3)以研究各单项参数对储层特征的影响程度及以研究各单项参数对储层特征的影响程度及各参数间的相互关系为基础；各参数间的相互关系为基础；(4)参考研究区的具体特点，选择出具有代表性、参考研究区的具体特点，选择出具有代表性、可比性和实用性的

35、参数。可比性和实用性的参数。图图6-6 储层参数聚类谱系图储层参数聚类谱系图(据刘吉余等，据刘吉余等，2009)1 渗透率渗透率2 孔隙度孔隙度3 有效厚度有效厚度4 储量丰度储量丰度5 启动压力梯度启动压力梯度6 可动流体饱和度可动流体饱和度7 平均孔隙半径平均孔隙半径8 流度流度168352471.000.870.740.600.470.3447 由图由图6-6可以看出，启动压力梯度和有效厚度的可以看出，启动压力梯度和有效厚度的相关程度最高，优先被聚为一类，考虑启动压力梯相关程度最高，优先被聚为一类，考虑启动压力梯度较有效厚度更为重要，故可只选启动压力梯度，度较有效厚度更为重要，故可只选启

36、动压力梯度，剔除有效厚度剔除有效厚度。同样，在渗透率和可动流体饱和度。同样，在渗透率和可动流体饱和度两项参数中选取渗透率，剔除两项参数中选取渗透率，剔除可动流体饱和度可动流体饱和度。如此，指标个数从如此，指标个数从8个被简化到了个被简化到了6个。个。48 例例3 含油气盆地的聚类分析含油气盆地的聚类分析基本思想基本思想:将已知含油气远景的一些盆地与待评价的沉将已知含油气远景的一些盆地与待评价的沉积盆地一起进行聚类分析，若待评价的盆地积盆地一起进行聚类分析，若待评价的盆地B与已知含油与已知含油气性的盆地气性的盆地A聚为一类，则可认为聚为一类，则可认为B的含油气性与的含油气性与A最接最接近，依此

37、对盆地进行评价。近，依此对盆地进行评价。评价的地质参数评价的地质参数(共共30项项)：盆地的面积盆地的面积(单位：单位：105平方公里平方公里)地质时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠地质时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1，无为，无为0定量化；定量化；(共共10项项)储层时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠储层时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1，无为，无为0定量化；

38、定量化；(共共10项项)49 储层岩性：砂岩、碳酸盐岩、火成岩、基岩。按有储层岩性：砂岩、碳酸盐岩、火成岩、基岩。按有为为1，无为，无为0定量化；定量化；(共共4项项)盆地类型：内陆、沿海、海湾、海洋。按是为盆地类型：内陆、沿海、海湾、海洋。按是为1，非，非为为0定量化；定量化；(共共4项项)沉积厚度沉积厚度(单位：单位：104米米)表表6-4 48个盆地的个盆地的30项参数统计数据项参数统计数据序号序号面积面积厚厚度度地质时代地质时代(10项项)储层时代储层时代(10项项)储层岩性储层岩性盆地类型盆地类型1234 481.001.104.504.00 0.250.800.400.700.5

39、0 0.751,1,0,0,0,0,0,0,0,00,0,0,0,0,1,1,1,1,10,1,1,1,1,1,1,1,1,11,1,0,0,0,0,0,0,0,0 1,1,0,0,0,0,0,0,0,01,0,0,0,0,0,0,0,0,00,0,0,0,0,1,1,0,0,00,0,0,1,0,0,0,0,1,11,1,0,0,0,0,0,0,0,0 1,0,0,0,0,0,0,0,0,01,0,0,01,0,0,01,0,0,01,1,0,1 1,0,0,00,1,0,01,0,0,00,1,0,00,1,0,0 0,1,0,050图图6-7 含油气盆地聚类谱系图含油气盆地聚类谱系图相关

40、系数近邻联接法相关系数近邻联接法欧氏距离最短距离法欧氏距离最短距离法51 油源对比是根据地质和地球化学特征，确定石油源对比是根据地质和地球化学特征，确定石油和源岩之间成因联系的工作。它包括油和源岩之间成因联系的工作。它包括石油与烃源石油与烃源岩岩之间以及之间以及不同储层中石油之间不同储层中石油之间的对比两个方面。的对比两个方面。烃源岩中的干酪根在一定条件下裂解形成石油和烃源岩中的干酪根在一定条件下裂解形成石油和天然气，其中一部分运移到储集层中，一部分残留天然气，其中一部分运移到储集层中，一部分残留在源岩内。因此，烃源岩中的干酪根、沥青与来自在源岩内。因此，烃源岩中的干酪根、沥青与来自该层系的油

41、气就有着亲缘关系，在化学组成上必然该层系的油气就有着亲缘关系，在化学组成上必然有着某种程度的相似性。同源油气化学组成的相似有着某种程度的相似性。同源油气化学组成的相似程度高，异源油气化学组成的相似程度低。这种相程度高，异源油气化学组成的相似程度低。这种相似性就是我们进行油源对比的基本理论依据。似性就是我们进行油源对比的基本理论依据。油源对比的基础是变量化学组分的相关性油源对比的基础是变量化学组分的相关性。例例4 大王北洼陷甾萜烷油源对比大王北洼陷甾萜烷油源对比 52图图6-8 大王北洼陷甾萜烷油源对比聚类谱系图（任拥军，大王北洼陷甾萜烷油源对比聚类谱系图（任拥军，2006）沙四烃源岩沙四烃源岩

42、沙三烃源岩沙三烃源岩沙一烃源岩沙一烃源岩53 某盆地某盆地g114井有自然伽玛、井有自然伽玛、自然电位等测井资料。在井段自然电位等测井资料。在井段18702040米，对自然伽玛、米，对自然伽玛、自然电位曲线以自然电位曲线以0.25米的深度间米的深度间隔取样构成数据序列，对该数隔取样构成数据序列，对该数据序列最优分割，绘出分割结据序列最优分割，绘出分割结果图果图(图图6-9)。从图从图6-9上可以看出，分割基上可以看出，分割基本上可以把岩性段分开，相邻本上可以把岩性段分开，相邻的两条分割线是某种岩性段的的两条分割线是某种岩性段的顶底界限。可见，对测井曲线顶底界限。可见，对测井曲线进行分解法聚类分

43、析可以为测进行分解法聚类分析可以为测井地质解释提供依据。井地质解释提供依据。深度深度岩性剖面岩性剖面自然伽玛自然伽玛自然电位自然电位图图6-9 岩芯剖面与分割结果对比图岩芯剖面与分割结果对比图例例5 岩性段划分岩性段划分54 在储集层定量分类中，常用的分类指标有均值、在储集层定量分类中，常用的分类指标有均值、饱和度中值、毛细管压力、渗透率、孔隙度和分选饱和度中值、毛细管压力、渗透率、孔隙度和分选系数等。以上述指标为变量，采用欧氏距离系数为系数等。以上述指标为变量，采用欧氏距离系数为分类统计量，对华北某地震旦系雾迷分类统计量，对华北某地震旦系雾迷山山组组46个岩样个岩样进行进行Q型聚类分

44、析，得华北某地震旦系雾迷山组储型聚类分析，得华北某地震旦系雾迷山组储层分类谱系图层分类谱系图6-10(伍有佳，伍有佳，2000,修改修改)，以距离系，以距离系数等于数等于0.25为分类标准，分为以溶蚀孔洞缝与构造为分类标准，分为以溶蚀孔洞缝与构造缝为主的好储层、以晶间隙为主的差储层、以基质缝为主的好储层、以晶间隙为主的差储层、以基质微孔为主的非储层、特殊类型的储微孔为主的非储层、特殊类型的储层。层。例例6 储层分类储层分类55图图6-10 华北某地震旦系雾迷山组储层分类谱系图华北某地震旦系雾迷山组储层分类谱系图(伍有佳，伍有佳，2000,修改修改)距离系数以基质微孔为主的非以基质微孔为主的非储

45、层储层特殊类型的储层特殊类型的储层以以晶晶间间隙隙为为主主的的差差储层储层以以溶溶蚀蚀孔孔洞洞缝缝与与构构造缝为主的好储层造缝为主的好储层56思考与练习题思考与练习题1.什么是聚类什么是聚类(点群点群)分析？分析？2.在聚类分析中为何要对数据进行预处理？在聚类分析中为何要对数据进行预处理？3.常用的定量数据预处理方法有几种？试写出常用的定常用的定量数据预处理方法有几种？试写出常用的定量数据处理方法变换公式。量数据处理方法变换公式。4.最常用的聚合法聚类统计量是什么最常用的聚合法聚类统计量是什么?其地质内涵是什么其地质内涵是什么?5.分解法聚类分析的统计量是什么？其内涵是什么？分解法聚类分析的统计量是什么？其内涵是什么？6.试述聚合法与分解法聚类分析的基本过程。试述聚合法与分解法聚类分析的基本过程。7.如何确定分解法的最优分段数？如何确定分解法的最优分段数？5758

展开阅读全文

第六章 聚类分析.ppt

第六章聚类分析.ppt