聚类分析 (2)2精选文档.ppt-淘文阁

资源描述

《聚类分析 (2)2精选文档.ppt》由会员分享，可在线阅读，更多相关《聚类分析 (2)2精选文档.ppt（58页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、聚类分析1本讲稿第一页，共五十八页v引言引言地质学中有很多分类研究的问题，如地质学中有很多分类研究的问题，如沉积岩、古生沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分类物、矿物、油气藏、油气地球化学勘探指标的分类等等是一些直接分类的例子；油气资源评价、油源对比是一些直接分类的例子；油气资源评价、油源对比等研究中也有分类；地层划分属于另一种分类。为等研究中也有分类；地层划分属于另一种分类。为叙述方便，在此把分类的具体目标统称为叙述方便，在此把分类的具体目标统称为个体个体(样品样品或变量或变量)。聚类分析聚类分析:根据个体之间的亲疏程度，将它们进行根据个体之间的亲疏程度，将它们进行逐级定

2、量分类的一种多元统计分析方法。逐级定量分类的一种多元统计分析方法。根据分类的不同方式，又把聚类分析分为根据分类的不同方式，又把聚类分析分为聚合法聚合法和和分解法分解法聚类分析。聚类分析。2本讲稿第二页，共五十八页1 聚类分析和聚类统计量聚类分析和聚类统计量一、聚类分析一、聚类分析1 2 5 4 6 7 3 8 9 10 11 13 12 14 0.25 1.00 0.75 0.50 0.95 0.90 0.83 0.82 0.88 0.35 0.07 0.93 1.00 1.00 1.00 1.00 0.91 图图6-1 油气化探指标聚类谱系图油气化探指标聚类谱系图(1，2，14为化探指标编号

3、为化探指标编号)引例引例:化探指标的分类化探指标的分类如某地区油气地表化探样如某地区油气地表化探样品具有品具有14项指标，按照指标项指标，按照指标相关程度相关程度分类分类,结果如图。结果如图。类内指标具有密切的成因类内指标具有密切的成因联系，据此可以化简研究联系，据此可以化简研究系统系统。参照上例，给出聚合法聚类分析的一般概念。参照上例，给出聚合法聚类分析的一般概念。1.聚合法聚类分析聚合法聚类分析3本讲稿第三页，共五十八页聚合法聚类分析聚合法聚类分析是按个体在性质或成因上的亲疏关是按个体在性质或成因上的亲疏关系，把个体逐级聚集成类的一种多元统计分析方法。系，把个体逐级聚集成类的一种多元统

4、计分析方法。又称为又称为点群分析点群分析，对对样品样品进行分类进行分类称称Q型聚类分析型聚类分析对对变量变量进行分类进行分类称称R型聚类分析型聚类分析这种聚类分析开始时，每个个体各自为一类，然后以这种聚类分析开始时，每个个体各自为一类，然后以某种表示个体亲疏关系的统计量某种表示个体亲疏关系的统计量为分类依据，把彼此为分类依据，把彼此关系相对密切的个体合并为小类，再把关系相对密切关系相对密切的个体合并为小类，再把关系相对密切的小类进一步合并，的小类进一步合并，最后直到合并成一个大类为，最后直到合并成一个大类为止。最终得到一个反映各对象间亲疏关系的分类结果止。最终得到一个反映各对象间亲疏关系的

5、分类结果聚类分析谱系图，如图聚类分析谱系图，如图6-1。4本讲稿第四页，共五十八页例如例如1 1 2 2 3 3是是6个个体，据个体的相似性，把个个体，据个体的相似性，把个体分为个体分为3类类,结果是结果是:1 1、2 2、3 3。这是一种把。这是一种把大类分解成小类大类分解成小类的问题的问题，地层的岩性段划分属于这地层的岩性段划分属于这类问题。类问题。2.分解法聚类分析分解法聚类分析这种聚类方法与聚合法这种聚类方法与聚合法“方向方向”恰好相反，恰好相反，开始时全开始时全部个体为部个体为1大类，依据某种分类指标，把全部个体分大类，依据某种分类指标，把全部个体分为为2类、类、3类、类、,直

6、到满足分类的要求为止。直到满足分类的要求为止。二、聚类分析统计量二、聚类分析统计量衡量个体间衡量个体间性质或成因亲疏性质或成因亲疏(相似、相关相似、相关)程度程度的统的统计指标。计指标。5本讲稿第五页，共五十八页 1.聚合法聚类统计量聚合法聚类统计量设设有有n个个样样品品，每每个个样样品品有有m个个变变量量，它它们们的的观观测测值值xij(i=1,2,n;j=1,2,m)构构成成一一个个数数据据矩矩阵阵，记记为：为：v 第第i行是第行是第i个样品个样品m个变量的观测值，可视为个变量的观测值，可视为m 维空维空间的一个点或一个矢量；间的一个点或一个矢量；由由 Xnm可以看出：可以看出：分类分

7、类对象对象几个常用的聚类分析统计量几个常用的聚类分析统计量:6本讲稿第六页，共五十八页v 样品间样品间的相似性就是的相似性就是矩阵行间矩阵行间的相似性，对样品聚类的相似性，对样品聚类就是将矩阵中相似程度高的行合并为类；就是将矩阵中相似程度高的行合并为类；v变量间变量间的相关性就是的相关性就是矩阵列间矩阵列间的相关性，对变量聚类的相关性，对变量聚类就是将矩阵中相关程度高的列合并为类。就是将矩阵中相关程度高的列合并为类。(1)Q型聚类分析统计量型聚类分析统计量相似系数相似系数设样品观测值设样品观测值:v 第第j 列是第列是第j个变量的个变量的n次观测值，可视为次观测值，可视为n维空间的维空间的一

8、个点或一个矢量；一个点或一个矢量；7本讲稿第七页，共五十八页(6-1)如此，可形成一个相似系数矩阵如此，可形成一个相似系数矩阵R=rijnn。将将Xi与与Xj看成两个矢量，则看成两个矢量，则Xi与与Xj的相似系数定义为的相似系数定义为两矢量夹角的余弦两矢量夹角的余弦：8本讲稿第八页，共五十八页在上述相似系数矩阵中，在上述相似系数矩阵中，rij=rji,rii=1。rij 越接近越接近1，Xi与与Xj的性质越相近。的性质越相近。R描述了各样品间的相似程描述了各样品间的相似程度。度。9本讲稿第九页，共五十八页(6-2)矢量矢量Xi与与Xj的相关系数为的相关系数为:相关系数相关系数如此可形成一个

9、相关系数矩阵如此可形成一个相关系数矩阵R=rijnn。在相关系数矩阵中：在相关系数矩阵中：rij=rji,rii=1。rij越接近越接近1，Xi与与Xj的相关程度越大。的相关程度越大。10本讲稿第十页，共五十八页为避免为避免dij过大造成计算溢出，将上式改为过大造成计算溢出，将上式改为:(6-3)距离系数距离系数在在m 维直角坐标系中，维直角坐标系中，2个点间的距离为：个点间的距离为：即形成距离系数矩阵即形成距离系数矩阵dijnn。dij=dji,dii=0。dij越接越接近近0，Xi与与Xj的性质越相近。的性质越相近。11本讲稿第十一页，共五十八页(2)R型聚类分析统计量型聚类分析统计量仿

10、照仿照Q 型聚类分析统计量，容易写出型聚类分析统计量，容易写出R型聚类分析型聚类分析统计量。统计量。变量间的相关性是数据矩阵变量间的相关性是数据矩阵列列间的相关关系。间的相关关系。分类分类对象对象注意求和限的变化及角标的变化。注意求和限的变化及角标的变化。12本讲稿第十二页，共五十八页(6-4)相似系数相似系数矢量矢量Xi与与Xj的相似系数为的相似系数为:形成相似系数矩阵形成相似系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1，Xi与与Xj的相似程度越大。的相似程度越大。13本讲稿第十三页，共五十八页(6-5)相关系数相关系数矢量矢量Xi与与Xj的相关系数为的

11、相关系数为:形成相关系数矩阵形成相关系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1，Xi与与Xj的相关程度越大。的相关程度越大。14本讲稿第十四页，共五十八页在在n 维直角坐标系中，维直角坐标系中，2个点间的距离为：个点间的距离为：(6-6)距离系数距离系数形成距离系数矩阵形成距离系数矩阵dijmm。dij=dji,dii=0。dij越接近越接近0，Xi与与Xj的性质越相近。的性质越相近。15本讲稿第十五页，共五十八页仅介绍分解法中的仅介绍分解法中的最优分割法最优分割法。n个样品个样品m个变量的观测值构成一个数据矩阵个变量的观测值构成一个数据矩阵:分类分

12、类对象对象这里的这里的Xnm是是数据序列数据序列(数据的排列顺序不能改变数据的排列顺序不能改变)。此处分类是指此处分类是指按行把数据序列分割开多个段。按行把数据序列分割开多个段。2.分解法聚类统计量分解法聚类统计量16本讲稿第十六页，共五十八页第第1段段第第2段段第第k段段对对Xnm的最优分割是指把的最优分割是指把Xnm 分段后，各分段后，各段内数据的段内数据的离差平方和最小离差平方和最小(各段内样品的差异最小各段内样品的差异最小)，而各，而各段间段间数据的离差平方和最大数据的离差平方和最大(各段之间样品的差异最大各段之间样品的差异最大)。如果把如果把Xnm分成分成k段段(组组),每段内有

13、每段内有nl(l=1,2,k)个样个样品，分段结果记为：品，分段结果记为：17本讲稿第十七页，共五十八页总离差平方和总离差平方和:(常数常数)把把Xnm分为分为k段有很多种可能的分法。对于其中的任段有很多种可能的分法。对于其中的任何一种分法，都有：何一种分法，都有：段内离差平方和段内离差平方和:(6-7)段间离差平方和段间离差平方和:18本讲稿第十八页，共五十八页为样品的总数；为样品的总数；xlj(i)为第为第l 段内第段内第j个样品第个样品第 i个变量的观测值；个变量的观测值；为第为第i个变量个变量n个观测值的平均值。个观测值的平均值。其中：其中：为第为第l 段内第段内第 i个变量个变量nl

14、个观测值的平均值；个观测值的平均值；19本讲稿第十九页，共五十八页对于给定的数据来说，对于给定的数据来说，S是个常数，是个常数，S1最小，最小，S2必必然最大。因此可将然最大。因此可将段内离差平方和段内离差平方和可以证明：可以证明：一一个个地地质质数数据据序序列列分分段段后后满满足足段段内内离离差差平平方方和和最最小小，则称相应的分法为则称相应的分法为最优分割最优分割。做为做为分解法聚类分析的聚类统计量分解法聚类分析的聚类统计量。20本讲稿第二十页，共五十八页聚合法分解法相似系数段内离差平方和相关系数段间离差平方和距离系数总离差平方和表表6-1 常用聚类分析统计量常用聚类分析统计量

15、21本讲稿第二十一页，共五十八页2 聚合法聚类分析聚合法聚类分析聚合法聚类是将类由多变少、直到把全部个体合并成聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对一类的聚类方法。它是目前对个体个体进行聚类的常用方法。进行聚类的常用方法。聚类过程大致如下：聚类过程大致如下：(1)原始类，即聚类以前的个体各自成类；原始类，即聚类以前的个体各自成类；(2)第第1级级聚聚类类，以以某某种种统统计计量量计计算算各各个个体体间间的的亲亲疏疏程程度度，把把关关系系密密切切的的对对象象合合并并成成1类类，并并构构造造成成一一个个代代表性个体表性个体，做为新的个体参加下一级聚类；，做为新的

16、个体参加下一级聚类；多个个体组成的小类多个个体组成的小类22本讲稿第二十二页，共五十八页(4)按上述方法进行第按上述方法进行第3级聚类、第级聚类、第4级聚类、级聚类、,直直到全部个体合并为到全部个体合并为1类为止。类为止。(3)第第2级聚类，再计算个体间的级聚类，再计算个体间的亲疏程度亲疏程度，把关系密，把关系密切的个体合并为切的个体合并为1类类(可能是个体与个体或个体与上一级可能是个体与个体或个体与上一级已聚成的小类合并已聚成的小类合并)，并又构造一个代表该类的，并又构造一个代表该类的代表性代表性个体个体参加下一级聚类；参加下一级聚类；在上述聚类过程中，需要不断地计算在上述聚类过程中，需要不

17、断地计算个体与个体、个体与个体、个体与类、类与类间个体与类、类与类间的亲疏程度，下面介绍计算它们的亲疏程度，下面介绍计算它们之间亲疏程度的递推公式和聚类过程。之间亲疏程度的递推公式和聚类过程。23本讲稿第二十三页，共五十八页对于对于n维维(样品点样品点)或或m维维(变量点变量点)空间的空间的2个点来说，个点来说，其距离在概念上是明确的其距离在概念上是明确的(点间线段的长度点间线段的长度)。但。但2类类间的距离间的距离就有不同的定义，既可定义为就有不同的定义，既可定义为2类中相距最类中相距最近近2点之间的距离，又可定义为点之间的距离，又可定义为2类中相距最远类中相距最远2点之点之间的距离，还可

18、以取间的距离，还可以取2类的重心距离等。类的重心距离等。一、距离类统计量聚合法一、距离类统计量聚合法由于距离的定义不同，因此也就产生了不同的聚合法。由于距离的定义不同，因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。下面介绍四种距离度量下的聚合法。24本讲稿第二十四页，共五十八页 1.最短距离法最短距离法 (1)最短距离最短距离如图，定义如图，定义p类和类和q类间的类间的最短距离为：最短距离为：(6-8)dij是是p、q类类中中任任意意2个个样样品品Xi与与Xj之之间间的的距距离离。用用最最短短距离进行的聚合聚类叫做距离进行的聚合聚类叫做最短距离法最短距离法。最短距离最短距离最

19、长距离最长距离图图6-2 类间距离类间距离ABCDp类类q类类聚聚类类过过程程中中不不可可避避免免要要涉涉及及到到合合并并成成的的类类与与另另一一个个类类之间最短距离的计算。之间最短距离的计算。25本讲稿第二十五页，共五十八页图图6-3 类类r与类与类f的最短距离的最短距离如如果果p类类和和q类类合合并并为为类类r，计计算算类类r与与另另外外的的类类f之之间间最最短短距距离离时时，直直接接方方法法是是逐逐一一计计算算类类r与与类类f中中所所有有个个体体间间的的距距离离，选选最最小者即为最短距离。小者即为最短距离。(6-9)p类类q类类f类类r类类为为计计算算便便捷捷，可可由由之之前前的的

20、计计算算结结果果进进行行递递推推，递递推公式为：推公式为：26本讲稿第二十六页，共五十八页油源对比包括原油与原油、原油与生油岩的对比，油源对比包括原油与原油、原油与生油岩的对比，主要是解决油源的问题。设编号为主要是解决油源的问题。设编号为、的样品的样品是取自生油层是取自生油层k1、k2、k3的岩样，编号为的岩样，编号为的样品是取的样品是取自储层自储层k0的油样。需解决的问题是的油样。需解决的问题是:k0的油来自哪个生的油来自哪个生油层？表油层？表6-2给出了油源对比常用的甾烷族化合物相给出了油源对比常用的甾烷族化合物相对含量。对含量。表表6-2 甾烷族化合物相对含量甾烷族化合物相对含量分子

21、离子样品372386398400412414生油层岩样(k1)3.7211.205.7815.805.209.11生油层岩样(k2)5.306.125.308.107.127.80生油层岩样(k3)9.6510.209.6113.209.4010.70储集层油样(k0)10.7813.107.8115.907.8112.80v以油源对比为例，说明聚类过程以油源对比为例，说明聚类过程27本讲稿第二十七页，共五十八页计算个体计算个体(样品样品)点间的距离矩阵，记为点间的距离矩阵，记为:第一级聚类第一级聚类D(0)中，中，d34=d43=5.2110 在所有距离中最短。在所有距离中最短。准备工作准

22、备工作28本讲稿第二十八页，共五十八页表表明明岩岩样样k3与与油油样样k0的的甾甾烷烷族族化化合合物物相相对对含含量量最最接接近近,应应合合成成1类类,记记为为r,r=,。同同时时按按式式(6-9)计计算算类类r与与其它各类间的最短距离矩阵其它各类间的最短距离矩阵,记为记为D(1)：第二级聚类第二级聚类 r=,在在D(1)中中，d13=d31=8.8183在在所所有有距距离离中中最最短短，表表明明与与r类类最最亲亲近近，应应合合为为1类类，记记为为k,k=,。再再按按式式(6-9)计计算算类类k与与其其它它各各类类(仅仅剩剩下下编编号号为为的的样样品品了了)间的最短距离矩阵，记为间的最短距离

23、矩阵，记为D(2)：29本讲稿第二十九页，共五十八页由由D(2)可可知知，四四个个样样品品以以距距离离D=9.6553聚聚为为一一大大类类。按聚类顺序绘制聚类谱系如下：按聚类顺序绘制聚类谱系如下：0.0000 5.2110 8.8183 9.6553 根据聚类谱系图根据聚类谱系图,可认为可认为k0储层中的油主要来自储层中的油主要来自k3生生油层，但也不能排除混有其他生油层的油。油层，但也不能排除混有其他生油层的油。第三级聚类第三级聚类30本讲稿第三十页，共五十八页 (2)最短距离法聚类的基本过程最短距离法聚类的基本过程准备工作准备工作计算个体计算个体(样品或变量样品或变量)点间的距离矩阵

24、点间的距离矩阵:第一级聚类第一级聚类在在D(0)中找出距离最短的类合成中找出距离最短的类合成1类，记为类，记为r。按式。按式(6-9)计算类计算类r与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵D(1)；第二级聚类第二级聚类在在D(1)中找出距离最短的类合为中找出距离最短的类合为1类，记为类，记为k。按式。按式(6-9)计算类计算类k与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵D(2)；重复重复上述过程上述过程,直到全部样品聚为一类为止。直到全部样品聚为一类为止。31本讲稿第三十一页，共五十八页2.最长距离法最长距离法(1)最长距离最长距离定义定义p与与q间的最长距离间的最

25、长距离:(6-10)式中式中dij为为p、q类中类中2个样品个样品Xi与与Xj之间的距离。之间的距离。用最长距离进行的聚合聚类称用最长距离进行的聚合聚类称最长距离法最长距离法。若。若p类类与与q类聚为类类聚为类r，新类，新类r与另外的类与另外的类f之间的最长距离可之间的最长距离可由下列递推公式算出。由下列递推公式算出。32本讲稿第三十二页，共五十八页定定义义p类类、q类类间间的的平平均均距距离离为为两两类类中中所所有有个个体体间间距离的平均值：距离的平均值：(2)聚类过程聚类过程聚聚类类过过程程与与最最短短距距离离法法聚聚类类相相同同，不不同同处处是是按按式式(6-10)计算下一级聚类的矩

26、阵计算下一级聚类的矩阵(计算最长距离计算最长距离)。3.类平均法类平均法(1)类平均距离类平均距离式中式中np、nq是类是类p、q中个体数。中个体数。dij为类为类p、q中中2个个个体个体Xi与与Xj之间的距离。之间的距离。33本讲稿第三十三页，共五十八页假假设设类类p、q 的的重重心心分分别别是是、,那那么么类类 p、q 间间的的重心距离为：重心距离为：用类平均距离进行的聚合聚类叫做用类平均距离进行的聚合聚类叫做类平均法类平均法。若类。若类p、类类q合并为类合并为类r，计算新类，计算新类r与另外的类与另外的类f之间类平均距之间类平均距离的递推公式为：离的递推公式为：(2)类平均法聚类过

27、程类平均法聚类过程与上述方法相同，不同处是计算类平均距离。与上述方法相同，不同处是计算类平均距离。4.重心法重心法类类p、q合成类合成类r后，类后，类r的重心为：的重心为：34本讲稿第三十四页，共五十八页类类r与另外的类与另外的类f 间重心距离的递推公式为：间重心距离的递推公式为：用重心距离进行的聚合聚类方法叫做用重心距离进行的聚合聚类方法叫做重心法重心法。35本讲稿第三十五页，共五十八页相关类统计量包括相关系数、相似系数。相应的聚相关类统计量包括相关系数、相似系数。相应的聚合聚类法有近邻联接法、远邻联接法和类平均法，相合聚类法有近邻联接法、远邻联接法和类平均法，相应的递推公式为：应的递

28、推公式为：近邻联接近邻联接二、相关类统计量聚合聚类二、相关类统计量聚合聚类远邻联接远邻联接类类平平均均36本讲稿第三十六页，共五十八页统计量方法说明相关系数相似系数近邻联接最大相关表示两类的相关远邻联接最小相关表示两类的相关类平均平均相关表示两类的相关距离系数最短距离最短距离表示两类的距离最长距离最长距离表示两类的距离类平均平均距离表示两类的距离重心重心距离表示两类的距离表表6-3 类与类类与类(或个体或个体)之间相近程度计算之间相近程度计算37本讲稿第三十七页，共五十八页三、聚类结果的选择三、聚类结果的选择采用不同的聚类方法，其聚类过程都是相同的采用不同的聚类方法，其

29、聚类过程都是相同的,但结但结果却果却不一定完全相同不一定完全相同。究竟哪种方法分类结果更好。究竟哪种方法分类结果更好?目目前尚无合适的衡量标准。在实际应用中前尚无合适的衡量标准。在实际应用中,要结合其它地质要结合其它地质理论及资料理论及资料,分析不同方法给出的分类结果分析不同方法给出的分类结果,从中确定一种从中确定一种合理的分类方案。合理的分类方案。38本讲稿第三十八页，共五十八页图图6-4 云南省某地超基性岩岩样聚类谱系图云南省某地超基性岩岩样聚类谱系图相关系数近相关系数近邻联接法邻联接法相关系数类相关系数类平均法平均法欧氏距离最短欧氏距离最短距离法距离法欧氏距离欧氏距离类平均法类平均法39

30、本讲稿第三十九页，共五十八页最优最优k分割的基本思想分割的基本思想:按照按照段内离差平方和最小段内离差平方和最小的的原则，依次找出数据序列原则，依次找出数据序列X的的k-1个分割点，把个分割点，把X分为分为k段。段。3 分解法聚类分析分解法聚类分析(最优分割法最优分割法)一、最优分割的基本思想一、最优分割的基本思想如前所述，分割是把数据序列分段，最优如前所述，分割是把数据序列分段，最优k分割是指数分割是指数据序列分为据序列分为k段后，段后，段内离差平方和段内离差平方和达到最小。将记数达到最小。将记数据序列记为：据序列记为：40本讲稿第四十页，共五十八页2.分割过程分割过程 1.符号约定符号

31、约定记符号记符号Sn(k;j)为把为把Xnm分为分为k段的段的段内离差平方和段内离差平方和，其，其中中n是是X中样品数，中样品数，k是分段数，是分段数，j表示第表示第j个样品和第个样品和第j+1个样品之间为分割点个样品之间为分割点(1jn-1)。(1)分分2段段取取k=2,令令j=1,2,n-1,按式按式(6-7)计算计算Sn(2;j),若若那么那么,1是最优是最优2分割的分割点，分割的分割点，X分割为分割为2段；段；二、最优二、最优k段分割的基本过程段分割的基本过程 41本讲稿第四十一页，共五十八页则则2是最优是最优3分割的第分割的第2分割点分割点,X分割为分割为3段；段；(2)分分

32、3段段取取k=3,令令j=1,2,.,n-1,j1，按式按式(6-7)计算计算Sn(3;j),若若 (3)分分k段段取取k=k,令令j=1,2,.,n-1,j1,2,k-2,按式按式(6-7)计算计算Sn(k;j)，若若42本讲稿第四十二页，共五十八页则则k-1是最优是最优k分割的第分割的第k-1个分割点。至此，已将个分割点。至此，已将X分割为分割为k段，分割点依次为段，分割点依次为1、2、k-1。2.69.328.52.79.629.72.59.127.83.88.630.63.28.532.53.68.234.63.78.435.13.58.731.90.612.120.60.512

33、.020.00.712.220.20.212.120.7分割点分割点1(j=8)分割点分割点2(j=3)示例示例将下列将下列3个指标的数据序列分为个指标的数据序列分为3段：段：2.69.328.52.79.629.72.59.127.83.88.630.63.28.532.53.68.234.63.78.435.13.58.731.90.612.120.60.512.020.50.712.220.20.212.120.743本讲稿第四十三页，共五十八页4 应用简介应用简介例例1 油气地表化探指标分类油气地表化探指标分类内蒙古都日木地区地表化探采样点内蒙古都日木地区地表化探采样点1610个个

34、,对每个对每个点的土壤样品分析化验了点的土壤样品分析化验了29项指标项指标,对这对这29项指标进项指标进行了聚类分析行了聚类分析,将将29项指标划分为项指标划分为4个大类个大类(见图见图6-5)。通过聚类分析通过聚类分析,了解了该地区化探指标之间的相关性了解了该地区化探指标之间的相关性,为化探异常圈定中指标的合理选取提供了依据。为化探异常圈定中指标的合理选取提供了依据。44本讲稿第四十四页，共五十八页图图6-5 都日木地区油气化探指标聚类谱系图都日木地区油气化探指标聚类谱系图45本讲稿第四十五页，共五十八页例例2 储层评价参数优选储层评价参数优选大庆朝阳沟油田具有低孔隙度、低渗透率、高含水

35、饱大庆朝阳沟油田具有低孔隙度、低渗透率、高含水饱和度等特点。能够反映该油田低渗透储层的参数有：渗和度等特点。能够反映该油田低渗透储层的参数有：渗透率、孔隙度、有效厚度、储量丰度、启动压力梯度、透率、孔隙度、有效厚度、储量丰度、启动压力梯度、可动流体饱和度、平均孔隙半径、流度等。对众多参数可动流体饱和度、平均孔隙半径、流度等。对众多参数都进行评价，将造成极大的工作量。因此考虑用聚类分都进行评价，将造成极大的工作量。因此考虑用聚类分析方法剔除相似参数，优选出具有代表性、可比性和实析方法剔除相似参数，优选出具有代表性、可比性和实用性的参数。用性的参数。参数选取原则：参数选取原则：(1)必须体现储层最

36、本质的特征；必须体现储层最本质的特征；(2)同一储层内的某参数必须有明显差异；同一储层内的某参数必须有明显差异；46本讲稿第四十六页，共五十八页 (3)以研究各单项参数对储层特征的影响程度及各以研究各单项参数对储层特征的影响程度及各参数间的相互关系为基础；参数间的相互关系为基础；(4)参考研究区的具体特点，选择出具有代表性、参考研究区的具体特点，选择出具有代表性、可比性和实用性的参数。可比性和实用性的参数。图图6-6 储层参数聚类谱系图储层参数聚类谱系图(据刘吉余等，据刘吉余等，2009)1 渗透率2 孔隙度3 有效厚度4 储量丰度5 启动压力梯度6 可动流体饱和度7 平均孔隙半径8 流度16

37、8352471.000.870.740.600.470.3447本讲稿第四十七页，共五十八页由图由图6-6可以看出，启动压力梯度和有效厚度的相关可以看出，启动压力梯度和有效厚度的相关程度最高，优先被聚为一类，考虑启动压力梯度较有程度最高，优先被聚为一类，考虑启动压力梯度较有效厚度更为重要，故可只选启动压力梯度，效厚度更为重要，故可只选启动压力梯度，剔除有效剔除有效厚度厚度。同样，在渗透率和可动流体饱和度两项参数中。同样，在渗透率和可动流体饱和度两项参数中选取渗透率，剔除选取渗透率，剔除可动流体饱和度可动流体饱和度。如此，指标个数从如此，指标个数从8个被简化到了个被简化到了6个。个。48本讲稿

38、第四十八页，共五十八页例例3 含油气盆地的聚类分析含油气盆地的聚类分析基本思想基本思想:将已知含油气远景的一些盆地与待评价的沉积盆地将已知含油气远景的一些盆地与待评价的沉积盆地一起进行聚类分析，若待评价的盆地一起进行聚类分析，若待评价的盆地B与已知含油气性的盆地与已知含油气性的盆地A聚为一类，则可认为聚为一类，则可认为B的含油气性与的含油气性与A最接近，依此对盆地进行最接近，依此对盆地进行评价。评价。评价的地质参数评价的地质参数(共共30项项)：盆地的面积盆地的面积(单位：单位：105平方公里平方公里)地质时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠地质时代：第三纪、白垩纪、侏罗纪、三叠纪、

39、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1，无为，无为0定量化；定量化；(共共10项项)储层时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、储层时代：第三纪、白垩纪、侏罗纪、三叠纪、二叠纪、石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为石炭纪、泥盆纪、志留纪、奥陶纪、寒武纪。按有为1，无为，无为0定量化；定量化；(共共10项项)49本讲稿第四十九页，共五十八页储层岩性：砂岩、碳酸盐岩、火成岩、基岩。按有为储层岩性：砂岩、碳酸盐岩、火成岩、基岩。按有为1，无为无为0定量化；定量化；(共共4项项)盆地类型：内陆、沿海、海湾、海洋。按是

40、为盆地类型：内陆、沿海、海湾、海洋。按是为1，非为，非为0定量化；定量化；(共共4项项)沉积厚度沉积厚度(单位：单位：104米米)表表6-4 48个盆地的个盆地的30项参数统计数据项参数统计数据序号面积厚度地质时代(10项)储层时代(10项)储层岩性盆地类型1234481.001.104.504.000.250.800.400.700.500.751,1,0,0,0,0,0,0,0,00,0,0,0,0,1,1,1,1,10,1,1,1,1,1,1,1,1,11,1,0,0,0,0,0,0,0,01,1,0,0,0,0,0,0,0,01,0,0,0,0,0,0,0,0,00,0,0,0,0,

41、1,1,0,0,00,0,0,1,0,0,0,0,1,11,1,0,0,0,0,0,0,0,01,0,0,0,0,0,0,0,0,01,0,0,01,0,0,01,0,0,01,1,0,11,0,0,00,1,0,01,0,0,00,1,0,00,1,0,00,1,0,050本讲稿第五十页，共五十八页图图6-7 含油气盆地聚类谱系图含油气盆地聚类谱系图相关系数近邻联接法相关系数近邻联接法欧氏距离最短距离法欧氏距离最短距离法51本讲稿第五十一页，共五十八页油源对比是根据地质和地球化学特征，确定石油和源油源对比是根据地质和地球化学特征，确定石油和源岩之间成因联系的工作。它包括岩之间成因联系的工作

42、。它包括石油与烃源岩石油与烃源岩之间以之间以及及不同储层中石油之间不同储层中石油之间的对比两个方面。的对比两个方面。烃源岩中的干酪根在一定条件下裂解形成石油和天然烃源岩中的干酪根在一定条件下裂解形成石油和天然气，其中一部分运移到储集层中，一部分残留在源岩内。气，其中一部分运移到储集层中，一部分残留在源岩内。因此，烃源岩中的干酪根、沥青与来自该层系的油气就因此，烃源岩中的干酪根、沥青与来自该层系的油气就有着亲缘关系，在化学组成上必然有着某种程度的相似有着亲缘关系，在化学组成上必然有着某种程度的相似性。同源油气化学组成的相似程度高，异源油气化学组性。同源油气化学组成的相似程度高，异源油气化学组成的

43、相似程度低。这种相似性就是我们进行油源对比的成的相似程度低。这种相似性就是我们进行油源对比的基本理论依据。基本理论依据。油源对比的基础是变量化学组分的相关性油源对比的基础是变量化学组分的相关性。例例4 大王北洼陷甾萜烷油源对比大王北洼陷甾萜烷油源对比 52本讲稿第五十二页，共五十八页图图6-8 大王北洼陷甾萜烷油源对比聚类谱系图（任拥军，大王北洼陷甾萜烷油源对比聚类谱系图（任拥军，2006）沙四烃源岩沙四烃源岩沙三烃源岩沙三烃源岩沙一烃源岩沙一烃源岩53本讲稿第五十三页，共五十八页某盆地某盆地g114井有自然伽玛、自井有自然伽玛、自然电位等测井资料。在井段然电位等测井资料。在井段187020

44、40米，对自然伽玛、自然电米，对自然伽玛、自然电位曲线以位曲线以0.25米的深度间隔取样构米的深度间隔取样构成数据序列，对该数据序列最优成数据序列，对该数据序列最优分割，绘出分割结果图分割，绘出分割结果图(图图6-9)。从图从图6-9上可以看出，分割基本上可以看出，分割基本上可以把岩性段分开，相邻的两上可以把岩性段分开，相邻的两条分割线是某种岩性段的顶底界条分割线是某种岩性段的顶底界限。可见，对测井曲线进行分解限。可见，对测井曲线进行分解法聚类分析可以为测井地质解释法聚类分析可以为测井地质解释提供依据。提供依据。深度深度岩性剖面岩性剖面自然伽玛自然伽玛自然电位自然电位图图6-9 岩芯剖面

45、与分割结果对比图岩芯剖面与分割结果对比图例例5 岩性段划分岩性段划分54本讲稿第五十四页，共五十八页在储集层定量分类中，常用的分类指标有均值、饱和度在储集层定量分类中，常用的分类指标有均值、饱和度中值、毛细管压力、渗透率、孔隙度和分选系数等。以上中值、毛细管压力、渗透率、孔隙度和分选系数等。以上述指标为变量，采用欧氏距离系数为分类统计量，对华北述指标为变量，采用欧氏距离系数为分类统计量，对华北某地震旦系雾迷山组某地震旦系雾迷山组46个岩样进行个岩样进行Q型聚类分析，得华型聚类分析，得华北某地震旦系雾迷山组储层分类谱系图北某地震旦系雾迷山组储层分类谱系图6-10(伍有佳，伍有佳，2000,修

46、改修改)，以距离系数等于，以距离系数等于0.25为分类标准，分为为分类标准，分为以溶蚀孔洞缝与构造缝为主的好储层、以晶间隙为以溶蚀孔洞缝与构造缝为主的好储层、以晶间隙为主的差储层、以基质微孔为主的非储层、特殊类型主的差储层、以基质微孔为主的非储层、特殊类型的储层。的储层。例例6 储层分类储层分类55本讲稿第五十五页，共五十八页图图6-10 华北某地震旦系雾迷山组储层分类谱系图华北某地震旦系雾迷山组储层分类谱系图(伍有佳，伍有佳，2000,修改修改)距离系数以基质微孔为主的非以基质微孔为主的非储层储层特殊类型的储层特殊类型的储层以以晶晶间间隙隙为为主主的的差差储层储层以以溶溶蚀蚀孔孔洞洞缝缝与与

47、构构造缝为主的好储层造缝为主的好储层56本讲稿第五十六页，共五十八页思考与练习题思考与练习题1.什么是聚类什么是聚类(点群点群)分析？分析？2.在聚类分析中为何要对数据进行预处理？在聚类分析中为何要对数据进行预处理？3.常用的定量数据预处理方法有几种？试写出常用的定量常用的定量数据预处理方法有几种？试写出常用的定量数据处理方法变换公式。数据处理方法变换公式。4.最常用的聚合法聚类统计量是什么最常用的聚合法聚类统计量是什么?其地质内涵是什么其地质内涵是什么?5.分解法聚类分析的统计量是什么？其内涵是什么？分解法聚类分析的统计量是什么？其内涵是什么？6.试述聚合法与分解法聚类分析的基本过程。试述聚合法与分解法聚类分析的基本过程。7.如何确定分解法的最优分段数？如何确定分解法的最优分段数？57本讲稿第五十七页，共五十八页58本讲稿第五十八页，共五十八页

展开阅读全文