《多元统计与异常分析.ppt》由会员分享,可在线阅读,更多相关《多元统计与异常分析.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计与异常分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析多元统计分析是从经典统计学中发展起来多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能的一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况够在多个对象和对个指标互相关联的情况下分析它们的统计规律。下分析它们的统计规律。在地学数据处理在地学数据处理与应用中,主要
2、是针对地球化学数据的特与应用中,主要是针对地球化学数据的特点,分析元素的统计规律和元素间的关系,点,分析元素的统计规律和元素间的关系,从而研究其地质成因。主要内容包括分布从而研究其地质成因。主要内容包括分布检验、相关回归分析、因子分析与聚类检验、相关回归分析、因子分析与聚类分析分析等。分析分析等。中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v选择当前应用工程选择当前应用工程v运行数据处理与分析模块运行数据处理与分析模块在在GeoExplGeoExpl和和 GeoMDIS GeoMDIS 多元统计分析均在数据处理分析模块中多元统计分析均在数
3、据处理分析模块中实现。实现。中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v分布检验:分布检验:是检验数据是否符合正态分布,分析数据来源是是检验数据是否符合正态分布,分析数据来源是单一母体,还是多重母体。可获得数据集均值、中位数、标准单一母体,还是多重母体。可获得数据集均值、中位数、标准差、偏度、峰度等参数值。差、偏度、峰度等参数值。操作操作“分布检验分布检验”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择检验的变量,如选择检验的变量,如 “BaBa”确定数据集是否取对数确定数据集是否取对数确定分组值:起始值、分组间隔、确定分组值:
4、起始值、分组间隔、分组数分组数操作操作“分析计算分析计算”结果显示直方图,和参数结果结果显示直方图,和参数结果 通过调整分组参数或剔除异点设通过调整分组参数或剔除异点设置,可重新计算置,可重新计算操作操作“保存结果保存结果”,可将检验结,可将检验结果保存到文本文件中。果保存到文本文件中。中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v因子分析:因子分析:在大多数情况下,许多变量之间存在一定的相关在大多数情况下,许多变量之间存在一定的相关在大多数情况下,许多变量之间存在一定的相关在大多数情况下,许多变量之间存在一定的相关关系,用较少的综合指标
5、分析存在于各变量中的各类信息,这关系,用较少的综合指标分析存在于各变量中的各类信息,这关系,用较少的综合指标分析存在于各变量中的各类信息,这关系,用较少的综合指标分析存在于各变量中的各类信息,这些综合指标即为因子。些综合指标即为因子。些综合指标即为因子。些综合指标即为因子。操作操作“因子分析因子分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”确定坐标项,如,确定坐标项,如,“工作横坐标工作横坐标”,“工作纵坐标工作纵坐标”选择因子分析变量选择因子分析变量给定因子得分结果保存表数据表,给定因子得分结果保存表数据表,如如 “factfact”给定特征值计算结果保存文件给定特征值计算结果保存
6、文件 ,如如 “E:tempE:temp因子分析因子分析.ftr.ftr”操作操作“因子分析因子分析”中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v因子分析因子分析确定因子数,根据特征根累计确定因子数,根据特征根累计百分比,一般在百分比,一般在“85%85%”左右左右对应的因子数,如本例特征根对应的因子数,如本例特征根累计百分比对应的因子数为累计百分比对应的因子数为“7 7”,因此,确定因子数为因此,确定因子数为“7 7”操作操作“确定确定”即开始进行因即开始进行因子分析计算子分析计算 计算结束,因子得分和特征值计算结束,因子得分和特征值
7、分别保存在给定的数据表和文分别保存在给定的数据表和文本文件中。本文件中。分析计算结果分析计算结果通过特征值分析因子所代表元通过特征值分析因子所代表元素的组合关系和地质解释素的组合关系和地质解释中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v因子分析因子分析特征值数据文件包含:相关矩特征值数据文件包含:相关矩阵、特征向量、初始因子矩阵阵、特征向量、初始因子矩阵和旋转因子矩阵和旋转因子矩阵分析因子组合关系,通常选择分析因子组合关系,通常选择旋转因子矩阵,旋转因子矩阵,根据研究区根据研究区域的元素分布特征和,地质域的元素分布特征和,地质因素综合,
8、确定元素组合因因素综合,确定元素组合因子得分低限值,一般因子得子得分低限值,一般因子得分绝对值分绝对值0.5,0.5,按值的高低按值的高低排列。排列。中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v因子分析因子分析因子因子1:F-Sb-As-Ni-Sc-Li-Mn-1:F-Sb-As-Ni-Sc-Li-Mn-Pb-N-Se-ThPb-N-Se-Th因子因子2:Ba-Ce-La-Ti-Ga2:Ba-Ce-La-Ti-Ga 因子因子3:S-Br3:S-Br 推断解释推断解释利用因子得分表结果,本例中利用因子得分表结果,本例中 “fact_FIf
9、act_FI”-初始因子得分,初始因子得分,“fact_FRfact_FR”-旋转因子得分,旋转因子得分,制作二维因子得分图。制作二维因子得分图。作图方法参照离散数据网格化作图方法参照离散数据网格化制作等值区或等值线图制作等值区或等值线图中国地质调查局发展研究中心中国地质调查局发展研究中心v因子分析因子分析因子因子1 1因子因子3 3因子因子2 2中国地质调查局发展研究中心中国地质调查局发展研究中心 应用实例:应用实例:(1)依青海省水系沉积物()依青海省水系沉积物(39元素)、元素)、17个主因子特征及其属个主因子特征及其属性推断。性推断。主要依青海省主要依青海省F1、F2、F5因子对断裂构
10、造(因子对断裂构造(F)、绿岩套()、绿岩套(A)、)、碱性火成岩(碱性火成岩(B)和含碳酸岩建造的地层()和含碳酸岩建造的地层(C)进行推定,并给)进行推定,并给予图面上的表达。予图面上的表达。F1因子正高值域因子正高值域 主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及局部矿化。局部矿化。F2因子正高值域因子正高值域 主要反映省内含基性火成岩主要反映省内含基性火成岩绿岩套或板块缝合带。绿岩套或板块缝合带。F5因子负低值域因子负低值域 主要反映省内含碳酸岩建造和局部碳酸盐化。主要反映省内含碳酸岩建造和局部碳酸盐化。(2)参照了)参照
11、了17元素高信息量分布及其排列趋势对次级断裂做了元素高信息量分布及其排列趋势对次级断裂做了推定。推定。中国地质调查局发展研究中心中国地质调查局发展研究中心中国地质调查局发展研究中心中国地质调查局发展研究中心地球化学推断地质构造图地球化学推断地质构造图中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v聚类分析:聚类分析:是统计学中研究是统计学中研究是统计学中研究是统计学中研究“物以类聚物以类聚物以类聚物以类聚”问题的一种有效方问题的一种有效方问题的一种有效方问题的一种有效方法,根据观察值或变量之间的亲疏程度,将最相似的对象结合法,根据观察值或变
12、量之间的亲疏程度,将最相似的对象结合法,根据观察值或变量之间的亲疏程度,将最相似的对象结合法,根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。分为在一起。分为在一起。分为在一起。分为R R R R型聚类对研究对象的观察变量进行分类,称型聚类对研究对象的观察变量进行分类,称型聚类对研究对象的观察变量进行分类,称型聚类对研究对象的观察变量进行分类,称为为为为R R R R型聚类和型聚类和型聚类和型聚类和Q Q Q Q型聚类对样本(个案)进行分类型聚类对样本(个案)进行分类型聚类对样本(个案)进行分类型聚类对样本(个案)进行分类.操作操作“聚类分析聚类分析”选择数据表,如选择数据表,如 “
13、表层土壤表层土壤”选择参与聚类分析的变量选择参与聚类分析的变量确定确定 “R R型分析型分析”或或”Q Q型分析型分析”计算计算选择数据是否需要作对数变换选择数据是否需要作对数变换选择对数据是否需要选择对数据是否需要正则变换、标正则变换、标准化变换或不变换准化变换或不变换选择计算方法选择计算方法相关系数、欧拉距离相关系数、欧拉距离或相似系数或相似系数给定聚类分析结果文件,给定聚类分析结果文件,如如 “E:tempE:temp聚类聚类.clt.clt”操作操作“聚类分析聚类分析”中国地质调查局发展研究中心中国地质调查局发展研究中心v聚类分析聚类分析操作操作“聚类图聚类图”,显示聚类图,显示聚类图
14、划分分类相关性聚类限值,如划分分类相关性聚类限值,如0.5,0.5,并对元素分组并对元素分组 如如 :Ag-As-SbAg-As-Sb操作操作“保存图保存图”保存聚类图为图保存聚类图为图片片Q Q型聚类分析,可采用工程中型聚类分析,可采用工程中 “Q Q型聚类型聚类24_3924_39”数据表测试练数据表测试练习习中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v回归分析:回归分析:是研究变量之间关系的一种统计方法,也就是要是研究变量之间关系的一种统计方法,也就是要建立一个变量和另一个变量或几个变量之间的数据表达式。在建立一个变量和另一个变量
15、或几个变量之间的数据表达式。在实际运用中,回归分析根据变量的数目划分为二元变量回归和实际运用中,回归分析根据变量的数目划分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等多元变量回归,回归的形式包括线性回归和非线性回归等。回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决以下几个问题:以下几个问题:a a 确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合适的数据表达式;适的数据表达式;b b 根据一个或几个变量值,预测或
16、空值另一个变量的去职,并且要知道这根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这种预测可达到的精度;种预测可达到的精度;c c 从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些是不显著的。是不显著的。中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析v回归分析:回归分析:本系统包括:一元线性回归、多元线性回归、正本系统包括:一元线性回归、多元线性回归、正交回归、逐步回归、岭回归交回归、逐步回归、岭回归 一元线性回归分析一元线性回归分析一元线性回归分析一元
17、线性回归分析是在排除其它影响因素或假定其他影响因素确定的条件是在排除其它影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。下,分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。多元线性回归多元线性回归多元线性回归多元线性回归是一元线性回归的扩展,其基本原理与一元线性回归模型类是一元线性回归的扩展,其基本原理与一元线性回归模型类似,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量似,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系。变化关系。正交化回归分析正交化回归分析正交化回归分析正交化回归分析是在
18、多元回归基础上发展起来的一种多元统计方法。建立是在多元回归基础上发展起来的一种多元统计方法。建立回归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影回归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影响,得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选响,得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选入因子而剔除与因变量相关系数小的自变量。入因子而剔除与因变量相关系数小的自变量。岭回归分析岭回归分析岭回归分析岭回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。是近年来在多元回归基础上发展起来的一种新的多元统计方法。它与回归分析的不
19、同之处是一种线性有偏估计。而我们目前采用的回归分它与回归分析的不同之处是一种线性有偏估计。而我们目前采用的回归分析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失败。岭回归分析通过对参数败。岭回归分析通过对参数K K值的选择来改善正规方程组,增强矩阵的稳定值的选择来改善正规方程组,增强矩阵的稳定性,避免病态方程出现。性,避免病态方程出现。中国地质调查局发展研究中心中国地质调查局发展研究中心v
20、回归分析回归分析操作操作“回归分析回归分析”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择计算方法,选择计算方法,一元回归、多元线一元回归、多元线性回归、正交回归、逐步回归或性回归、正交回归、逐步回归或岭回归岭回归 不同计算方法要求不同的模式和不同计算方法要求不同的模式和参数选择或输入参数选择或输入选择因变量选择因变量选择自变量(一个或多个)选择自变量(一个或多个)操作操作“分析计算分析计算”计算结果将显示在文本窗,包括回计算结果将显示在文本窗,包括回归方程、回归系数和相关参数归方程、回归系数和相关参数操作操作“结果另存为结果另存为”将计算结果另将计算结果另存为文本文件存为文本文件中国
21、地质调查局发展研究中心中国地质调查局发展研究中心v回归分析回归分析操作操作“散点图散点图”在图示窗显示在图示窗显示“散点图散点图”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择计算方法,选择计算方法,一元回归、多元一元回归、多元线性回归、正交回归、逐步回归线性回归、正交回归、逐步回归或岭回归或岭回归 不同计算方法要求不同的模式和不同计算方法要求不同的模式和参数选择或输入参数选择或输入选择因变量选择因变量选择自变量(一个或多个)选择自变量(一个或多个)操作操作“分析计算分析计算”计算结果将显示在文本窗,包括计算结果将显示在文本窗,包括回归方程、回归系数和相关参数回归方程、回归系数和相关参
22、数操作操作“结果另存为结果另存为”将计算结果将计算结果另存为文本文件另存为文本文件操作操作“散点图散点图”在图示窗显示在图示窗显示“散点图散点图”中国地质调查局发展研究中心中国地质调查局发展研究中心v回归分析回归分析选择选择“正交回归测试正交回归测试”数据作正交数据作正交回归操作练习回归操作练习选择选择“岭回归测试岭回归测试”数据作岭回归数据作岭回归操作练习操作练习 中国地质调查局发展研究中心中国地质调查局发展研究中心分类统计及校正分类统计及校正 按区域(如景观区、构造按区域(如景观区、构造单元等)对数据进行特单元等)对数据进行特征统计,并可多分区系征统计,并可多分区系统误差校正。统误差校正。
23、操作操作“分类统计及校正分类统计及校正”选择数据表,如选择数据表,如 “表表层土壤层土壤”选择分类项与数据项选择分类项与数据项 确定保存统计结构名及确定保存统计结构名及剔除离差系数剔除离差系数 操作操作统计计算统计计算 按照统计结果设置校正按照统计结果设置校正系数,校正结果数据项系数,校正结果数据项名名 操作操作校正计算校正计算注:此功能对数据表需有一项分类注:此功能对数据表需有一项分类项(可以整型数,也可以是字符型)项(可以整型数,也可以是字符型),分类项可在图形操作中建立。,分类项可在图形操作中建立。中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析异常下
24、限与特征值异常下限与特征值采用常规处理方法确定数据集采用常规处理方法确定数据集的异常下限,及特征值。的异常下限,及特征值。操作操作“异常下限与特征值异常下限与特征值”选择数据表,如选择数据表,如 “表层土表层土壤壤”选择要分析处理的数据项选择要分析处理的数据项 选择处理方法及相关参数选择处理方法及相关参数操作操作执行处理执行处理 计算结果列于文本框计算结果列于文本框操作操作“保存结果保存结果”将计算结将计算结果保存于文本文件果保存于文本文件中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析邻域数据分析邻域数据分析基于离散数据,以计算数据点基于离散数据,以计算数
25、据点为中心,以及外域为背景计为中心,以及外域为背景计算各类参数,如算各类参数,如 “衬值异衬值异常常”、“变异系数变异系数”等。等。操作操作“邻域数据分析邻域数据分析”选择数据表,如选择数据表,如 “表层土表层土壤壤”选择坐标项选择坐标项选择要分析处理的变量选择要分析处理的变量确定单域或双域处理确定单域或双域处理选择处理方法及相关参数选择处理方法及相关参数确定数据搜索方式与范围确定数据搜索方式与范围给定处理结果保存数据表名给定处理结果保存数据表名操作操作数据处理数据处理中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析多变量叠加分析多变量叠加分析针对数据表,数
26、据项作常数、替针对数据表,数据项作常数、替换与叠加计算换与叠加计算操作操作“多变量叠加分析多变量叠加分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择要作处理的数据项选择要作处理的数据项给定替换参数,操作给定替换参数,操作替换替换确定计算常数与方法,操作确定计算常数与方法,操作运算运算给定多变量叠加表达式与新的给定多变量叠加表达式与新的结果数据项,操作结果数据项,操作运算运算 中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析数据正则化处理数据正则化处理针对数据表,数据项作规一化处理。针对数据表,数据项作规一化处理。操作操作“数据正则化处理数据正则化
27、处理”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择要作处理的数据项选择要作处理的数据项选择处理方法及参数选择处理方法及参数给定处理结果数据项名给定处理结果数据项名操作操作运算运算 中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析网格化数据衬值异常网格化数据衬值异常采用网格化数据计算衬值异常。采用网格化数据计算衬值异常。操作操作“离散数据网格化离散数据网格化”选择数据表选择数据表“表层土壤表层土壤”元素元素“AgAg”操作操作“网格数据圆滑处理网格数据圆滑处理”选择处理方法,及几何参数选择处理方法,及几何参数 结果数据保存于结果数据保存于“AgsAg
28、s”操作操作“网格数据叠置处理网格数据叠置处理”利用叠置处理结果制作衬值利用叠置处理结果制作衬值异常图异常图 中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析网格化数据衬值异常网格化数据衬值异常中国地质调查局发展研究中心中国地质调查局发展研究中心中国地质调查局发展研究中心中国地质调查局发展研究中心多变量叠加分析多变量叠加分析针对数据表,数据项作常数、替针对数据表,数据项作常数、替换与叠加计算换与叠加计算操作操作“多变量叠加分析多变量叠加分析”选择数据表选择数据表选择要作处理的数据项选择要作处理的数据项给定替换参数,操作给定替换参数,操作替换替换确定计算常数与方法,操作确定计算常数与方法,操作运算运算给定多变量叠加表达式与新给定多变量叠加表达式与新的结果数据项,操作的结果数据项,操作运算运算 异常分析异常分析异常分析异常分析中国地质调查局发展研究中心中国地质调查局发展研究中心多变量叠加分析多变量叠加分析异常分析异常分析异常分析异常分析铬镍钴镁铬镍钴镁/砷锑锂硼砷锑锂硼中国地质调查局发展研究中心中国地质调查局发展研究中心