《多元统计与异常分析讲稿.ppt》由会员分享,可在线阅读,更多相关《多元统计与异常分析讲稿.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计与异常分析第一页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析多元统计分析是从经典统计学中发展起来的多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析多个对象和对个指标互相关联的情况下分析它们的统计规律。它们的统计规律。在地学数据处理与应用在地学数据处理与应用中,主要是针对地球化学数据的特点,分析中,主要是针对地球化学数据的特点,分析元素的统计规律和元素间的关系,从而研究元素的统计规律和元素间的关系,从而研究其地质成
2、因。主要内容包括分布检验、相其地质成因。主要内容包括分布检验、相关回归分析、因子分析与聚类分析分析等。关回归分析、因子分析与聚类分析分析等。第二页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析选择当前应用工程选择当前应用工程运行数据处理与分析模块运行数据处理与分析模块在在GeoExplGeoExpl和和 GeoMDIS GeoMDIS 多元统计分析均在数据处理分析模块中实现。多元统计分析均在数据处理分析模块中实现。第三页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多
3、元统计分析分布检验:是检验数据是否符合正态分布,分析数据来源是单一母体,分布检验:是检验数据是否符合正态分布,分析数据来源是单一母体,还是多重母体。可获得数据集均值、中位数、标准差、偏度、峰度等参还是多重母体。可获得数据集均值、中位数、标准差、偏度、峰度等参数值。数值。操作操作“分布检验分布检验”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择检验的变量,如选择检验的变量,如 “BaBa”确定数据集是否取对数确定数据集是否取对数确定分组值:起始值、分组间隔、分组确定分组值:起始值、分组间隔、分组数数操作操作“分析计算分析计算”结果显示直方图,和参数结果结果显示直方图,和参数结果 通过调整
4、分组参数或剔除异点设置,可通过调整分组参数或剔除异点设置,可重新计算重新计算操作操作“保存结果保存结果”,可将检验结果保存,可将检验结果保存到文本文件中。到文本文件中。第四页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析因子分析:因子分析:在大多数情况下,许多变量之间存在一定的相关关系,用在大多数情况下,许多变量之间存在一定的相关关系,用在大多数情况下,许多变量之间存在一定的相关关系,用在大多数情况下,许多变量之间存在一定的相关关系,用较少的综合指标分析存在于各变量中的各类信息,这些综合指标即为因较少的综合指标分析存在于各变
5、量中的各类信息,这些综合指标即为因较少的综合指标分析存在于各变量中的各类信息,这些综合指标即为因较少的综合指标分析存在于各变量中的各类信息,这些综合指标即为因子。子。子。子。操作操作“因子分析因子分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”确定坐标项,如,确定坐标项,如,“工作横坐标工作横坐标”,“工作纵坐标工作纵坐标”选择因子分析变量选择因子分析变量给定因子得分结果保存表数据表,如给定因子得分结果保存表数据表,如 “factfact”给定特征值计算结果保存文件给定特征值计算结果保存文件 ,如如 “E:tempE:temp因子分析因子分析.ftr.ftr”操作操作“因子分析因子分析
6、”第五页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析因子分析因子分析确定因子数,根据特征根累计百分比,确定因子数,根据特征根累计百分比,一般在一般在“85%85%”左右对应的因子数,左右对应的因子数,如本例特征根累计百分比对应的如本例特征根累计百分比对应的因子数为因子数为“7 7”,因此,确定因子数为因此,确定因子数为“7 7”操作操作“确定确定”即开始进行因子即开始进行因子分析计算分析计算 计算结束,因子得分和特征值分别保计算结束,因子得分和特征值分别保存在给定的数据表和文本文件中。存在给定的数据表和文本文件中。分析计算
7、结果分析计算结果通过特征值分析因子所代表元素的通过特征值分析因子所代表元素的组合关系和地质解释组合关系和地质解释第六页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析因子分析因子分析特征值数据文件包含:相关矩阵、特征值数据文件包含:相关矩阵、特征向量、初始因子矩阵和旋转因特征向量、初始因子矩阵和旋转因子矩阵子矩阵分析因子组合关系,通常选择旋转因分析因子组合关系,通常选择旋转因子矩阵,子矩阵,根据研究区域的元素分布根据研究区域的元素分布特征和,地质因素综合,确定元素特征和,地质因素综合,确定元素组合因子得分低限值,一般因子得组合
8、因子得分低限值,一般因子得分绝对值分绝对值0.5,0.5,按值的高低排列。按值的高低排列。第七页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析因子分析因子分析因子因子1:F-Sb-As-Ni-Sc-Li-Mn-Pb-N-1:F-Sb-As-Ni-Sc-Li-Mn-Pb-N-Se-ThSe-Th因子因子2:Ba-Ce-La-Ti-Ga2:Ba-Ce-La-Ti-Ga 因子因子3:S-Br3:S-Br 推断解释推断解释利用因子得分表结果,本例中利用因子得分表结果,本例中 “fact_FIfact_FI”-初始因子得分,初始因子得
9、分,“fact_FRfact_FR”-旋转因子得分,制作二旋转因子得分,制作二维因子得分图。维因子得分图。作图方法参照离散数据网格化制作作图方法参照离散数据网格化制作等值区或等值线图等值区或等值线图第八页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心因子分析因子分析因子因子1 1因子因子3 3因子因子2 2第九页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心 应用实例:应用实例:(1)依青海省水系沉积物()依青海省水系沉积物(39元素)、元素)、17个主因子特征及其属性推个主因子特征及其属性推断。断。主要依青海省主要依青海省F1、F2、F5因子对断裂
10、构造(因子对断裂构造(F)、绿岩套()、绿岩套(A)、碱性)、碱性火成岩(火成岩(B)和含碳酸岩建造的地层()和含碳酸岩建造的地层(C)进行推定,并给予图面上的表)进行推定,并给予图面上的表达。达。F1因子正高值域因子正高值域 主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及局部矿化。主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及局部矿化。F2因子正高值域因子正高值域 主要反映省内含基性火成岩主要反映省内含基性火成岩绿岩套或板块缝合带。绿岩套或板块缝合带。F5因子负低值域因子负低值域 主要反映省内含碳酸岩建造和局部碳酸盐化。主要反映省内含碳酸岩建造和局部碳酸盐化。(2)参照了)参
11、照了17元素高信息量分布及其排列趋势对次级断裂做了推定。元素高信息量分布及其排列趋势对次级断裂做了推定。第十页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心第十一页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心地球化学推断地质构造图地球化学推断地质构造图第十二页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析聚类分析:聚类分析:是统计学中研究是统计学中研究是统计学中研究是统计学中研究“物以类聚物以类聚物以类聚物以类聚”问题的一种有效方法,问题的一种有效方法,问题的一种有效方法,问题的
12、一种有效方法,根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。分为分为分为分为R R R R型聚类对研究对象的观察变量进行分类,称为型聚类对研究对象的观察变量进行分类,称为型聚类对研究对象的观察变量进行分类,称为型聚类对研究对象的观察变量进行分类,称为R R R R型聚类和型聚类和型聚类和型聚类和Q Q Q Q型聚类型聚类型聚类型聚类对样本(个案)进行分类对样本(个案)进行分类对样本(个案)进行分类对样本(个案)
13、进行分类.操作操作“聚类分析聚类分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择参与聚类分析的变量选择参与聚类分析的变量确定确定 “R R型分析型分析”或或”Q Q型分析型分析”计算计算选择数据是否需要作对数变换选择数据是否需要作对数变换选择对数据是否需要选择对数据是否需要正则变换、标准化变换或正则变换、标准化变换或不变换不变换选择计算方法选择计算方法相关系数、欧拉距离或相相关系数、欧拉距离或相似系数似系数给定聚类分析结果文件,给定聚类分析结果文件,如如 “E:tempE:temp聚聚类类.clt.clt”操作操作“聚类分析聚类分析”第十三页,讲稿共三十页哦中国地质调查局发展研究中
14、心中国地质调查局发展研究中心聚类分析聚类分析操作操作“聚类图聚类图”,显示聚类图,显示聚类图划分分类相关性聚类限值,如划分分类相关性聚类限值,如0.5,0.5,并并对元素分组对元素分组 如如 :Ag-As-SbAg-As-Sb操作操作“保存图保存图”保存聚类图为图片保存聚类图为图片Q Q型聚类分析,可采用工程中型聚类分析,可采用工程中 “Q Q型聚类型聚类24_3924_39”数据表测试练习数据表测试练习第十四页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析回归分析:是研究变量之间关系的一种统计方法,也就是要建立一个回归分析
15、:是研究变量之间关系的一种统计方法,也就是要建立一个变量和另一个变量或几个变量之间的数据表达式。在实际运用中,回归变量和另一个变量或几个变量之间的数据表达式。在实际运用中,回归分析根据变量的数目划分为二元变量回归和多元变量回归,回归的形式分析根据变量的数目划分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等包括线性回归和非线性回归等。回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决以下几个问题:回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决以下几个问题:a a 确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合适确定几个特定变
16、量之间是否存在相关分析,若存在则要求得它们之间合适的数据表达式;的数据表达式;b b 根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这种根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这种预测可达到的精度;预测可达到的精度;c c 从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些是不显著的。从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些是不显著的。第十五页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多元统计分析多元统计分析多元统计分析多元统计分析回归分析:本系统包括:一元线性回归、多元线性回归、正交回归、回归分析:
17、本系统包括:一元线性回归、多元线性回归、正交回归、逐步回归、岭回归逐步回归、岭回归 一元线性回归分析一元线性回归分析一元线性回归分析一元线性回归分析是在排除其它影响因素或假定其他影响因素确定的条件下,分析某一个因是在排除其它影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。素(自变量)是如何影响另一个事物(因变量)的过程。多元线性回归多元线性回归多元线性回归多元线性回归是一元线性回归的扩展,其基本原理与一元线性回归模型类似,研究是一元线性回归的扩展,其基本原理与一元线性回归模型类似,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量
18、变化关系。在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系。正交化回归分析正交化回归分析正交化回归分析正交化回归分析是在多元回归基础上发展起来的一种多元统计方法。建立回归方程,是在多元回归基础上发展起来的一种多元统计方法。建立回归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影响,得到一组新的正逐次对自变量因子进行正交化变换,排除自变量之间的相互影响,得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选入因子而剔除与因变量相关系交化因子,引入与因变量相关系数大的自变量作为选入因子而剔除与因变量相关系数小的自变量。数小的自变量。岭回归分析岭回归分析岭回归分析岭
19、回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。它与回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。它与回归分析的不同之处是一种线性有偏估计。而我们目前采用的回归分析都是线性无偏估计,当自变量的不同之处是一种线性有偏估计。而我们目前采用的回归分析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回归方程出现病态而不稳定,有时这种干扰因素很小,中存在对因变量有干扰因素时便会导致回归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失败。岭回归分析通过对参数也会导致回归分析失败。岭回归分析通过对参数K K值的选择来改善正规方程组,增强矩阵的值的选
20、择来改善正规方程组,增强矩阵的稳定性,避免病态方程出现。稳定性,避免病态方程出现。第十六页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心回归分析回归分析操作操作“回归分析回归分析”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择计算方法,选择计算方法,一元回归、多元线性回归一元回归、多元线性回归、正交回归、逐步回归或岭回归、正交回归、逐步回归或岭回归 不同计算方法要求不同的模式和参数不同计算方法要求不同的模式和参数选择或输入选择或输入选择因变量选择因变量选择自变量(一个或多个)选择自变量(一个或多个)操作操作“分析计算分析计算”计算结果将显示在文本窗,包括回归计算结
21、果将显示在文本窗,包括回归方程、回归系数和相关参数方程、回归系数和相关参数操作操作“结果另存为结果另存为”将计算结果另存为将计算结果另存为文本文件文本文件第十七页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心回归分析回归分析操作操作“散点图散点图”在图示窗显示在图示窗显示“散点图散点图”选择数据表,如选择数据表,如 “表层湖泊表层湖泊”选择计算方法,选择计算方法,一元回归、多元线性回一元回归、多元线性回归、正交回归、逐步回归或岭回归归、正交回归、逐步回归或岭回归 不同计算方法要求不同的模式和参数选择不同计算方法要求不同的模式和参数选择或输入或输入选择因变量选择因变量选择自
22、变量(一个或多个)选择自变量(一个或多个)操作操作“分析计算分析计算”计算结果将显示在文本窗,包括回归方计算结果将显示在文本窗,包括回归方程、回归系数和相关参数程、回归系数和相关参数操作操作“结果另存为结果另存为”将计算结果另存为将计算结果另存为文本文件文本文件操作操作“散点图散点图”在图示窗显示在图示窗显示“散点图散点图”第十八页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心回归分析回归分析选择选择“正交回归测试正交回归测试”数据作正交回归数据作正交回归操作练习操作练习选择选择“岭回归测试岭回归测试”数据作岭回归操作练数据作岭回归操作练习习 第十九页,讲稿共三十页哦中国
23、地质调查局发展研究中心中国地质调查局发展研究中心分类统计及校正分类统计及校正 按区域(如景观区、构造单按区域(如景观区、构造单元等)对数据进行特征统元等)对数据进行特征统计,并可多分区系统误差计,并可多分区系统误差校正。校正。操作操作“分类统计及校正分类统计及校正”选择数据表,如选择数据表,如 “表层土表层土壤壤”选择分类项与数据项选择分类项与数据项 确定保存统计结构名及剔除确定保存统计结构名及剔除离差系数离差系数 操作操作统计计算统计计算 按照统计结果设置校正系数,按照统计结果设置校正系数,校正结果数据项名校正结果数据项名 操作操作校正计算校正计算注:此功能对数据表需有一项分类项(可注:此功
24、能对数据表需有一项分类项(可以整型数,也可以是字符型),分类项可以整型数,也可以是字符型),分类项可在图形操作中建立。在图形操作中建立。第二十页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析异常下限与特征值异常下限与特征值采用常规处理方法确定数据集的异常采用常规处理方法确定数据集的异常下限,及特征值。下限,及特征值。操作操作“异常下限与特征值异常下限与特征值”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择要分析处理的数据项选择要分析处理的数据项 选择处理方法及相关参数选择处理方法及相关参数操作操作执行处理执行处理 计算结果列于文本框
25、计算结果列于文本框操作操作“保存结果保存结果”将计算结果将计算结果保存于文本文件保存于文本文件第二十一页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析邻域数据分析邻域数据分析基于离散数据,以计算数据点为基于离散数据,以计算数据点为中心,以及外域为背景计算中心,以及外域为背景计算各类参数,如各类参数,如 “衬值异常衬值异常”、“变异系数变异系数”等。等。操作操作“邻域数据分析邻域数据分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择坐标项选择坐标项选择要分析处理的变量选择要分析处理的变量确定单域或双域处理确定单域或双域处理选择处理方
26、法及相关参数选择处理方法及相关参数确定数据搜索方式与范围确定数据搜索方式与范围给定处理结果保存数据表名给定处理结果保存数据表名操作操作数据处理数据处理第二十二页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析多变量叠加分析多变量叠加分析针对数据表,数据项作常数、替换针对数据表,数据项作常数、替换与叠加计算与叠加计算操作操作“多变量叠加分析多变量叠加分析”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择要作处理的数据项选择要作处理的数据项给定替换参数,操作给定替换参数,操作替换替换确定计算常数与方法,操作确定计算常数与方法,操作运运算算给
27、定多变量叠加表达式与新的结果数给定多变量叠加表达式与新的结果数据项,操作据项,操作运算运算 第二十三页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析数据正则化处理数据正则化处理针对数据表,数据项作规一化处理。针对数据表,数据项作规一化处理。操作操作“数据正则化处理数据正则化处理”选择数据表,如选择数据表,如 “表层土壤表层土壤”选择要作处理的数据项选择要作处理的数据项选择处理方法及参数选择处理方法及参数给定处理结果数据项名给定处理结果数据项名操作操作运算运算 第二十四页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常
28、分析异常分析异常分析异常分析网格化数据衬值异常网格化数据衬值异常采用网格化数据计算衬值异常。采用网格化数据计算衬值异常。操作操作“离散数据网格化离散数据网格化”选择数据表选择数据表“表层土壤表层土壤”元素元素“AgAg”操作操作“网格数据圆滑处理网格数据圆滑处理”选择处理方法,及几何参数选择处理方法,及几何参数 结果数据保存于结果数据保存于“AgsAgs”操作操作“网格数据叠置处理网格数据叠置处理”利用叠置处理结果制作衬值异常利用叠置处理结果制作衬值异常图图 第二十五页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心异常分析异常分析异常分析异常分析网格化数据衬值异常网格化数
29、据衬值异常第二十六页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心第二十七页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多变量叠加分析多变量叠加分析针对数据表,数据项作常数、替换与针对数据表,数据项作常数、替换与叠加计算叠加计算操作操作“多变量叠加分析多变量叠加分析”选择数据表选择数据表选择要作处理的数据项选择要作处理的数据项给定替换参数,操作给定替换参数,操作替换替换确定计算常数与方法,操作确定计算常数与方法,操作运算运算给定多变量叠加表达式与新的结果数给定多变量叠加表达式与新的结果数据项,操作据项,操作运算运算 异常分析异常分析异常分析异常分析第二十八页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心多变量叠加分析多变量叠加分析异常分析异常分析异常分析异常分析铬镍钴镁铬镍钴镁/砷砷锑锂硼锑锂硼第二十九页,讲稿共三十页哦中国地质调查局发展研究中心中国地质调查局发展研究中心第三十页,讲稿共三十页哦