地球化学实习指导书.doc-淘文阁

资源描述

《地球化学实习指导书.doc》由会员分享，可在线阅读，更多相关《地球化学实习指导书.doc（31页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、如有侵权，请联系网站删除，仅供学习与交流地球化学实习指导书【精品文档】第 28 页理论地球化学与应用地球化学实习指导书李佑国成都理工大学资源工程教研室目录实习一稀土元素分配型式及地球化学参数的计算 1实习二原生晕垂直分带序列的确定 4实习三用方差分析评价化探数据的质量 6实习四概率分布型式的检验及背景值和异常下限的确定 12实习五趋势分析在地球化学中的应用 16实习六回归分析在地球化学中的应用 20实习七判别分析在地球化学中的应用 23实习八聚类分析在地球化学中的应用 25 附录A 在5%和1%信度下所需相关系数的最低值表 26附录B 正态分布概率函数表 27附录C F检验的

2、临界值（F）表 28实习一稀土元素分配型式及地球化学参数的计算一、基本原理稀土元素通常指的是镧系元素的(La、Ce、Pr、Nd、Pm、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu，其中Pm在自然界无天然同位素)，由于稀土元素的原子结构、原子半径、离子半径（RE3+变化于0.861.14）及化合价的相似性使得它们在自然界往往紧密共生。因镧系收缩造成稀土元素的离子半径从LaLu逐渐增大，Ce和Eu在自然界具有变价（Ce4+、Eu2+）的特征，以及介质（岩石、土壤、矿物等）的不同而引起稀土元素在自然界的分离。为便于研究稀土元素在某介质中的分配型式，必须排除“偶数规则”的影响，最常用

3、的方法是利用球粒陨石丰度值对稀土元素进行标准化。这里向大家推荐W.V.Boynton(1984)提出的球粒陨石丰度值（10-6）：La 0.31；Ce 0.808；Pr 0.122；Nd 0.6；Sm 0.195；Eu 0.0735；Gd 0.259；Tb 0.047；Dy 0.322；Ho 0.0718；Er 0.21；Tm 0.0324；Yb 0.209；Lu 0.0322。 1.计算球粒陨石标准化有关的稀土元素地球化学参数式中RE某稀土元素的丰度；REN某稀土元素轻球粒陨石标准化以后的丰度；RE0某稀土元素的球粒陨石丰度值。式中：铈异常系数； Ce*铈的理想值。铕异常系数；Eu*铕的理想

4、值。分别反映了稀土元素、轻稀土元素和中稀土元素的富集程度和分馏程度。 2.计算稀土元素总量REE代表从La到Lu共14个稀土元素含量的总和。LREE代表La、Ce、Pr、Nd、Sm和Eu六个稀土元素含量的总和（即轻稀土元素总量）。HREE代表从Gd到Lu 8个重稀土元素含量之总和。LREE/HREE代表轻稀土元素总量与重稀土元素总量的比值。 3.估算未测稀土元素的丰度有些测试方法并不能测全所有的稀土元素，如中子活化法通常只能测出La、Ce、Nd、Sm、Eu、Tb、Yb和Lu 8个元素。根据稀土元素往往服从对数正态分布的特点，以及在球粒陨石标准化稀土元素分配图（对数座标）上近于直线分布等规律，

5、可以用下式估算未测稀土元素的丰度：二、步骤 1.输入原始数据设有n个样品，每个样品有m个元素（m=8或m=14），Xij为第i个样品第j个稀土元素，Si为第i个样品的样号。数据输入型式为： 2.调用程序本程序为BASIC语言编写，首先运行QBASICEXE文件，然后利用菜单打开 “REEBAS”文件并运行（RUN）该程序。（1）输入内容 number of the sample (样品数) select the way of inpution 1=8 etements 2=14 elements (选择输入方式：8个元素输1，14个元素则输入2) data filename（输入原始数据文

6、件名） do you print the data y/n（数据是否存盘y/n） input data filename for outpution（输出文件名，不存盘无此项） input the length of the one unit (mm) dx=811, dy=1530）。（图形大小控制参数，两个元素间的间距为dx，每一个对数作图单位间的实际距离为dy毫米） do you write the figure y/n （屏幕图形是否存盘y/n） enter the name of memary image file （输入图形文件名，图形不存盘无此项） do you figure a

7、gain y/n（是否重选制图参数再画图）（2）输出内容：屏幕上输出稀土元素配分型式图（彩色），可以把此图形拷贝到剪贴板上（使用Print Screen键）并粘贴到“画图”程序中供进一步修改。文件输出表1、表2和表3。表1 稀土元素含量表表2 球粒陨石标准化稀土元素丰度表（本表中数据可以提供给Golden Software Grapher，Microsoft Excel等软件，以便画出更美观图形）表3 稀土元素地球化学参数表实习二原生晕垂直分带序列的确定原生晕的垂直分带序列，有时可通过勘探剖面上各元素地球化学异常含量浓集中心，在空间上出现的相对位置的对比粗略地加以确定，有时则需要通过一

8、定的定量计算，才能准确地确定。原生晕垂直分带序列确定的定量计算方法，各学者采用的方法是不同的。本练习主要是学习CB格里戈良根据垂直分带指数计算来确定原生晕垂直分带序列的方法。一、方法与步骤1.对研究的矿区选择一条有代表性的勘探剖面，列出原生晕中各指示元素在不同标高上的含量值，并列出不同标高上各元素的线金属量表。2.对原生晕线金属量原始数据进行标准化转换。其方法是：首先在研究的剖面上找出各元素线金属量的最大值。从各元素最大值中再选出最大值，将其余各元素线金属量乘以10n（n=0，1，2，），使得各元素线金属量最大值属于同一数量级。其目的是使参加计算的各元素线金属量处在同一度量水平上，在计算中

9、起到同等效用的作用。各元素线金属量所乘的最大倍数称为标准化系数，所有线金属量数据乘以标准化系数后即为标准化数据。3.计算分带指数并列出分带指数表找出各元素分带指数的最大值。最大值所在标高的位置，就是该元素在垂直分带中的位置。由此初步确定各元素在该剖面分带序列中的排列顺序。4.计算变异性指数（G）及变异性指数梯度（G）。当同一标高同时出现两个以上元素分带指数最大值时，其在分带序列中的确切位置就要计算分带指数的变异性指数及梯度去进一步确定。变异性指数：某元素在第截面水平上的分带指数；：某元素分带指数的最大值。N：水平截面个数（不包括分带指数最大值所在的截面）。变异性指数梯度（G）G=G上-G下G上

10、：某元素分带指数最大值以上截面的变异性指数值。G下：某元素分带指数最大值以下截面的变异性指数值。当两个以上元素分带指数最大值同位于最上部截面时，可取G上=0；两个以上元素分带指数最大值同位于最下部截面时，可取G下=0。对于两个以上元素分带指数最大值同时出现在同一截面上，则可用G来确定其在分带序列中的相对位置。即G值越大的元素，应越排在分带序列较低的位置；G值越小的元素，应越排在分带序列较高的位置。5.根据以上计算结果，列出完整的原生晕垂直分带序列。二、调用计算机程序并计算 1.输入原始数据设有n个中段，每个中段分析了m个元素，ej代表第j个元素，Si代表第个中段，代表第中段第个元素的线金属量

11、。数据输入型式为： 2.调用程序本程序为BASIC语言编写，首先进入QBASICEXE中，然后调入“YUNBAS”文件并运行（RUN）。（1）输入内容 number of the section（中段数） number of the elements（元素个数） data filename（原始数据文件名） output data filename（输出文件名）（2）输出内容标准化线金属量表分带指数表初步分带序列变异性指数梯度（G）值原生晕垂直分带序列的排序此外，可以运行全中文界面的VB程序（原生晕垂直分带序列的确定）并进行对比。实习三用方差分析评价化探数据的质量一、基本原理数据

12、质量的好坏，直接关系到化探工作是否有效，故数据质量的检验是十分重要的。化探数据的变化受一些因素的影响，如元素的自然变化、采样、重复分析的系统误差、大比例尺化探与小比例尺化探间的系统误差、偶然误差等。方差分析就是对此进行定量评价。（一）两因素方差分析设因素A具有n个不同的水平，如有n个不同的采样点A1，A2An。因素B具有m个不同的水平，如每个采样点重复采样m次或每个样重复分析m次，或有m个单位各分析一次等，即B1，B2Bm。两因素方差分析的数学模型为：Xij=+i+j+ij （i=1,2,n），（j=1,2,m）式中Xij第i个采样点第j次分析结果（或第j次采样）；某元素含量的总平均值（即数学

13、期望值）；i第i个采样点的真值与实测平均值之差； j第j次分析（或第j次采样）间的系统误差；ij第i个采样点第j次分析（或第j次重复采样）的偶然误差。 1.根据数理统计原理，首先计算各离差平方和SS总 SS总称为总离差平方和，其自由度f总 = nm1SSA SSA称为A因素离差平方和（如采样点间的离差平方和，它反映的是元素的自然变化，即与重复采样和样品多次分析无关，其自由度fA = n1SSB SSB称为B因素离差平方和（如多次重复采样的离差平方和或多次重复分析的离差平方和或多个分析单位间离差平方和等，它与采样的具体地点无关）。其自由度 fB=m1SSESSE称为剩余离差平方和（常常反映偶然

14、误差平方和或分析及偶然误差离差平方和，即除A和B两个因素之外的因素）。其自由度 fE = f总fAfB =（n1）（m1） 2.计算样本方差 3.作F检验（1）作统计量F1，F2对于给定信度，设，若表明，说明元素自然变化的方差大于偶然误差的方差（A因素方差大于剩余因素方差），反映了元素的自然变化未被采样分析等偶然误差所掩盖。反之，F1，则数据将无法利用。若即，表明采样或分析间的系统误差并不比偶然误差显著。反之，若则，即系统误差显著。若表明，显示数据质量良好。若表明且，显然系统误差大于偶然误差，数据能否利用，需要进一步计算MSE%。 MSE% =，根据经验表明，MSE% 3，则图件质量可靠。

15、二、方差与步骤（一）两因素方差分析1.将原始数据输入计算机，以每个样品的两次分析结果组成一行，如： X11 X12 X21 X22 Xn1 Xn22.计算调用两因素方差分析程序（如图所示）（1）输入内容样品数；数据列数；原始数据文件名；输出文件名。（2）输出内容SSA、fA、MSA；SSB、fB、MSB；SSE、fE、MSE。F1、F2、MSE%；MSB+E、F1*。用计算结果按下表方式完成两因素方差分析表离差来源离差平方和自由度方差F值F0差异显著性采样点间SSAfAMSAF1查表比较A和E的大小偶然误差SSEfEMSE分析误差SSBfBMSBF2查表比较B和E的大小偶然误差SSEfEM

16、SE MSE%= （二）三因素方差分析1.输入原始数据以一个采样点的四个分析数据为一行。第一个数据为第一次采样的第一次分析结果，第二个为第一次采样的第二次分析结果；第三个为第二次采样的第一次分析结果，第四个为第二采样的第二次分析结果。即按下列形式输入：2.计算调用三因素方差分析程序(其程序界面类似于两因素方差分析程序)（1）输入内容采样点数；采样次数；分析次数；原始数据文件名；输出文件名。（2）输出内容SSA、fA、MSA；SSB、fB、MSB；SSE、fE、MSE。F1、F2、V值；MS1MS2，MS2MS3，MS3。S2、S2 、S2。实习四概率分布型式的检验及背景值和异常下限的确定大

17、多数数理统计方法都要求数据服从正态分布，否则对统计结果就有影响，故计算前需检验数据的分布型式，有的数据不服从正态分布，经过一定的转换后才服从正态分布。本实习用二种方法来检验一概率格纸法和计算法。在此基础上可进一步确定背景值和异常下限。一、基本原理（一）概率格纸法正态概率分布函数为对数正态分布函数将其中x换为lgx，亦用lgx求得，若将此函数在正态概率格纸上作图则为一直线。实际上，由于随机因素的影响，即使母体服从正态分布，由子样数据作出的图也不能保证完全落在一条直线上，这就允许有一定的偏差，据数理统计的理论，偏差的程度可以以 Dn值为界限，Dn取决于信度和样品数N，得到Dn后即可作出累积频率

18、偏离理论直线的临界曲线，若所有点都落在临界曲线范围内，则母体服从正态分布，否则不服从正态分布。在概率格纸上，累积频率50%的横线与作图的理论直线相交点的横坐标上的值即为背景值（C0）、累积频率84.1%或15.9%的横线与理论直线相交点的横坐标与背景值之差的绝对值为标准差（Sx），取C0+2Sx为异常下限。（二）计算法正态母体的概率密度函数为当与一定时，其概率密度曲线也是一定的，为对称的钟形。对其子样的频率密度曲线由于随机因素允许偏差于理论曲线。偏差的程度可由两个统计量来描述：偏度1描述曲线的偏斜程度；峰度2描述曲线的陡缓程度。计算公式为：1、2若小于其临界值则服从正态分布，反之则不服从正

19、态分布。1的临界值为 2，2的临界值为2。若数据服从正态分布，可求出背景值和异常下限。C0为背景值，CA为异常下限，Sx为标准离差。若数据服从对数正态分布，将式中x换成 lgx计算即可，最后再将lgC0、lgCA换算成真数。二、方法与步骤（一）概率格纸法（在计算机上完成）1.将数据适当地分组，统计各组的频数和频率及累积频率。2.用各组的组上限值及累积频率在概率格纸上投点（在Grapher二维图上，将纵坐标取成概率坐标，使用Line or Symbol命令投点或画曲线）。3.绘制理论曲线。首先求出均值和方差，用各组组上限值（Xi），计算：3）据值查标准正态概率分布函数表，得到各Xi点的累积概

20、率F（）。4）据Xi及与之对应的F（）投点到概率格纸上，连接各点即得理论直线（近似理论直线可在第二步的基础之上求得，即以50%累积频率分位数上下点为准关照顾到各点作一直线）。4.计算允许偏差的范围，在理论直线基础上分别加减Dn值，即得上下临界曲线。若实测数据的累积频率点都在两临界曲线范围内，则服从正态分布，否则不服从正态分布。正态概率格纸检验5.求背景值及异常下限若服从正态分布，累积频率50%与理论直线交点所对应的X 值即为背景值，84.1%或15.9%与理论直线的交点所对应的X值与背景值之差的绝对值即为标准差，累积频率97.7%与理论直线交点所对应的X 值即为异常下限。对数正态分布则需先将原

21、始数据转换为对数后按上述步骤进行；然后将和转换为真数。6.数据输入格式如下（在画图时去掉大于等于100和小于等于0的数据）：（二）计算法1.将原始数据输入计算机，给数据取一个文件名，以任意格式将数据存入文件中。2.调用程序本程序为BASIC语言编写，先运行QBASICEXE文件，然后利用菜单打开“NORMALBAS”文件并运行（RUN）之。（1）输入内容number of the sample（样品数）data filename（原始数据文件名）output filename（输出文件名）the data between xmin and xmax（数据介于xmin和xmax之间）input

22、 parameters for figure x0, d and M（输入制图参数x0（分组之起点值），d（分组间距）和M分组个数）each unit=?mm in figure（在直方图上每格打印多少mm）fn between 0 and fmax (fn介于0与fmax之间)，fn divided to kk units one unit=ddy each unit = dy (mm) in figure”（频率fn轴上划分为kk个单位，每个单位的值=ddy，在直方图解上每个单位的长度为dy（毫米）输入kk,ddy和dy。do you write the figure y/n（图象是否写入

23、磁盘y/n）输入图象文件名（图象不记盘则无此项）do you figure again y/n （是否改变制图参数再画图y/n）。（2）输出内容屏幕输出一个统计直方图，直方图下方输出有mean（平均值）和S（标准差），nean和S均为分组计算公式算出（当数据不服从正态分布时，则输出的是已转换为常用对数的结果）。文件输出包括统计参数及分组端点值及频数和频率。其中，R1（0）偏度临界值；R2（0）峰度临界值；R1偏度；R2峰度；mean平均值；variance方差；S标准差；logarithmic meam对数平均值；logarithmic variance 对数方差。belong to

24、the normal distribution服从正态分布；频数；频率；背景值；异常下限。实习五趋势分析在地球化学中的应用化学元素在地壳中分布具有连续性和不均匀性的特点。在化探中应用趋势分析就是为了表现化学元素空间分布的这种特点。一、基本原理（一）多项式函数拟合趋势分析趋势分析是用一定的函数去拟合变量在空间变化趋势的一种统计方法。化探中多用二维的趋势分析即趋势面分析。据元素的分布特点，其含量随地理位置改变而变化。趋势分析时就认为元素的含量（z）是地理坐标（x，y）的函数。即 z=f(x,y) = a0+a1x+a2y+a3x2+a4xy+a5y2+a6x3+a7x2y+a8xy2+a9y3对

25、于K次趋势面分析而言，一共有(k+1)(k+2)/2个待定系数。知道了各采样点相关的坐标和该点的元素含量，就可通过它们，据最小二乘法原理，求出待定系数，从而得到趋势面方程。衡量趋势面方程拟合原始数据的程度，可用趋势面的拟合优度（c）来衡量。为第点的观测值；为第点的趋势面值；为观测值的平均值。Q为残差平方和；U为总离差平方和。值从01间变化，越接近1，表示趋势面拟合程度越好。在化探数据中的每一个观测值中包括三个方面的变化，即区域性变化，局部性变化和随机性变化。趋面应尽量反映区域性变化，而不应该也较多地包含由局部矿化或其它因素引起的局部变化。因此，据经验，对拟合优度一般认为达到4060%就可以了。

26、趋势分析的目的，一方面是求出趋势，另一方面也要找出异常。每个观测值减去其趋势值就得剩余值（）即：。通常，正剩余值（剩余值中的正数部分）中包含随机分量（ Li）和异常分量（Ai），即：+=Li+Ai 。消去随机分量即得异常分量，我们可以把正剩余值的平均值作为随机分量，这样减去该平均值后，具有正异常分量的点即为异常点。（二） Surfer软件在化探中的应用Surfer软件是Golden Software公司的著名软件之一，其原理是利用数学方法在二维平面上合理地内插数据，从而可以得出地球化学指标在空间上的变化趋势，其基本原理在此不作介绍。（三）两窗口移动平均趋势分析两窗口移动平均趋势分析是处理中、小

27、比例尺普查和区域化探数据的一种方法。选择适当面积的大、小窗口对网格化数据进行移动平均处理，使得偶然误差受到大大压抑。大窗口平均值较多地反映区域性的因素，小窗口平均值既包括区域性的因素，也包含局部因素和矿化异常。大窗口移动平均值反映的是元素的背景及其变化，小窗口移动平均值减去大窗口移动平均值代表异常值（反映局部岩性和矿化等地球化学异常因素），从而为找矿指明方向。二、步骤（一）多项式函数拟合趋势面分析1.建立原数据文件设有规则采样网格，为等间距，有p行，m列。则输入格式为：x11x1mx21x2mx31x3mxP1xPm2.调用程序（1）按顺序输入内容为： IC10为标准网，1为不标准网；IC

28、20为等间距，1为不等间距；IPrint0为终端显示，4为记盘 N为样点的总数，即pm=N ；Ip要求计算的趋势面的最低次数；Ip1要求计算的趋势面的最高次数。如果要求计算第5次的趋势面，则Ip=5，Ip1=5 输出结果的文件名，终端显示无此项。制图参数Nx0每行打印的字符数（Nx-1）/Dx0）；Ny0每列打印的字符数（Ny-1）/Dy0）X00、y00制图的起点座标（即屏幕上座标（列，行），如X00=0，y00=0）Dx0、Dy0座标的增量（一个字符的平均宽度与高度，通常为0.25和0.425mm）nn10 （常取20左右）；mm=12 （1.2左右较合适）原始数据文件名数据是否转换

29、为对数：log0为不取对数，1为取常用对数。输入原始数据参数：Nx原始数据的列数，Ny原始数据的行数x0y0起点座标（常为 0，0），DxDy座标增量（常为1，1）。重做标志：Y为重做，N为停止。（2）输出内容趋势面次数，趋势面方程的系数(coeficient of tren equation )拟合统计参数（如拟合度Fitting degree EE等）计算结果数据表x为横座标 y为纵座标 z为观测值 zz为趋势值 Dz为剩余值异常点数 ND异常点数据表：x为横座标、 y为纵座标、YCFL为异常分量（）；趋势图（二） Surfer软件在化探中的应用1.建立数据文件在Surfer软件提

30、供的工作表（Worksheet）中输入数据，数据按地理坐标（经度、纬度、海拔高程或公里坐标、相对坐标等）和地球化学指标建立成至少3列数据。X（点号）Y（线号）Au (ppb)Zn (%)Cu (%)420168010.50.050.0246014403500.250.15数据也可以在Microsoft Excel工作表中复制过来粘贴在Surfer工作表中，文件必须保存为*.dat格式。2.将原始数据网格化将原始数据按一定的规格进行网格化，每一个网格中将保留一个数据，空白的地方采用内插的方法，有多个数据的网格将按规定进行处理。使用Grid菜单下的Data命令（见右图）：选定数据文件名及x、y、z

31、数据的所在列；选择适当的数据范围、网格的大小、网格化方法（常用Kriging方法）、操作方法（常使用缺省设置）、搜索范围（根据数据多少和分布特点而定）以及输出文件名（*.Grd）。3.画等值线图使用Map菜单下的Contour命令，打开*.Grd文件，选择等值线的值、线的类型及线条的粗细，是否充填颜色、线条光滑程度、色标等。4.添加采样点位置、剖面位置等使用Map菜单下的Post命令和Classed Post 命令，打开相应的*.dat文件并选择适当的符号和颜色显示。5.管理图层（Map菜单下的Overlay Maps命令和Edit Overlays命令）增加地形图或地质图图层，请使用File

32、菜单下的Import命令输入相关图形（最好是已经矢量化后的图形）。合并图层：使用Edit菜单下的Select All命令，然后使用Map菜单下的Overlay Maps命令。编辑图层：使用Map菜单下的Edit Overlays命令此外，两窗口移动平均趋势分析也可以通过Surfer软件来完成（通过Grid菜单下Matrix Smooth命令进行大、小窗口移动平均，利用Grid菜单下Math命令求得异常值）。实习六回归分析在地球化学中的应用回归分析是研究随机变量之间相关关系的一种数理统计方法。它能从不存在确定性关系的大量观测数据中建立一个指数和另一个或几个指数之间的定量表达式，找出相关变量之间

33、的内部规律性。一、基本原理设有因变量和自变量，若它们之间存在线性关系式，即有其中，是遵从正态分布N(0,2)的n个相互独立同分布的随机变量(I=1,2,n)。设分别是参数的估计值，则得回归方程其中，为观察值；为回归值；称为残差（也叫剩余）。我们确定b0、b1、bp的原则是根据最小二剩法使残差平方和达到最小，即使为最小，对于给定的n组样品观测数据，上式是b0、b1、bp的二次函数，它是非负的，故有最小值存在；根据微积分极值原理，b0、b1、bp必须满足：利用矩阵与逆矩阵原理求解方程组，便得到参数b0、b1、bp的值。 1. 回归方程和回归系数的显著性检验记称为总离差平方和，其自由度f总=n

34、,显然，可以证明，。记，其自由度，其自由度作统计量，F服从分布。若，则在检验水平下，即认为线性回归方程有显著意义。由，表明，即回归值自然变化的方差大于残差的方差，说明回归效果显著。实际上，对某个因变量有联系的众多自变量中，有的是比较重要的，有的不太重要，在数据处理中，往往要对变量加以选择。多元逐步回归分析服从分布，其中l为最终引入的自变量数。逐步回归分析可自动地挑选变量，以建立最优的回归方程，自动挑选变量是通过选入变量和剔除变量来实现的，其思路如下：1.引入变量现考虑一般的情况，假设已入选了个自变量，现在从待考察的变量的个自变量选变量加入回归方程，设现考察变量，则用的数据与原来建立方程所用数

35、据即的数据，通过最小二乘法求出回归系数，设的回归系数为，通过检验假设是否成立，就可以知道加入后对回归方程有否影响，就可判断是否引入变量。此时需使用统计量F，其求法这里不作介绍，记检验引进变量的F值为。若为据h实际情况给定的一个数值），则不接受，需要引进；反之则不能引进。为一由算出的数，一般地，先计算出所有待考察变量的F值。即，找出其中最大值，若，则引入，以后将剩下的变量再依次计算F值，再选出最大值，判断是否引进自变量，依此类推。若其中最大者都不能选入，则引入变量的步骤中止。2.剔除变量设已入选个变量，现考虑是否应剔除，要检验的假设是需要用统计F*与相对应的F*记为Fi*若（为由求得的一个数，

36、为据实际情况给定的一个数值），则可以剔除。一般地，对求出所有相应的F*值，取其中最小者进行上述比较，不等式成立，则可剔除相应的变量，对剩下的变量继续考虑是否还有可剔除的，依此类推，如不等式不成立，则说明没有可剔除的变量。这样直至既无可进入又无剔除的变量为止，选择自变量的步骤就结束，这样计算出的回归方程就是最优方程。二、步骤1.输入原始数据，设有p个样本，每样本分析了M个元素，若用N个样本建立回归方程，用p-N个样本检验回归的效果而作为未知样本，设为自变量，为因变量，则数据输入形式为：即将用来建立回归方程的N个样本的数据放在前面，把因变量放在最后一列。2.调用程序1）输入内容计算参数 N模型

37、样本个数； M变量（包括因变量）个数； N0预测样本数 IPRINT0为终端显示，4为记盘。输出文件名（终端显示无此项）原始数据文件名 F检验值F1，F2 ；F1为引入变量的F临界值；F2为剔除变量的F临界值。重作标志M1 ；当M1=M时，即第M个变量作因变量，自变量不变。可改变F1，F2重作，当M1=其它自变量号时，表示将此号的变量作为因变量，改变或不变F1，F2进行重作；当M1=0时，表示运算结束。2）输出内容总表头；F1，F2 ；原始数据库；相关矩阵；逐次挑变量计算结果；最优回归结果（回归值，剩余值表，复相关系数，剩余标准差）；预测结果。实习七判别分析在地球化学中的应用一、基本

38、原理判别分析是利用若干变量的一个或多个线性判别函数，根据未知母体中样本的多变量观测值计算这个函数值，将一个个体或一群个体划归为几个已知母体之一的多元统计分析方法，也就是说，判别分析在已知研究对象分类的条件下，确定未知对象属于已知分类中的哪一类。在判别分析中，用p个标志描述的某一对象被看成p维空间的一点或通过p维座标系的原点的一个向量。于是多类不同的对象就被假设为多个p维总体在p维空间的点群。这些点群可能有部分是重叠的。判别分析在方法上是将变量经过线性组合形成新变量（判别函数），其形式为：判别函数的求法类似于回归分析。称为判别系数。有了判别函数，还必须有判别准则才能得到正确的结果。这里有两种不同

39、的判别准则：费歇（Fisher）准则和贝叶斯（Bayes）准则。按照费歇准则，在应用新变量的情况下，各组均值之间的差要最大，同时每组组内离差平方和要最小，即要求组间均值差与组内分差之比要最大。按贝叶斯准则，要求计算出归属于各组的概率值，或计算出判错样本的平均概率的最小值。对一个未知样本判别它的归属时，费歇准则（距离法）是根据这一样本到各类的距离来决定的，离哪一类最近，即归为哪一类，贝叶斯准则是根据这一样本归属到各类的概率来决定的，归到哪一类的概率最大，就归为这一类。检验判别是否有效，可用错判频率来评价，即以各已知样本回判，若错判频率小于20%，就认为有效，也可用F统计量来检验，据数据统计原理，

40、可用马氏距离构成F统计量，该统计量服从自由度p和的F分布，可用作为临界值来检验判别效果。有时，样本的指标（变量）太多，一方面这大大增加了计算量，另一方面，有些变量对建立判别函数相对不太重要。因此，选择变量是必需的。逐步判别分析方法则可根据给定的F1，F2值，自动地选择变量，以达最优结果，选择变量的思想与逐步回归分析相似。这里不再介绍了。二、步骤 1.输入原始数据设有G类，各类有样本分别为，令，并有N0个未知样本待判。每个样本有p个变量，则每个样本的P个数据组成一行，第一类的n1行在前n1行，第二类的n2行在n1+1至n1+n2行，依次类推，直至第G类的nG行在NNG +1至N行，未知样本的N

41、0行放在最后，即N+1至N+N0行，就是以下列形式输入：x1x1Pxn1xn1,pxn1+n2,1xn1+n2,PxNnG+1,1xNnG+1,pxN,1xN,pxN+1,1xN+1,pxN+N0,1xN+N0,p2.调用程序1）输入内容计算参数：N已知样本总数；P变量数；G类数；N0未知样本数；IPRINT输出标志，0为终端显示，1为记盘。各组累积样本数：如，以10个样分两组为例，若15个样为第一类，第二类为610个样本，则分别输入0,5,10。输出文件名（终端显示无此项）；原始数据文件名F检验值F1，F2 ；重选变量标志（Y/N），Y为重选，N为结束。2）输出内容总表头；各组样本累积数，原始数据矩阵；变量的总均值、组均值、组方差。F检验临界值：F=1，F2 ；逐步计算结果：引入（剔除）变量号，F值。最优判别方程：方程各变量的F值，判别方程系数，组间马氏距离的F检验值。已知样本归类表：错判频数，错判概率。未知样本原始数据，未知样本的归类表。实

展开阅读全文