《统计基础3.pdf》由会员分享,可在线阅读,更多相关《统计基础3.pdf(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章统计数据的预处理第三章统计数据的预处理 异常数据 异常数据 缺失数据 缺失数据数据预处理?把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来,有助于推断统计得出正确分析结论。1:异常数据取舍2:未检出值和/或缺失值估算?采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视。一、异常数据?单个异常值:是指单个样本观测数据组内隐含的个别异常数据。同义词有:可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值?异常均数:三个以上(k3)样本多均数要作统计分析比较时,无疑也要检查其中是否隐含可疑均数。?研究者对7例糖尿病患者给某种药物后,测量
2、其血中胰岛素(/ml,X1)和血糖(mg%,X2)?作者采用直线相关分析?结论:血液中胰岛素与血糖两者含量之间无直线相关患者编号1234567胰岛素(X1)241718121512110血 糖(X2)1421701942132142382490.05P,3140.0=Correlations1.314.49377.3141.49377Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N胰岛素x1血 糖x2胰岛素x1血 糖x2Correlations1-.936*.00666-.936*1.00666Pearso
3、n CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N胰岛素xa血 糖xb胰岛素xa血 糖xbCorrelation is significant at the 0.01 level(2il d)*.?剔出第6对数据前后的Pearson 相关系数,前者是0.314,后者是-0.936,显示有相关性!异常数据的判别法?物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除?统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于
4、随机误差范围,将其视为异常数据剔除?能用物理判别法判定异常数据有时不易做到,此时只能用统计判别法统计判别法?拉依达准则?肖维勒准则?格拉布斯准则?狄克逊准则?t检验(罗马诺夫斯基准则)?极差法统计判断对异常数据的区分?异常数据有两种情况:?1.异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;?2.异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3的数据,出现的概率很小。?犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。-去真?犯错误2:不属于该总体但数值又和该总体平均值接近的数据被抽样
5、抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。-存伪统计判别法之一:拉依达准则003.0)3(uxp 如果实验数据的总体x是服从正态分布的,则 根据上式对于大于+3或小于-3的实验数据作为异常数据,予以剔除。剔除后,对余下的各测量值重新计算偏差和标准偏差,并继续审查,直到各个偏差均小于3为止。无需查表,使用简便对某一长度对某一长度L测量测量10次,其数据如下:次,其数据如下:试用拉依达准则剔除坏值。试用拉依达准则剔除坏值。解:解:cm.)L(Lii1631101012=cm48.9316.33=LLLi=10 34113320.=48.9399.8=20.33用拉依达准则剔除用拉
6、依达准则剔除次数1234567891011L(cm)10.3510.3810.310.3210.3510.3310.3710.3110.3420.3310.37?对于服从正态分布的测量结果,其偏差出现在3附近的概率已经很小,如果测量次数不多,偏差超过3几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。?另外,仅仅根据少量的测量值来计算,这本身就存在不小的误差。?因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时,n必须大于10)统计判别法之二:肖维勒准则?肖维勒准则又称为等概率原则,以正态分布为前提,假设多次重复测量所得n个测量值中,某个测量值的残余误差|vi
7、|=Zc,则剔除此数据。?实用中Zc3,所以在一定程度上弥补了3准则的不足,另外考虑了测量次数的因素,在一定程度上比拉依达准则更合理。?Zc是一个与测量次数相关的系数,可以查表获取。?肖维勒准则可用于n T,则判断此值中含有粗大误差,应予剔除。?T值与重复测量次数n和置信概率均有关,因此格拉布斯准则是比较好的判定准则。?格拉布斯准则理论较严密,概率意义明确,可用于严格要求的场合,当n=20-100时,判别效果较好。?T值通过查表获得。X-XnT T0 0(n,(n,)值表)值表?采用格拉布斯方法判定异常数据的过程如下:?1.选定危险率?是一个较小的百分数,例如1%,2.5%,5%,它是采用格拉
8、布斯方法判定异常数据出现误判的几率。?2.计算T值?如果x(n)是可疑数据,则令?xxTn=)(?3.根据n及,查表得到T0(n,)值?4.如果T T0(n,),则所怀疑的数据是异常数据,应予剔除。如果T0(n,),则所怀疑的数据不是异常数据,不能剔除。?5.余下数据重复操作至无异常数据?格拉布斯准则可以检验较少的数据狄克逊准则?亦称Q检验法,狄克逊准则是通过极差比判定和剔除异常数据。?该准则认为异常数据应该是最大数据和最小数据,因此该其基本方法是将数据按大小排队,检验最大数据和最小数据是否异常数据。?将实验数据xi按值的大小排成顺序统计量?x(1)x(2)x(3),x(n)?计算f0值?或?
9、根据狄克逊系数表将f0与f(n,)进行比较?如果f0 f(n,),说明x(n)离群远,则判定该数据为异常数据,予以剔除。110 xxxxfnnn=112xxxxn狄克逊系数f(n,a)与f0的计算公式t检验准则(罗马诺夫斯基准则)t检验准则与狄克逊准则相似,也是检验最大实验数据和最小实验数据。首先将实验数据按大小排列x(1)x(2)x(3),x(n)对最小数据和最大数据分别进行检验,如果或则x(1)或x(n)是异常数据,应予剔除式中及分别为不包括x(1)或x(n)的n-1个数据的均值和标准差。),()1(nKxx),()(nKxxnxt检验中的K(n,)应注意的问题:应注意的问题:?所有的检验
10、法都是人为主观拟定的,至今无统一的规定。以数据按正态分布为前提的,当偏离正态分布和测量次数少时检验不一定可靠。?若有多个可疑数据同时超过检验所定置信区间,应逐个剔除,重新计算,再行判别。若有两个相同数据超出范围时,应逐个剔除。?在一组测量数据中,可疑数据应很少。反之,说明系统工作不正常。?为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值?拉依达准则不能检验样本量较小的情况,格拉布斯准则则可以检验较少的数据。在国际上,常推荐格拉布斯准则和狄克逊准则。?但对于异常数据一定要慎重,不能任意的抛弃和修改。往往通过对异常数据的观察,可以发现引起系统误
11、差的原因,进而改进过程和试验。SPSS实现?研究者对7例糖尿病患者给某种药物后,测量其血中胰岛素(/ml,X1)和血糖(mg%,X2)?作者采用直线相关分析?结论:血液中胰岛素与血糖两者含量之间无直线相关患者编号1234567胰岛素(X1)241718121512110血 糖(X2)1421701942132142382490.05P,3140.0=SPSS实现?本例为小样本,单击Analyze,后单击Descriptive statistics选择 Explore主对话框中,再单击Plots选项进入 Explore:Plots 对话框:在Boxplots项下点选Dependents Toge
12、ther,在Descriptive项下勾选?Stem-and-leaf,其余各项可以不要勾选和点选;单击Continue返回Explore对话框,单击OK,SPSS 运行、输出结果Frequency Stem&Leaf2.00 1.03.00 1.781.00 2.41.00 Extremes(=121)Stem width:10Each leaf:1 case(s)胰岛素检出离群值胰岛素检出离群值121?叶茎图和箱须图提示有极端值(121)二、缺失数据的处理缺失数据在实践工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数据原因:?信息暂时无法获取?信息是被遗漏
13、的?某个或某些属性是不可用的?某些信息(被认为)是不重要的?获取这些信息的代价太大?系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策数据缺失的机制?将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量,Little 和 Rubin定义了以下三种不同的数据缺失机制:?1)完全随机缺失:数据的缺失与不完全变量以及完全变量都是无关的。?2)随机缺失:数据的缺失仅仅依赖于完全变量。?3)非随机、不可忽略缺失:不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。缺失数据预处理思想1.保留缺失数据不予处理:保留缺失数据不予处理:不对缺失数据做任何
14、处理2.直接丢弃含缺失数据的记录,也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表3.特殊值填充:将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离,不推荐!4.可能值插补缺失值A.用平均值来代替所有缺失数据B.K-最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。C.用回归、贝叶斯形式化方法或判定树归纳确定,这些方法直接处理的是模型参数的估计而不是空缺值预测本身与前面的方法相比,它使用现存数据的多数信息来推测空缺值个
15、案剔除法(Listwise Deletion)?最常见、最简单的处理缺失数据的方法,也是很多统计软件(如SPSS)默认的缺失值处理方法。?如果缺失值所占比例比较小,这一方法十分有效。至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。?这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。单一插补?单一插补是以估算为基础的方法,是在缺失数据被替代后,对新合成的数据进行
16、相应的统计分析。1:均值插补2:热卡填充发法热卡填充发法3:回归插补4:回归随机插补均值插补(Mean Imputation)?缺失值是数值型的:平均值来填充该缺失的变量值?缺失值是非数值型的,众数来补齐该缺失的变量值。?均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。热卡填充法(Hotdecking)?在数据库中找到一个与最相似的对象,然后用这个相似对象的值来进行填充。?不同的问题可能会选用不同的标准来对相似进行判定。?变量Y与变量X相似,把所
17、有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。?与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。回归插补(Regression Imputation)?回归插补首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。?该方法也有诸多弊端,第一,容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。第二,研究者必须假
18、设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。随机回归插补?该方法就是在回归插补值的基础上再加上残差项。?残差项的分布可以包括正态分布,也可以是其他的非正态分布。单一插补法优缺点?单一插补法改变了传统方法将缺失值忽略不考虑的习惯,使得各种统计分析均可以在插补后的完整数据集上展开。?但单一插补法的缺点也是显而易见的:无论采用何种方法,都存在扭曲样本分布的问题(如均值插补会降低变量之间的相关关系,回归插补则会人为地加大变量之间的相关关系),尽管由于随机回归插补引入随机误差项,能够缓解这一问题,但是随机误差项的确定是比较困难的。(五)多重插补方法(Multiple Imp
19、utation)?多重插补建立在贝叶斯理论基础之上,基于EM算法(最大期望算法)来实现对缺失数据的处理。?分为三个步骤:为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。每个插补数据集合都用针对完整数据集的统计方法进行统计分析。对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。多重插补法的出现,弥补了单一插补法的缺陷。?第一,多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。?第二,多重插补通过模拟缺失
20、数据的分布,较好地保持变量之间的关系。?第三,多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足(1)贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误结论,即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布对结果的影响不大。(2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相
21、互关系。SPSS实现?1、listwise deletion法在SPSS 的统计分析程序中,打开options 按钮,便会出现缺失值的处理栏(missing values),可分别选择下列选项:exclude cases analysis by analysis(剔除正在分析的变量中带缺失值的观察单位);exclude case list wise(剔除所有分析变量中带缺失值的观察单位)SPSS实现?2、如果遇到的缺失值形式是完全随机变量,在样本容量不大的情况下,可采用填补的方法(imputation)。?点击“transform,此菜单下的“replace missing values”列出
22、了5 种替代的方法?通常可填上平均值,或者回归的预测值,这两种方法都有缺点,对最终数据结果影响较大?SPSS有个Missing data analysis栏目,增加了EM(expectation and maximization)填补。?它的方法是把有同样缺失的样本放在同一组,计算它的协方差矩阵(covariance matrix),然后再根据每组的样本数来校正它对整个样本的权重(weight),从这里再重新填补每个缺失值,这重方法算是现在比较精确的缺失值填补的方法。总之,缺失值处理方法的选用取决于缺失值的形式、缺失样本总样本的比例等具体情况而定,最终的衡量标准要保证最终数据的客观性与准确性。Thank you for your attention