函数型数据异常值检验研究.docx

上传人:安*** 文档编号:17831069 上传时间:2022-05-26 格式:DOCX 页数:12 大小:22.15KB
返回 下载 相关 举报
函数型数据异常值检验研究.docx_第1页
第1页 / 共12页
函数型数据异常值检验研究.docx_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《函数型数据异常值检验研究.docx》由会员分享,可在线阅读,更多相关《函数型数据异常值检验研究.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、函数型数据异常值检验研究(统计与信息论坛杂志)2014年第六期一、函数型数据图形描绘方法综述数据平滑方法是函数型数据图形化描绘的基本工具。对于一组面板数据,当使用数据平滑方法在同一个坐标系内绘出同一个指标不同时间点的拟合曲线,而且这些曲线按照时间顺序以不同的颜色排列,就构成了类似雨后彩虹一样的图形,称这个图形为彩虹图。使用惩罚样条插值法,对年到年间法国特定年龄段男性的死亡率曲线构成的彩虹图数据进行了平滑处理,得到一个形似彩虹的图形。本文采用年的中国上证指数统计数据,使用惩罚样条插值法对每个交易日的收盘价和总的交易金额作彩虹图,从年开场到年月日的数据按照不同颜色顺序排列构成了一组彩虹图。由于年和

2、年中国股市的两次暴涨暴跌,使图形看起来没有构成一个完好的彩虹形状,但色谱同样逐次排列的光滑曲线在时间不断重复的条件下,仍构成了函数型数据的彩虹图见图。同时,还可基于数据深度、数据密度或其他特性顺序作彩虹图。由于曲线在很多取值上重合,很难识别平均曲线的位置或者大多数曲线的下降位置,当异常值被曲线其他特性混淆时例如某一段上的曲线形状与其他部分很不一样则很难识别。对于单变量数据,通常用箱线图来解决上述问题,而本文的目的是以箱线图的形式定义函数型数据的变动,这种箱线图能够给出偏离曲线、一条中心线和一个包含曲线中间部分的区域。图是以上证指数收盘价和成交金额等自然指标进行的排序,这样的排序在函数型数据的分

3、析上缺乏新意,很难从中发现统计规律。在函数型数据研究的文献中,很多研究者采用不同的思路进行数据排序的尝试,如可利用稳健主成分方法计算出每个时间点的主成分得分,并以此排序构成彩虹图。几乎所有针对函数型数据的作图方法都涉及到对函数型数据的排序。图中的数据是基于时间排序,然而对于很多数据集以数据本身潜在的价值来排序,似乎是更好的选择。关于函数型数据的很多排序方法都使用了数据深度或者数据密度的概念,这些方法揭示了给定的函数型数据的观测值及其潜在分布的“深度或“密度的情形。一般情况下,一个深度函数或密度函数的轮廓图能够用来展现多变量数据的能够看得见的形状和构造特征。一函数型数据深度的测度方法等人提出了一

4、种基于函数型深度概念的异常值检测方法,其基本定义为:其中对于给定的值,是对其深度的度量函数。在这个定义下,通过一个不断增加的序列来定义曲线的顺序,因而接近轴的第条曲线的函数型数据深度最小,而最后一条的最大。二二元主成分得分深度的测度对多变量函数型数据进行主成分分析,设为主成分,是对函数型数据进行主成分分解后的主成分得分。原始数据中的大量信息能够由少数的前几个主成分及其得分反映出来。大多数情形下,对于一些经济或自然观察数据而言,少数几个主成分得分往往能够积累超过的方差奉献率,这也正是主成分分析的优点之一。因而,将考虑前两个得分向量,和,并考虑将这两个向量应用到深度函数的方法中,还可将二维平面上的

5、点,看作。还提出了二元得分能够利用半空间位置深度排序的方法,即用,表示,对应于二元数据区域;,。深度函数被定义为:当存在于封闭半平面边界上时,该半平面内全部数据点的最小值能够根据距离,以升序排列,这种顺序下的第一条曲线可以为是平均线,而最后一条曲线是在样本曲线中离中心最远的曲线。三数据密度方法提出的数据密度方法是通过每个观测值上的二元核密度估计值排序。设,是由所有二元主成分得分计算得到的核密度估计值,这样函数型数据就能够根据的值以升序排序。因而,有最高密度的曲线是第一个观测值,而最后一条曲线是最低密度值;第一条曲线被以为是模板曲线这里能够理解为基本的参照曲线,而最后一条曲线被以为是最不同寻常的

6、曲线,实际上也最可能是异常值。应注意到,这种排序下的最后一条曲线取值与其他曲线差异可能不大,其二元得分可以能并不在散点图,的边缘,可能的情形是有一点在散点图内,但该点附近再无其他点,这样该曲线就表现为低密度值。二、函数型数据图形分析的主要方法一彩虹图对于一些不依时间而按其他统计指标排序的数据,基于特定的排序指标或辅助标志可以以用彩虹图来表示,例如上面定义的数据深度或数据密度排序指标,绘图时根据的排序即可选择对应的线条颜色。为验证上述方法,根据国际气象组织公布的厄尔尼诺现象的测量数据进行模拟计算,选择了年月至年月南太平洋赤道附近的厄尔尼诺浮标点南纬度,西经度海平面的月平均温度时间序列数据进行了分

7、析。本文更新了上述数据,采用年月至年月的数据进行了再次模拟,并绘制了一组彩虹图,这些数据没有显著的时间趋势,因而基于时序的彩虹图意义不大。图显示的是基于深度函数和密度函数指标顺序所表示的彩虹图,颜色根据彩虹颜色顺序,最接近中心数据的曲线设为红色,远离中心的设为紫色。根据深度和密度描绘曲线,因而红色曲线是最模糊的,而紫色最清楚,即便曲线部分大多数数据重合。图中横坐标表示数据测量的月度顺序,纵坐标表示海平面的温度;图中黑色实线表示中线,图中黑色实线表示参照曲线。二打包图函数型数据的打包图是建立在二元主成分打包图基础上,并应用前两个主成分得分而得到。图使用了所定义的位置深度函数的概念,这个深度区域是

8、所有的集合,因而深度区域构成一个凸面体,对于任意有。的二元深度中位线被定义为:给定一个独立的,使,到达最小的值,并被定义为最深区域的重心。类似于二维箱线图,二维打包图有一个中心点即中位数、一个内部区域包和一个外部区域,除此之外异常值以个别点显示。包被定义为至少包括总数的观测值的最小深度区域,打包图的外部区域或称“围栏,是包括由显著性水平决定的概率度因子得到的包与中位数有关所组成域内的点组成的凸面体,当时,假设投影的二维得分服从标准正态分布,则该区域允许外部区域的围栏部分包含的观测值;同理,当时,围栏部分包含的数据观测值能够到达;当时,围栏部分包含的数据观测值能够到达。图显示的是关于厄尔尼诺现象

9、数据的描绘图形。在图中,深灰色区域表示的是的包,浅灰色区域显示的是的边界,这些凸面体对应于图中函数型打包图的一样阴影部分。位于围栏区域之外的点一般可视之为异常值,不同颜色的异常值表明右边的个体函数曲线同左边的二元主成分得分相匹配。图中,红色星号表明了二元主成分得分的中位数,图每个平面的黑色实线表明的是中位数曲线,蓝色点线是中位线上对应点的的置信区间,深灰和浅灰域标明了包和边界。红色星号是深度平均数,右面的黑色实线是平均线,上下虚线是对应点的置信区间,而外域之外的曲线用不同颜色标明的是异常值。在厄尔尼诺数据中检测出的异常值出如今年和年。年间厄尔尼诺指数在年月升高较慢,在年月至年间海洋外表温度有一

10、个极不正常的升高;年间厄尔尼诺指数也不正常,尤其是在月和月。国际气象组织和有关国家公布的资料表明,年月至年月的现象是几个世纪来最严重的一次,太平洋东部至中部水面温度比正常高出约,造成了全世界人丧生,经济损失近百亿美元。年月在丹麦举行的哥本哈根联合国气候变化大会上,年便被定为厄尔尼诺年。当异常值远离平均数时函数型打包图可能是一种较好的异常值检测方法,然而当异常值接近于平均数时,这种深度测量异常值的方法可能误判异值,在这种情况下函数型箱线图则更适用。三箱线图箱线图即高密度区域箱线图,是最先提出并进行实证分析的。函数型箱线图是建立在二维箱线图基础上的,由前两个主成分得分并进行分析后绘制。二维箱线图是

11、由一个二维核密度估计构造,定义如下:区域,在这个区域内所有点要比区域外任何点有更高的密度估计,因而能够把这个区域命名为“高密度区域。对于二维密度估计,可看作是一种类似地理学上的等高线,随着的减小,区域中包含的范围在不断扩大。二维箱线图表示的是众数,被定义为,即核心部分包含和外层包含的点的最高密度区域,分布在区域之外的点即可视为异常值。函数型箱线图是一个由前两个稳健主成分得分的二元箱线图到函数的映射,包括参照曲线有最高密度的曲线、内部和外部区域。内部区域是由二元内的点所构成的曲线而组成的域,因而有的曲线在内部区域。类似地,外部区域被定义为外围二元图上的点所构成的曲线而组成的区域见图。图显示了用厄

12、尔尼诺统计数据进行实证分析的例子。在图中,深灰色和浅灰色区域分别表示的内部区域和的外部区域,直接对应于图中函数型箱线图中的同色阴影区域,而外部区域之外的点被以为是异常值,不同颜色的异常值与图中个体曲线颜色及图中二维得分相对应。图中的红色圆点表示二元主成分得分的众数,对应于图平面图中的黑色实线。从图不难看出,年和年作为异常值被排除在外部区域之外,能够显著地定义为异常值,这个结论和前文的讨论是一致的,符合实际情况。包括打包图和箱线图在内的任何一种异常值检测方法,都需要提早确定外部区域的覆盖率。在的概率保证程度下,厄尔尼诺数据集中检测出的异常值出如今年。假如假定厄尔尼诺数据中的覆盖率分别为和,那么在

13、每个例子中检测出的异常值将同打包图得到的结果相对应,这表明相对于其他数据,这些异常值有不同的数量大小和分布形状。三、借助图形分析方法进行异常值检测在函数型数据分析中,一般利用函数型数据打包图和函数型深度方法即可完成异常值的检测。一函数型深度方法提出了一个对每一条曲线计算其似然比检验统计量的异常值检测方法。假如检验统计量的最大值比给定的置信值大很多,那么能够断定该数据点为异常值。去掉该点,对余下的数据用该方法继续检测其他异常值,一直重复这个经过,直到不再有其他异常值出现。这种检测方法是建立在式给定的函数型数据的深度测量基础上,故对形状异常值并不敏感。二误差平方积分方法等人提出了一种基于稳健型函数

14、主成分分析的异常值检测方法。设对每一个随机观测样本点的误差平方项积分如下:三稳健的马氏距离方法稳健的马氏距离方法是公认的能够用在离散型曲线;,上的一种多元异常值检测方法。假定在一样的空间密度坐标,上观测到函数型数据,那么平方的稳健的马氏距离能够定义如下:四、异常值检测方法的实证分析根据上述讨论,针对函数型数据的异常值数据,再次采用公开的厄尔尼诺现象在年月到年月的同步统计数据进行实证分析图。一正态分布假定下的异常值检测由图能够直观地看出,在年的个年度数据中,除了月份以外,其他月份的箱线图都有异常值出现,而且这些异常值主要集中在年和年两个厄尔尼诺现象严重的年份,这与前文所述的情形基本类似。为了进一

15、步比拟本文所述的异常值检测方法,对于同一组数据,首先使用传统的异常值检测方法进行初步分析,即考虑大样本情形下以均值为核心构建一个半径为的置信区间,假如数据溢出这个区间,则断定为异常值,结果见表。二函数型数据异常值检测对于厄尔尼诺数据,同样利用前文涉及到的三种方法和箱线图与打包图进行异常值检测。语言程序准确地记录到了每种方法的计算时间,考虑到全部计算程序在同一台计算机上完成,硬件的影响能够忽略不计。比拟一种异常值检测方法的优劣,主要考察该方法的准确度和计算速度。以传统的箱线图方法为基准计算出的异常值检出率,即检测出的异常点占全部异常点的比例,除了函数型深度方法以外其他方法的检出率均为。检测方法的

16、响应速度则直接采用统计软件显示的有效计算时间,计量单位是秒。计算表明,图形方法是异常值检测的较好方法,不但保持了较高的检出率,而且计算时间也较短,比拟合适大数据场合下持续进行的计算和分析,其中打包图比箱线图的计算效率更优。假如考虑到将来在线大数据的计算,动态的函数型箱线图和打包图都是一种较好的选择方法,甚至可考虑生成类似股价图一类的动态图示方法,进而及时地检出异常值,排除异常原因,最终保证数据经过的正常运行见表。五、结论与进展本文针对函数型数据的可视化分析,提出了三种描绘工具和三种识别函数型数据异常值的方法。在所熟悉的二维空间中,对主成分得分根据数据深度和数据密度排列后,异常值和正常点自然就分

17、开了。本文所提及的方法,其优点是能够对复杂的函数型数据进行快速分析,并通过图形直观地表示出来,有利于批量地处理大数据,也有利于在更广义的领域推广使用,有较高的应用价值。根据笔者对更新的厄尔尼诺统计数据的实证研究,所介绍的三种异常值检验方法,无论是检测速度、效率和直观性还是检测的精度,都比以往的传统方法更优。国外最近文献显示,在复杂数据背景下无论是自然科学还是社会科学,都对函数型数据的方法开展了研究,其研究主要包括三方面的进展:一是对传统主成分分析方法的扩展和进一步探索,主要目的是针对函数型数据的降维分析,在尽可能保持数据信息的前提下,降低数据的复杂性,以保留最多的因子奉献及方差奉献;二是探索更多的检测异常值的方法,以的深度函数和密度函数为基础,逐步发展了一些快速捕捉数据特性和检测函数型数据中异常点的方法,能辅助计算方法的改良,以替代传统的异常点检测方法;三是发展以稳健方法为主要趋势的基本统计方法,以函数型数据的众数和中位数为参照,对各类数据集进行排序和分割,以得到更直观有效的结果。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 考试试题 > 升学试题

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁