2022年传感器异常数据处理.docx

上传人:H****o 文档编号:12817548 上传时间:2022-04-26 格式:DOCX 页数:19 大小:64.46KB
返回 下载 相关 举报
2022年传感器异常数据处理.docx_第1页
第1页 / 共19页
2022年传感器异常数据处理.docx_第2页
第2页 / 共19页
点击查看更多>>
资源描述

《2022年传感器异常数据处理.docx》由会员分享,可在线阅读,更多相关《2022年传感器异常数据处理.docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精品学习资源反常数据处理方法争论1 反常数据处理概述1.1 争论背景近年来,随着海上风力发电技术的日益成熟和陆上风电可开发资源的不断减 少,海上风电特殊是近海风电的开发开头加速; 风机是海上风电开发的主要形式, 而风机基础结构承担着抗击海上风机结构的竖向、水平荷载和倾覆力矩的作用, 其质量关系到海上风机结构的运行安全; 作为隐匿工程, 其健康状况受到了社会各界的高度重视,如何对风机基础特殊是MW 级风机基础的安全运行状况监测成为争论领域的热点; 现有的监测技术需要通过设置在风机基础中的数据采集系统自动猎取基础的各状态的大量参数,如应力、应变、振动、变形等,采集到的 海量原始数据通过通信网络传输

2、到监控中心, 经过数据储备, 分析处理得到基础的安全运行状况和修理决策等结论;风机基础监测系统是集结构监测、 系统识别及结构评估于一体的综合监测系统,其内容包括几何变形监测、结构响应应力、应变及振动监测等;监测系 统的质量主要取决于三方面因素: 1传感器的灵敏性和精度以及数据传输和采集设备的性能; 2测点的空间分布,即传感器的最优布置问题;3反常数据的分析处理;从目前电子技术的进展来看, 成熟、稳固、高性能的传感器已经被应用与监测系统中, 而且合理支配传感器位置, 以到达信息采集的最优化, 也已经有很多争论成果;但由于监测信息格式复杂、信息量大,每天数据量甚至能到达十几 GB,假如不能有效地对

3、这些数据进行处理,很多反常数据将不能有效辨识,缺失信息将不能有效补偿, 而且监测数据的分析必需建立在精确有效的监测数据之上,低精度和反常的监测数据常常影响数值分析的结果,会影响到系统的功能与特性分析, 给后续数据处理带来很大的误差, 正常信息不能得到有效利用, 故有必要对原始采集数据进行处理; 因此监测反常数据处理是三方面中至关重要的一点;监测系统反常数据处理包含两个方面的内容:1反常数据检测,即找出反常信息并确定反常信息所在位置, 依据需要将反常数据储存入特地数据库中或直接进行剔除; 2反常数据修正,即通过插值等方法,参考数据反常点前后的数据,完成该反常数据点的修正, 确保采集信息不缺失,

4、保持原始采集数据的连续性;反常是一个复杂的概念,迄今为止仍没有一个统肯定义;Hawkins 提出的异常定义被大多数人所接受, 其定义为: 反常是在数据集中与众不同的数据, 使人们疑心这些数据并非随机产生的, 而是产生于完全不同的机制; 反常数据往往代欢迎下载精品学习资源表一种偏差或者新模式的开头, 因此对反常数据的识别有时会比正常数据更有价值;传感器反常数据是指在数据集中与大部分数据不一样或者偏离正常行为模式 的数据;反常数据的产生主要是由于以下几种情形而发生的:1数据来源中的反常,这类反常中可能隐匿着重要的学问或规律; 对这类反常分析可以猎取常规数据不能得到的新的信息,如基础结构损坏等;2

5、数据固有变化反常,这类反常通常是自然发生的,如风速的变化、波浪波动等;3数据测量误差,这类反常的产生往往是由于测量仪器故障或者网络传输错误,以及噪音的存在引起的, 这类反常通常作为噪声而被删除;与其他工程相比, 风机基础安全状况监测进展较为滞后,尚未发觉关于风机基础监测数据处理的相关争论成果, 其监测反常数据的处理缺乏相应的体会; 可以借鉴类似工程监测数据处理的方法进行争论;而针对监测数据的种类多、 数据海量、频幅分布广等特点, 国内学者已经争论了很多处理方法; 其中争论较多的如小波分析、数据挖掘、数据流理论等;然而,目前的类似工程监测数据处理的方法主要是在离线数据的基础上,在实时监控上仍缺乏

6、相应的精确率和智能化;结合风机基础特点, 查找一种有效的适用于风机基础监测实时数据处理的方法具有特别重要的争论意义和有用价值;1.2 国内外争论现状综述在国外,争论人员通过对反常挖掘的深化争论,依据对反常存在形式的不同假设,提出了很多反常数据检测算法; 早期的反常数据检测方法是基于统计的方法,这种方法依靠于数据集听从某种标准分布, 所以反常数据是基于概率分布来定义的,如 Yamanishi 等人将正常行为用一个高斯混合模型来进行描述,通过运算数据对象与这个模型的偏离程度来发觉反常;虽然这种基于标准分布的模型, 能识别反常现象, 但此类方法有很大的局限性, 由于往往无法预知数据集是听从哪类标准分

7、布;为了克服这种缺陷, 、Daniel B. 等在概率论 H 假设检验方法的理论基础上, 提出了一种基于某置信度区间标准的反常检测方法,到达这个标准的就为正常数据,反之就为反常;Knorr 等人于 1998 年提出了基于距离的反常数据检测算法,他们认为数据是高维空间中的点, 反常数据被定义为数据集中与大多数点之间的距离大于某个事先设定的阈值的数据; 和等学者针对基于距离的反常数据挖掘算法在高维数据中运算时间较长的缺点,将图论中的连通性原理引入到数据之间距离的运算上, 极大地降低了运算时间复杂度;Arning 等人提出了基于偏离的方法, 这种方法认为: 某个数据对象在数据集中的特点明显“偏离”数

8、据集中的其它数据时,这样的数据被认为是反常数据;Birant D 等提出了一种任意外形的聚类算法并将其应用于反常挖掘中,该算法可以依据数据的非空间属性、空间属性和时态属性来发觉聚类簇和反常数据对象;欢迎下载精品学习资源Breuning 等学者定义了局部反常因子的概念,提出了一种基于密度的局部反常点挖掘算法,它是用局部反常因子LOFLocal Outlier Factor表征数据对象与它的邻居对象的偏离程度,LOF 越大就认为该点是反常数据的可能性越大;ToWel 等人在分析神经网络的基础上, 依据神经网络的理论提出了基于神经网络的反常数据挖掘算法;最近提出的比较流行的反常数据挖掘算法是基于核的

9、分类方法,主要思想是将输入的数据通过关系函数映射到一个高维特点空间,通过高维空间的分类超平面,就可以建立一个简洁的分类模型,从而区分正常或反常数据;国内对反常数据挖掘的争论起步较晚, 但是近年来在理论争论方面已经取得了很多争论成果; 林士敏对基于距离的反常数据挖掘算法作了改良,提出了基于抽样的近似检测算法;金义富等在Knorr 观点的基础上,提出了一种反常约简算法 ORDA,该算法以粗糙集理论的属性约简技术为基础,提出了反常数据划分和反常约简思想, 以及反常数据关键属性域子空间的分析方法, 这种方法可以对挖掘出的反常数据进行有效的分析和说明; 重庆高校的邓玉洁, 朱庆生提出了基于聚类的反常数据

10、挖掘方法, 该方法将离群数据在分类争论的基础上, 定义了平凡离群数据、 非平凡离群数据以及噪声数据, 然后引入离群属性和离群聚类簇的概念, 在此基础上, 以现有的反常数据挖掘技术为基础, 实现了离群数据的发觉;田江在一类支持向量机的基础上,设计了一种“孤立点类支持向量机” 算法,该算法是一种无监督的反常数据检测算法,通过设定不同的权值, 将基于超平面距离定义的反常数据的反常程度和基于概率大小定义的反常程度相结合, 通过在特点空间划分距离可疑反常数据的最大间隔超平面来发觉反常;综上所述, 国内外针对反常数据产生的缘由以及应用领域的不同提出了很多反常数据检测算法; 大量争论发觉, 基于密度的局部反

11、常数据挖掘算法能够发觉其它的反常数据挖掘算法不能发觉的反常, 即“局部”反常,它更加符合 Hawkins 对反常数据的定义; Breunig 等人提出了局部反常因子 Local Outlier Factor,LOF 的概念,通过它来表征一个数据对象的局部反常程度,LOF 算法显现后,显现了很多局部反常程度的度量算法; 这些算法适用于静态环境下的数据库,但在工程应用领域, 大部分数据库中的数据是随时间动态增加的, 新增加的数据可能会影响某些对象的局部反常程度, 因此在二次挖掘时, 需重新运算全部数据对象的局部反常因子, 运算时间复杂度较高, 所以这些算法在动态环境中不易实现; 因此,如何在动态环

12、境中提高基于密度的反常数据挖掘算法的时间效率防止大量的重复运算显得尤为重要;1.3 争论目的和意义本项争论的目的在于结合风机基础特点,在传统反常数据处理方法基础上, 争论一种有效的适用于风机基础监测实时数据处理的方法,该方法能够在线辨识欢迎下载精品学习资源反常监测数据并储存,且能够自动修复原数据集,保持器连续性;本争论的意义在于:(1) 实现反常数据在线检测与修正;目前的监测数据处理方法主要是在离线 数据的基础上, 在实时监控上仍缺乏相应的精确率和智能化; 本争论实现了反常数据在线检测与修正, 与传统的反常数据识别方法相比, 具有更快的运算时间和更高的复原精度,能够满意数据的在线反常检测与修刚

13、要求(2) 实时发觉反常状况并实行必要处理措施;对于实时检测出的反常数据进行分析, 查找反常大事缘由, 并依据产生缘由实行应有的处理方式; 对于传感器故障或执行错误导致数据反常情形, 应进行剔除处理; 有些反常数据是数据变异产生的结果, 如对于基础结构监测, 发生反常工况或结构损坏在一段时间往往会显现前兆,导致数据反常,假如能够准时捕获到反常状况的发生并实行相应措施, 就能防患于未然,保证结构安全;(3) 提高和完善监测结果精确性,为后续争论奠定基础;监测结果的精确性建立在高质量的监测数据之上, 假如不能有效地辨识与处理反常数据,低精度和反常的监测数据混入正常数据集中, 会对监测系统的功能与特

14、性分析产生重大影响,给后续数据处理带来很大的误差, 正常数据信息不能有效用于后续的相关争论,利用数据争论得到的结论与实际可能存在较大误差;主要争论内容本争论主要包括以下3 部分内容:(1) 对常用反常数据检测与修正方法简要介绍,介绍了常用的数据预处理技术及反常数据检测问题的重要特点,对常用反常数据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景;(2) 几种典型改良算法及其工程应用实例进行分析,;(3) 风机基础监测反常数据的检测和修正;2 反常数据检测与修正方法反常数据检测问题通常包括四个过程:第一是数据的预处理, 即通过数字滤波方法去除一些干扰; 其次是反常数据的定义, 即

15、在数据集中表现出怎样的行为或者模式的数据称为反常数据;第三是挑选合适的能够有效发觉反常数据的算法,反常数据表现行为不同, 反常数据挖掘算法结果也会有所差异; 第四是反常数据的修正, 即通过反常挖掘将反常数据挖掘出来后, 对这部分数据依据原有模式规章进行修正, 确保采集信息不缺失, 保持采集数据时间序列上的连续性;本章介绍了常用的数据预处理技术及反常数据检测问题的重要特点,对常用反常数据检测及修正算法进行了描述和争论,分析了各种算法的优缺点和适用场景;数据预处理技术数据是通过各种类型的监测传感器猎取的, 数据是一种通过间接方法取得事欢迎下载精品学习资源物状态的技术, 如将结构相应等参数通过肯定的

16、转换技术转变为电信号,然后再将电信号转换为数字化的数据; 由于传感器安装环境的不稳固和数据转换过程掺杂少量的噪声数据等各方面因素的影响, 得到的数据会受到肯定干扰, 影响了最终数据的精确性; 为了减小噪声对数据结果的影响, 除了采纳更加科学的采样技术外,仍需要采纳一些必要的技术手段对原始数据进行整理、统计, 数字滤波技术是最基本的处理方法,它可以消弱数据中的噪声,提高数据的代表性;均值滤波是最常用的数字滤波方法, 是对采样序列中的数据求和后, 再取其平均值作为结果; 虽然这种方法可以到达滤波的目的, 但是假如采样数据中的噪声数据过大或过小, 都会对处理结果产生影响; 中值滤波是对采样序列按大小

17、排序形成有序列,取有序列的中间值作为结果;排序算法一般采纳“冒泡排序法” 或“快速排序法”等;众数是数理统计中常用的一种数据处理方法,它要求对大 量的数据进行处理,众数滤波的原理是在采样序列中找出最大值Tmax 和最小值Tmin,再在区间上平均分为 m 组5-10 组,确定完分组后,对序列统计各组区间内数据的个数,形成统计序列,查找其最大的值即众数组序号k ,依据相应公式运算众数的近似值; 以前由于电脑的采样速度和电脑速度较慢, 处理周期较长,所以始终没有采纳, 随着电脑运算速度的提高及高速采集模块的采纳,现在处理周期已缩短到 1 秒以内,由于众数滤波的数据代表性较其它处理方法更强, 所以逐步

18、被采纳;为了提高滤波的成效, 尽量削减噪声数据对结果的影响, 可将两种或两种以上的滤波算法结合在一起使用; 如对于采集的数据量比较大的环境参数, 为了到达更好的滤波成效,可以选用众数滤波和均值滤波结合的复合滤波方法;2.2 反常数据问题的重要特点反常数据问题的重要特点可以概括为四个方面,即数据特性、 反常类型、 数据标签和输出类型;l数据特性反常检测算法的输入一般是数据实例的集合; 每个数据实例用一个或假设干个属性及其取值来描述, 每个属性的取值可能为二进制、 分类或连续变量的形式;属性的表示方式不同, 适用的反常检测算法也不同; 例如, 假如使用统计学的技术检测反常, 分类和连续取值的数据需

19、要使用不同的统计模型;按数据实例之间的关系,数据可以分为次序数据和空间数据; 次序数据的数据实例之间有肯定的先后次序, 其典型实例包括时间序列数据、 基因组序列和蛋白质序列等; 空间数据的各个数据实例之间有肯定的相对位置关系; 数据实例之间的关系对反常检测算法的设计有重要影响;(2) 反常类型数据反常可以分为三类 :点反常、上下文反常和集合反常;假如某个单个的欢迎下载精品学习资源数据实例被认为是反常值, 就该数据实例就被标记为点反常; 点反常是最简洁的一类反常, 也是与反常检测相关的文献中争论最多的一类反常;假如某个数据实例只在特定的场合或环境下被认为是反常值, 就该数据实例就被标记为上下文反

20、常;一个典型的例子就是野外环境的温度监控, 温度报警阂值的设定要依据当前季节的大气温度变化范畴和一天中的时间确定; 集合反常是包含多个相关的数据实例的反常, 是多个数据实例的集合; 集合中单一数据实例不被认为是反常, 但这些数据实例同时显现就构成了集合反常;(3) 数据标记对于点反常检测,每个数据实例都可以有一个分类标记,用来标记该数据实 例是否正常或反常; 给数据实例做标记的工作一般由领域专家来完成,被标记的数据实例的集合称为训练数据集trainingdataset;依据数据实例被标记的情形,反常数据 检测技 术可分 为以下 三类: 有监 督supervised反常 检测 , 半监 督欢迎下

21、载精品学习资源semisupervised异常检测和无监督 unsupervised异常检测;欢迎下载精品学习资源对于有监督反常检测,训练数据集存在,且其中既包括标记为正常的数据实例,也包括标记为反常的数据实例; 利用训练数据集构造一个分类猜测模型, 把标记未知的数据实例输入该模型, 依据模型输出判定该数据实例是否反常; 对于半监督反常检测, 训练数据集存在, 且其中只包括标记为正常的数据实例; 利用训练数据集构造一个猜测模型, 把标记未知的数据实例输入该模型, 依据模型输出判定该数据实例是否能属于正常分类, 不属于任何正常分类的数据实例一律标记为反常; 对于无监督反常检测, 不需要训练数据集

22、, 但需要假设正常的数据实例在数量上要远远多于反常数据实例;(4) 输出类型反常检测算法有两类典型的输出: 分值score和标记 label;前一类算法依据肯定的标准,给训练数据集中的每个数据对象即数据实例或构成集合反常的数据实例的集合 标记一个分值,并且输出一个按分值排序的可能的反常数据对象列表;领域专家可以在此基础上最终确定反常数据对象;后一类算法直接把每一个数据对象标记为正常或反常,不需要领域专家的直接参加;2.3 反常数据检测方法随着对反常挖掘争论的深化, 对应于不同的应用领域显现了很多反常数检测方法,参考大量争论成果, 本节简要介绍了常用的八种反常检测算法的基本技术思路及部分方法的优

23、缺点; 前面七类主要是针对点反常检测做的归纳, 但这些检测算法也常常适用于集合反常的检测,最终一类是争论上下文反常的检测;l 基于分类的反常检测基于分类的反常检测基本都是分为两个阶段,即训练阶段和检测阶段;在训练阶段,算法利用训练数据集中的数据对象,构造分类器模型;在检测阶段,测欢迎下载精品学习资源试数据集中的数据对象被输入分类器,依据分类的结果判定是否是反常数据;分类器可以基于规章、神经网络、贝叶斯网络和支持向量机等技术来实现;依据训练样本有标记种类个数的不同, 基于分类的方法分为有监督的方法和半监督的方法;基于监督学习的分类方法最常用的方法是基于支持向量机的方法,基于支持向量机的方法不需要

24、事先对数据作任何假设,也不需要任何的预设参数,但是支持向量机的运算时间往往较长,主要是由于核函数的运算往往要消耗大量的运算时间, 同时基于支持向量机的方法也很难确定合适的参数来衡量特点空间中正常数据区域边界的大小; 基于半监督的分类方法常用的有基于神经网络的方法, 神经网络是一种常用的回来猜测和分类技术, 基于神经网络的反常检测是通过对正常数据样本的学习后建立一个正常样本的分类模型,然后在输出层重构输入数据, 假如重构的误差很大就将该数据判定为反常数据;基于神经网络的反常数据检测方法不需要事先对数据进行任何条件假设,能够发觉反常的关键属性,从而依据这个关键属性有效地发觉数据集中的反常;神经网络

25、方法虽然能较好地发觉反常, 但是神经网络对模型参数的设定具有很强的依靠性,且这些参数会对检测结果产生较大影响;(2) 最近邻法反常检测使用最近邻法的基本假设是 : 按某种度量方式, 正常数据对象之间比较接近, 而反常数据对象和邻居数据对象之间却相对较远; 数据对象之间的远近可以用距离或相像性表示; 假如数据对象的属性都是连续的变量, 常常用欧式Euclidean 距离来表示数据对象之间的距离; 常见的基于最近邻法的反常检测算法大体分为两类:一类算法是基于距离的反常数据检测, 另外一类是基于密度的反常数据检 测方法;基于距离的方法克服了基于分布的方法事先要知道数据集分布, 依靠统计检验的缺点,其

26、实质是将反常数据对象看作是在阈值 d 内其邻居比较稀疏的对象;基于距离的反常数据检测方法又可以分为三种:即基于索引 index-based的方法、基于单元 cell-based的方法、基于循环嵌套的方法 nested-loop;基于距离的反常数据检测方法的主要缺陷是时间复杂度较高且难以确定合适的参数 k 与 d;针对上述两种问题,显现了很多改良算法;基于距离的反常数据挖掘方法是基于分布的方法的拓展, 在数据集不满意任何分布模型时仍能够有效地发觉反常数据;但是该方法对参数挑选特别的敏锐, 不适用于数据外形分布不匀称的数据集,且该方法需要搜寻整个数据集来确定每个数据对象的邻居,算法时间复杂度较高,

27、不适用于大规模的数据集;基于密度的反常数据检测方法是通过运算数据之间的距离以及与给定范畴 内数据的个数相结合来得到 “密度” 的概念, 然后将数据对象的反常程度与它周围的数据的密度相关联;最常用的为基于局部反常因子Local Outlier Factor欢迎下载精品学习资源的反常数据检测算法,自从 LOF 这个局部反常数据检测方法被提出以后,相继显现了很多度量反常程度的方法,比较经典的有COF、MDEF 、SLOM 等;基于密度的方法能检测出其它方法不能识别的反常即局部反常数据;该方法定义了数据对象的反常程度, 在检测率上有较高的精度, 但是该算法每次都要扫描数据库来查找数据对象的 k 邻居,

28、这样运算时间开销是很大的, 与基于距离的方法一样, 基于密度的方法的时间复杂度也是ON2,采纳特地的索引结构可以将时间复杂 度降为 O NlogN,但是当数据维数比较大时,索引结构将不再有效,时间复杂度为 ON2;(3) 基于聚簇的反常检测聚簇 clustering技术用来对数据对象进行分组, 相像的数据对象被归入一个簇;在反常检测领域, 聚簇技术被用于无监督检测和半监督检测;依据基本假设的不同,基于聚簇技术的反常检测方法大体分为三类:一类假设正常的数据对象都能被聚簇算法归入某个簇, 而反常数据对象不属于任何一个簇; 一类假设正常的数据对象与它所在簇的质心比较近,而反常数据对象与它所在簇的质心

29、比较远;另一类假设正常的数据对象属于较大且较密集的簇,而反常的数据对象属于较小且较稀疏的簇;基于聚簇的反常数据检测方法第一是对数据集进行聚类操作,然后再针对聚类簇进行反常数据的判定, 是一种有效的反常数据检测方法; 但是聚类的成效往往会影响反常数据的检测成效, 而反常数据的存在对聚类成效的影响是不简洁忽视的,因此在聚类过程中往往要采纳不同的方法来防止反常数据对聚类的影响, 因此该方法的针对性较强, 能否有效地挖掘反常数据依靠于数据集中聚类簇的个数以及反常数据的存在性, 并且虽然该算法适用于大规模数据集,但是对高维数据的反常检测成效并不特别的抱负;(4) 统计反常检测使用统计反常检测方法的基本假

30、设是:正常数据对象分布在某个随机模型的高概率区间, 而反常数据对象显现在该随机模型的低概率区间;反常检测的基本思路是:第一利用训练数据集和领域学问构造随机模型,然后检测测试数据集中的数据对象是否有比较高的概率由该随机模型生成;依据是否知道随机模型的具体参数,统计反常检测分为两类 :参数化检测和非参数化检测;参数化检测主要包括基于高斯模型和基于回来模型的反常检测, 非参数化检测主要包括基于直方图和基于核函数的反常检测;基于统计学的反常数据检测算法主要优点是: 算法有概率统计的理论作为其有利的支撑; 通过对反常数据不一样性检验可以发觉背后隐匿的意义; 在概率模型建立后只需要储备少量的模型信息不需要

31、储备数据对象的信息, 降低了数据的储备量;基于统计学的反常数据检测算法主要缺点是: 通常只能处理单维的数据欢迎下载精品学习资源对象;需要很多先验学问,要预先假设数据集的分布,不适合分布未知的情形; 通常只适合处理数据型的数据, 限制了其在符号型或者含有大量分类数据对象的数据集上的应用;(5) 基于信息论的反常检测嫡在信息论中是一个重要的概念,用来衡量所收集到的信息的不确定性;基于信息论进行反常检测的基本假设是: 数据集中的反常数据实例导致了嫡的增加;假如用 D 表示数据集, CD 表示 D 的嫡值,基本的反常检测思路是 :设法找到 D 的一个最小子集 I,使得 CD-CD-I 最大,就子集 I

32、 中的数据就是反常数据实例;(6) 基于维度减小技术的反常检测使用维度减小技术的基本假设是:数据可以被嵌入或投射到一个低维度的子 空间中;在此子空间中, 正常数据对象和反常数据对象能被显著的区分开;虽然有多种降低数据维度的方法,但各种基于主重量分析Principal ComPonent Analysis,PCA的方法在反常检测中应用最多;(7) 基于偏差的反常检测Argrawal 和 RagaranKDD 1995提出一种“序列反常” sequential exception 的概念;给定 n 个对象的集合 S,建立一个子集序列 S 1, S2, , Sm ,对每个子集,确定该子集与前序子集的

33、差异度的差; 光滑因子最大的子集就是反常集; 这个算法复杂度与数据集大小呈线性关系, 有优异的运算性能; 但是序列反常在对反常存在的假设太过抱负化,对现实复杂数据成效不太好;基于偏差的方法中,序列反常检测算法提出的序列反常的概念并没有得到普遍的认同,序列反常在概念上仍旧有肯定缺陷,遗漏了不少的反常数据;(8) 上下文反常检测检测上下文反常需要在算法中考虑应用的上下文场景,因此需要把数据实例的属性细分为两类, 即上下文属性和行为属性; 典型的上下文属性包括空间位置信息、时间标签和邻居节点之间的连通性信息等描述应用上下文场景的属性,而行为属性就包括用来描述被观测对象的主要特点的属性,例如温度、湿度

34、和降雨量等;上下文反常检测方法大体分为两类:一类方法使用前面介绍的点反常检测方法,但要第一知道数据实例中的上下文属性的取值,并考虑上下文属性的不同取值对反常检测算法的影响; 另外一类方法不需要量化的评估数据实例中的上下文属性的不同取值对算法的影响,而是在肯定的上下文场景中对训练数据集建模, 然后利用此模型检测测试数据集中的数据是否反常;2.4 反常数据修正方法简介常用的瞬时反常数据的修正方法是,参考该点前后的数据, 采纳线性插值法或三阶、多阶平滑法的方式完成该数据点的修正,但这种方法无法适应进化evolving 数据流在不同时欢迎下载精品学习资源刻具有不同波动情形的特点,在显现多个连续反常数据

35、或数据值变化猛烈时修正的精度偏低;已有的文献均未重点争论连续错误数据的修复问题;3 几种典型改良算法及其应用实例由于反常检测问题涉及很多领域, 不同的问题域有不同的问题特点, 所以没有各领域通用的反常检测技术; 反常检测技术的关键构成包括学科领域、 应用领域、 问题特点和反常检测算法;不同应用领域的争论者,依据反常检测问题的特点,应用数据挖掘、机器学习、统计学等不同学科领域的概念和技术,设计了各种反常检测算法;反常数据检测的方法目前主要有统计、特点挑选、神经网络、 数据挖掘、小波奇特性检测等等, 这些方法都有一个共同的缺点就是需要训练的数据量大,运算代价高, 对实时检测有较大影响;3.1 基于

36、局部最大距离的反常数据检测欢迎下载精品学习资源4 风机基础监测反常数据的检测和修正基于密度的局部反常数据挖掘方法虽然能够有效地发觉数据集中的反常数据,但是这些算法由于运算量相当大因此仅适合静态环境下的反常数据挖掘;在实际工程应用领域,通常意义上是这样一种数据库,它里面含有的数据量是随着时间的增长而动态增加的,如一般的数据采集系统、 在线数据监测系统等; 通常在这种大型数据库系统中,数据仓库作为一种有价值的工具用来存放系统数据,在绝大多数情形下, 当事物数据库系统有数据增加时,数据仓库并不是立刻将新增的数据存入内存中,而是在人为设定的肯定时间后例如夜间或者其他闲暇的时间内, 以批量新增的方式将数

37、据存入数据仓库中;因此, 在这种数据批量增加的数据库环境下, 新增加的数据可能会影响原数据库中的某些对象的局部反常程度,在进行二次反常挖掘时, 需要重新运算全部数据对象的局部反常因子,这样运算量是很大的, 因此在数据量成批增加的环境下,如何快速有效发觉反常且防止大量的重复运算显得尤为重要;然而, 由于测量设备本身、数据传输或者人工操作等缘由,可能使测量数据中包含某些 错误的信息; 假如不将这些错误的测量信息检测并剔除掉,将给后续的数据处理带来很大的 误差; 目前,针对反常数据检测问题已经提出过很多种方法,包括基于统计学的方法、 基于最近邻居的方法、 基于分簇的方法、 基于聚类的方法等; 这些方

38、法在传感器网络的数据检测中得到了广泛的应用;均值滤涉及其改良算法基于邻近去最值均值滤波的原理,其次依据时间的连续等差变化特性对时间参数进行了检测修正,采纳基于邻近去最值均值滤波方法对监测数据进行修 正,最终利用实测数据进行了验证;均值滤波算法是基于统计理论的一种能有效抑制噪声的非线性信号处理技术;通常应用于图像处理中的平滑和去噪; 其基本原理是对图像中的每个合法像素点邻域中的像素依据灰度级进行排序,然后将该组的均值输出作为该像素点的值;均值滤波定义如下:gx,y=meanfs,t, s,t Sxy式中: gx,y 为x,y 点的输出值; fs,t 为以 x,y 点为中心的邻域内 s,t点的输入

39、值; Sxy为以 x,y 为中心的邻域; 邻域类型可以依据争论或者应用需要挑选方形、一字形、 十字形、形等,邻域大小一般可以挑选33, 5 5;对本文数据类型进行均值滤波,相当于采纳一字形窗口; 均值滤波可以排除图像中的椒盐噪声和突变点,但是会转变图像中的原始数据;基于邻近去最值均值滤波是对均值滤波的改良,它对模板S 内的数据做了去最值修正处理,即在得到模板 S 内的数据后,去除了其中的最大最小值以 fs,t 表示,再进行均值滤波;该滤波方法极大减小了由于反常点参加运算而导致的滤波结果偏离真值的影响, 但是同样会转变原始数据;基于邻近去最值均值滤波检测欢迎下载精品学习资源滤波和检测的目的不同,

40、 前者主要是对数据进行去噪和平滑,而后者主要是在不修改原始数据的前提下找出数据中的反常点;因此,本文依据式1给出如下判别规章:| fx,y| 3stdfs,t 其中: fx,y=fx,y -meanfs,t 欢迎下载精品学习资源式中 fs,t反常点;为去除模板内数据的最大最小值的其他数据;假设式2成立,就 x,y 点为欢迎下载精品学习资源数据驱动掌握是指掌握器不包含受控过程的数学模型信息,仅利用受控系统的在线和离 线数据以及经过数据处理而得到的学问来设计掌握器,并在肯定的假设下,有收敛性、 稳固性保证和鲁棒性结论的掌握理论和方法,是一种直接从数据到掌握器设计的无模型掌握理论和方法;目前,有关无

41、模型掌握国内外已有一些标志性的方法,例如,无模型自适应掌握 Model Free Adaptive Control , MFAC 、迭代反馈整定 Itera-tive Feedback Tuning , IFT 、迭代学习掌握 Iterative Learning Control, ILC等;其中 MFAC 作为一种典型的数据驱动掌握算法已经在多个工业生产过程领域中取得胜利应用;理论证明、 仿真争论和实际应用均说明基于数据驱动的无模型自适应掌握方法能够处理非线性和时变线性系统的掌握问题;传感器是指那些对被测对象的某一确定的信息具有感受或响应 与检出功能, 并使之依据肯定规律转换成与之对应的可输

42、出信号的元器件或装置的总称;传感器一般被认为由敏锐元件、转换元件、测量电路三部分组成;针对传感器的工作原理和结构在不同场合均需要的基本要求是:高灵敏度、 抗干扰的稳固性、简洁调剂、高精度、高牢靠性、无迟滞性、工作寿命长、高响应速率等;传感器的主要作用有两个:其一是敏锐作用,它感受被测量的变化,完成信号的拾取;其二是变换作用,完成非电量到电量的转换;依据传感器应用的对象、测量的范畴、四周的环境的不同,需要使用的传感器大不相同;传感器的分类方法也较多;反常数据的产生主要有以下几种缘由:第一,不完善的数据采集设备、数据输入有误、数据传输错误、测量单位纷乱、灵敏度不够等;其次,外界因素突变造成采集的数

43、据反常;欢迎下载精品学习资源反常数据依据其性质可以分为完全无用的噪声数据,如人为造成的数据缺失和数据错误,和包含重要系统信息的反常数据,如数据采集设备故障,外界因素突变等;其中找出包 含数据采集设备故障信息的反常数据可以用于故障诊断,而找出蕴涵外界因素突变信息的异 常数据可用于保证结构安全,意义特别重大; 反常数据存在对软运算建模的影响,软运算建模方法对于系统数据变化有较强的适应才能,但这都是建立在系统数据比较清洁的基础上的;当系统数据存在反常数据时,要兼顾反常数据的作用,其建模的精度会大幅度下降,模型性能并不能令人因此, 反常数据并不是全是对数据分析完全无用的数据;那么, 对于以上两类反常数

44、据的分析就是我们所说的反常数据检测outlierdetecting;本文基于实例着重从数据采集设备反常数据检测的角度来探讨各种反常数据检测方法的有效性和有用性;传感器所采集的原始数据是某设定采样频率下采集的与某时间序列相对应的数据,故原始采集数据可视为时间序列数据,其处理流程如图2-1 所示;对于原始采集数据,由于环境噪声、 仪器设备 等缘由, 在长时间的连续采集中不行防止的会显现反常数据, 因此监测数据处理流程的第一步就是进行数据牢靠性检验,分析数据反常缘由,将牢靠数据与反常数据分开储存;对于经过牢靠性检验后的原始采集数据,依据采集数据类型的不同,将分别 在时域和频域内进行处理分析; 时域分

45、析具有直观和精确的优点,可直接在时间域内对时间序列数据进 行处理分析,能够便利的表达数据变化趋势以及特点值,比较适合例如应力、应变、位移等 监测数据的处理;频域分析通过图解分析法分析数据在频域内的能量分布来猎取特点参数,比较适合例如风机振动等监测数据的处理;传感器类型为振弦传感器由于传感器系统中的振弦式传感器是通过热敏电阻来测量温度值的,因此数据采集与传输系统中通用振弦采集仪采集与输出的原始数据亦为电阻值,在应力数据处理与分析子系统中需要对输出的温度值进行二次加工处理,转换为温度值;振弦式传感器是利用被测结构物的应变与振弦频率之间的关系来测量应变的,数据采集与传输系统输出的频率值,通过肯定的转

46、换可得到结构应变增量,详细公式为=CK f12- f02式中 为微应变增量; C 为振弦式传感器平均修正系数取值由商家供应 ; K 为振弦式传感器标准系数取值由商家供应 ; f1 为本次测试频率读数单位: Hz ; f0 为上次测试频率读数单位: Hz ;经过长时间分析应力数据的反常现象,可以把反常数据依据产生缘由分为两类;一类:由于自然界的强干扰产生的,如雷电;这类反常数据的特点是跳动特别大;另一类:由于传感器采集传输系统中某环节有时的工作不稳固产生的,这类反常数据的特点是跳动较小;把反常数据依据表现形式分类也可以分为两类,一类: 应力数据单点反常, 即应力数据点有时的跳动现象;另一类:应力数据连续反常,即连续应力数据点跳动的现象;虽然反常数据可能是测量和记录过程中的错误引起的,但有些反常数据却代表着好玩的欢迎下载精品学习资源现象, 包含着从应用角度看特别有意义的学问;因而, 简洁地将反常数据排除掉可能会丢失有用的信息,导致数据分析的结果不精确或不正确;从外表看,反常数据与众不同,而且许多反常数据是无用的噪音性数据,影响我们对数据的正确分析与懂得,给实际工作带来诸多不便,但某些反常数据可能包含着某种重要的学问,因此对其进行分析具有肯定价值;将微电子技术、 微处理技术与传感器结合,形成新的一代智能传感器 Intelligent Sensor或 Smart Sensor

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁