海洋信息管理系统的设计与实现-计算机应用与软件(共5页).doc

上传人:飞****2 文档编号:13633888 上传时间:2022-04-30 格式:DOC 页数:5 大小:371KB
返回 下载 相关 举报
海洋信息管理系统的设计与实现-计算机应用与软件(共5页).doc_第1页
第1页 / 共5页
海洋信息管理系统的设计与实现-计算机应用与软件(共5页).doc_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《海洋信息管理系统的设计与实现-计算机应用与软件(共5页).doc》由会员分享,可在线阅读,更多相关《海洋信息管理系统的设计与实现-计算机应用与软件(共5页).doc(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上海洋信息管理系统的设计与实现黄冬梅田瑜基王 建 (上海海洋大学信息学院上海 )摘要 为了解决海洋数据的多源异构问题,使用户对大量复杂的海洋数据进行有效的管理,本文设计实现了一套海洋信息管理系统。本文首先介绍了系统的体系结构,然后对各模块进行了详细的阐述,并对海洋数据进行了详细的分析。针对海洋数据存在数据不一致、数据空缺和数据冗余等问题,使用了基于累积变化量的时间序列异常检测方法,有效检测出海洋数据中的异常点,再对异常点进行修正,保证了海洋数据的质量,从而建立一套完善的海洋信息管理系统,使得海洋相关部门的业务流程更加科学化和规范化。关键词 海洋信息管理系统海洋数据数据预

2、处理数据管理时间序列异常检测中图分类号 TP302 文献标识码 ADESIGN AND IMPLEMENTATION OF AN OCEAN INFORMATION MANAGEMENT SYSTEMHuang Dongmei Tian Yuji Wang Jian (College of Information Science, Shanghai Ocean University, Shanghai )Abstract In order to solve the multi-source heterogeneous problem of the ocean data and make use

3、rs to manage a large number of complex ocean data efficiently, an ocean information management system has been designed and implemented in this paper. This paper first introduces the architecture of the system, then gives a detailed exposition of the various functional modules, and carries on detail

4、ed analysis for the ocean data. Because the ocean data has these problems: data inconsistencies, data gaps and data redundancy and so on. Using time series anomaly detection method which is based on the cumulative variation can detect outliers of the ocean data effectively and amend outliers. The me

5、thod ensures the quality of the ocean data, thereby a comprehensive ocean information management system has been established and guides the business process of marine relevant departments scientific and standardized.Keywords Ocean information management system Ocean data Data preprocessing Data mana

6、gement Time series anomaly detection专心-专注-专业0 引言 海洋公益性专项项目:苏北浅滩“怪潮”灾害监测预警关键技术研究及示范应用(-06)。科技部973项目:海量信息的可用性,知识发现和进化(2012CB)。黄冬梅,教授,主研领域:辅助决策,GIS,数据库。田瑜基,硕士,主研领域:辅助决策,GIS。王建,讲师,主研领域:辅助决策,GIS。随着国家用海需求的日益增长及海洋经济的快速发展,对海洋局的管理和服务能力提出了更高的要求。为了满足涉海单位和用户对海洋数据管理和海洋数据分析统计的需求,设计建设海洋信息管理系统势在必行。然而,海洋数据质量的好坏直接影响海

7、洋信息管理系统决策的科学性,目前国内还没有系统的海洋数据质量控制方法,一般采用手工校正处理进行控制,针对大量的海洋数据,本文使用基于累计变化量的时间序列异常检测技术,对采集的海洋数据进行异常检测,将合格的数据及异常修正后的合法数据,存储到海洋信息数据库中,对海洋数据进行管理及应用展示。 1 系统体系结构设计海洋信息管理系统主要包括数据采集,数据预处理,异常检测,数据存储,数据管理和数据展示六部分。该系统的体系结构如图1所示。图1 海洋信息管理系统的体系结构2 系统功能模块设计与实现2.1 数据采集模块数据采集模块包括气象传感器、水文传感器和生物传感器。气象传感器采集气象类数据,包括风速风向,气

8、温,降水量和雾等数据;水文传感器采集数据包括水温、盐度、海流、波浪、潮位、含沙量和悬沙等;生物传感器采集浮游动物、浮游植物和底栖生物等数据。通过分析,发现采集的原始数据存在以下问题:(1)海洋数据在某些字段上存在空值。因此需要对这些数据进行转换和集成工作,对于空值字段需要进行数据的智能填充。(2)各个站点关于台站信息的数据在结构上基本相同,但在数据的完整性和一致性上很差。(3)来自不同数据表的同类数据,具有不同的数据类型。如同样是表示日期数据,有的用日期型,有的用字符型。(4)各台站的海洋数据中或多或少地含有噪声数据,在装入数据仓库前必须进行清洗。综上所述,海洋信息管理系统中的原始数据存在数据

9、不一致性、数据空缺、数据冗余等问题。可见,海洋数据并不能直接用于后继的数据开采,海洋数据预处理是进行数据挖掘的前提。2.2 数据预处理模块海洋数据挖掘是数据挖掘技术在海洋领域中的应用,是从大量的、不完全的、模糊的、有噪声的、随机的海洋数据中,提取隐含其中的、事先未知但又潜在有用的海洋信息和知识的过程1。由于海洋数据主要表现为海洋时间序列,因此,海洋数据挖掘主要是对时序数据的挖掘。据统计,在整个数据挖掘过程中,数据预处理花费60%左右的时间,而后的挖掘工作只占整个工作量的10%左右。经过数据预处理,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。因此,对这些数据进入数

10、据仓库之前进行预处理是进行数据挖掘的必要保证。 海洋信息管理系统中数据预处理主要是通过对数据进行下述清理、集成、变换和归约等四个方面的工作来实现: (1)数据清理是数据进入数据仓库前的规范化工作,是数据完整性和一致性的检查。数据清理例程通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要为了达到以下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。(2)数据集成是将多个数据源中的数据结合起来并统一存储,这些数据源可能包括多个数据库、数据立方体或者一般文件。在数据集成时,需要考虑的问题包括:数据冲突、数据丢失和衍生数据。(3)数据变换是将数据转换成更适合于数据

11、挖掘的形式,主要包括字段的数据类型转换、数据的聚集、数据概化和数据的规范化。通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。(4)数据归约是用来得到数据集的归约表示,它小得多,但是仍然接近于保持原始数据的完整性,其结果与归约前结果相同或几乎相同。2.3 异常检测模块异常检测模块主要是使用基于累计变化量2的时间序列异常点检测方法,对海洋数据进行异常检测,对于合格的数据进行数据存储,对于不合格的数据,对其进行异常点存储,并进行异常分析,再选择适当的修正方法对异常点进行修正。2.4 数据存储模块数据存储模块主要是将经过时间序列异常检测后的合格数据及异常修正后的合法数据,存储到海

12、洋信息数据库(该系统使用SQL Server 2008 R2数据库)中。2.5 数据管理模块数据管理模块主要是对海洋气象、海洋水文和海洋生物等数据进行增加,删除,修改,数据导入,查询,数据分析及统计打印等操作。其中,数据导入功能可以对数据进行批量增加,可以将整个Excel表中的数据导入到数据库中,使得批量数据的导入工作更加快捷方便,提高工作效率。对于查询功能,通过精确查询和模糊查询两种查询方式,实现对海洋数据进行全方位多条件的查询,并将查询效果以图表形式显示。界面效果如图2和图3所示。图2 海洋气象数据管理模块图3 海洋生物数据管理模块数据分析功能是通过台站比较和多年比较,对某一海洋要素的某一

13、历史时间变化趋势和某一海洋要素正常值进行分析,将海洋数据的规律总结出来,并给予用户提示信息,为决策者提供帮助。界面效果如图4所示。图4 多年监测数据比较2.6 数据展示模块数据展示模块将数据分析模块的结果通过图表多种形式进行展示,展示的客户端包括涉海单位、政府用户、公众等。数据展示模块和数据管理模块之间采用GIS服务器,Web服务器,移动信息服务器等实现实时通信和展示。3 关键技术3.1 异常检测技术目前,针对时间序列中异常检测的方法主要有基于频率的方法3、基于特征空间的方法4和机器学习5的方法等,但是这些方法均不适用于海洋时间序列。按照异常的表现形式不同,时间序列的异常可以分为序列异常,点异

14、常和模式异常。本文主要针对海洋时间序列数据的特点,使用基于累计变化量的异常点检测方法,用于检测海洋时间序列中的异常点。3.1.1基于累计变化量的时间序列异常点检测方法本方法涉及一个平均变化量(Mean Change)的统计量,表示这段时间序列中观测值的波动大小,该变量是各个相邻观测值之间的差值和的平均值。如公式(1)所示: (1)其中,是指第个观测值,是指观测值的数目。在前面平均变化量的基础上,提出了累积变化量(Accumulative Change)的概念,并且给出了海洋时间序列异常点的定义。定义1海洋时间序列异常点定义给定一段海洋时间序列点表示的是海洋时间序列在这一时刻的观测值是。表示点的

15、个邻居点的集合,其观测值集合记作,给定阈值,如果点与其个邻居点的累积变化量大于,那么判定点为这段海洋时间序列中的一个异常点,这一判定条件如公式(2)所示: (2)公式(2)中的是指权值向量,赋予每一个变化量不同的权重。其中,这里的权值向量赋值为。通常,在时间轴上,越接近点的邻居点,为其赋予的权值就越大;阈值是指用户给出的一个常量,点的累积变化量和阈值的大小关系,就是判定是否是一个异常点的依据。本文使用基于累积变化量的时间序列异常检测方法来检测海洋数据中的异常点。主要步骤如图5所示:图5 基于累积变化量的时间序列异常点检测方法的主要步骤如上图所示,该方法首先是读取原始数据,并且计算数据的平均变化

16、量。然后遍历每个数据点,查到其邻居点,计算出累积变化量的值,根据平均变化量再计算出阈值T,比较累积变化量和T的大小关系,判定出异常点并进行存储。3.2 异常分析及异常修正技术异常数据产生的原因可能是由于在计算、数据记录、误操作时造成的错误等人为因素,也可能是因为数据的内在特性造成的。根据定义1,一段海洋时间序列中的点被判定为异常点,则点与其邻居点的累积变化量的值通常较大,导致这一结果的原因有很多种,结合海洋时间序列数据的特点将可能的原因归为以下三类:(1)由于数据在录入过程中的错误导致。(2)自然的因素导致。(3)其它的人为因素导致。经过分析,修正异常点的方法主要包括以下四种:(1)依据其它数

17、据的来源,对其进行手工修正,或者由领域专家估计修正,但是这种方法过程复杂、耗时较长、代价较高。(2)可用这个序列的其它时间数据的平均值补修正。但对于连续的异常点,这种方法有时也不会达到满意的效果。(3)可用其它相关序列的数据平均值补缺失。(4)可通过贝叶斯形式化方法工具、回归分析或者判定树推导出可能的数据值,对异常值进行修正6。4 结论本文设计实现了海洋信息管理系统,通过对海洋数据进行详细的分析,发现海洋信息数据库中大量的海洋数据存在数据不一致、数据空缺和数据冗余等特点。为了更好地对海洋数据进行有效的归纳和预处理,提出了一种基于累积变化量的异常点检测方法。这种时间序列异常检测方法能够有效的检测

18、出海洋数据的异常点,再对异常点进行分析,并选择适当的修正方法对异常点进行修正,为海洋信息数据库提供干净、准确、简洁的数据,保证了海洋数据的质量,从而提高了海洋信息管理系统的性能。该系统能够快速高效地对海洋数据进行管理,使海洋数据管理工作实现“快速、准确、全面、专业”的管理要求,可以为海洋相关部门管理决策提供科学的支持。参考文献1 方洪鹰. 数据挖掘中数据预处理的方法研究D. 重庆: 西南大学, 2009.2 林森. 时间序列异常检测的研究与应用D. 南京: 河海大学, 2008.3 Eamonn Keogh, Stefano Lonardi, Bill Yuan-Chi Chiu. Findi

19、ng Surprising Patterns in a Time Series Database in Linear Time and SpaceC/SIGKDD 02, July, Edmonton, Alberta, Canada. 2002: 23-26.4 A.L.I O1iveira, F.B.L. Neto, S.R.de Lemos Meira. Combining MLP and RBF neural networks for novelty detection in short time series. Lecture Notes in Computer Science, 2

20、004: 844-853.5 H.V.Jagadish, N.Koudas, and S.Muthukrishnan. Mining deviants in a time series databaseC/VLDB 99: Proceedings of the 25th International Conference on Very Large Data Bases, San. Francisco, CA, USA, Morgan Kaufmann Publishers Inc., 1999: 102-113.6 肖辉. 时间序列的相似性查询与异常检测D. 上海: 复旦大学, 2005.修改

21、说明:按照贵编辑部审稿专家提出的以下四条修改意见:1、中文摘要需进一步简练;2、英文摘要在语义上必需与中文摘要保持一致,要求互译不走样;3、参考文献引用偏多,一般56篇即可;4、个别文字、语句需修改,力求描述简练、正确。本人对文章做了如下修改:1、按照第一条修改意见,对本文的中文摘要进行了进一步简要概括。2、按照第二条修改意见,根据修改后的中文摘要对英文摘要进行了相应的修改,并保持中英文摘要一致。3、按照第三条修改意见,将本文的摘要修改为6篇参考文献。4、按照第四条修改意见,对本文做了如下修改:(1)文章第二页2.1中的第(4)中“或多或少的含有”中“的”改为“地”。(2)文章第二页2.2内容

22、中第二段中的第一句话中在“清理”前加了“下述”两个字,该句话结束时由原来的句号(“。”)改为冒号(“:”);2.2中的第(4)中的“并”改为“其”。(3)文章第二页2.5中的第三段中的最后一句话中的“图2,3”改为“图2和图3”。(4)文章第三页中的3.1的第一段根据给出的修改意见改为“但是这些方法均不适用于海洋时间序列”;将3.1中第一段最后一句中“主要”后的“是”去掉。(5)文章第三页中的3.1.1中第一段的最后一句话中的“用公式表示如公式(1)所示:”改为“如公式(1)所示:”;3.1.1第四段中的“这一判定条件用公式表示,”改为“这一判定条件”;将3.1.1第三段中的“(Mean Ch

23、ange)”去掉;将3.1.1第四段和第五段中的“(Accumulative Change)”去掉;对3.1.1第五段中的权值向量进行赋值,在该段第一句后面加了一句“其中,这里的权值向量赋值为。”。 (6)文章第四页中的4小结部分中的几处标点符号由原来的“,”改为“。”,并将最后一句中的“高效的”改为“高效地”。本文负责人信息:田瑜基,手机:,E-mail:身份证号:,单位:上海海洋大学,通信地址:上海市浦东新区临港新城沪城环路999号 上海海洋大学 信息学院,邮政编码:作者简介:黄冬梅,教授,主研领域:辅助决策,GIS,数据库。田瑜基,硕士,主研领域:辅助决策,GIS。王建,讲师,主研领域:辅助决策,GIS。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁