基于大数据技术的水库移民后扶监测研究

资源描述

《基于大数据技术的水库移民后扶监测研究_余小高.docx》由会员分享，可在线阅读，更多相关《基于大数据技术的水库移民后扶监测研究_余小高.docx（3页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、科技创业基于大数据技术的水库移民后扶监测研究余小筒 (湖北经济学院湖北武汉 430205) 摘要：为了解决水库移民后期扶持政策实施监测的数据量大、处理效率低等问题，提高数据采集精确度，探讨了大数据技术在水库移民后期扶持政策监测中的应用。首先简述了大数据的基本特点和关键技术，并将这些技术应用到水库移民后期扶持政策实施监测中，指出水库移民后期政策扶持监测的数据符合大数据特征；其次提出了基于大数据技术的水库移民后期扶持政策实施监测信息系统的体系架构，并介绍了数据处理过程；最后分析了研宄成果的实际应用，达到了良好的效果。应用结果表明，研宄成果能够提高数据处理效率和精确度，解决

2、移民后扶监测中存在的数据处理问题，为移民后扶政策的实施提供决策支持。关键词：大数据技术；水库移民；数据处理中图分类号： D632.4 文献标识码： A doi ： 10.3969/j.issn.l665-2272.2016.05.007 0引言根据国务院关于完善大中型水库移民后期扶持政策的意见 2006年 17号文件 (注： “ 后期扶持政策 ”简称 “ 后扶 ” ），实施大中型水库移民后期扶持政策监测评估工作是有政策依据的。国家发改委、财政部和水利部在 2011年联合出台了 1033号文件关于开展大中型水库移民后期扶持监测评估工作的诵知，为监测评估的指标体系、内容

3、和方法等进行了界定，同时为保证大中型水库后期扶持政策实施提供了监督和管理的依据。目前，监测评估工作具体实施过程中普遍存在着许多不容忽视的问题：样本选择不够合理，存在一定的随意性，缺乏连续性；评估主体的能力需要提高，部分基层干部人员工作态度不积极，工作效率不高，难以系统性地收集资料；各地后扶监测评估不深入，走形式，不能突出地方特色，监测方法有待提高。这些问题对后扶政策实施效果的客观评价产生了不容忽视的影响，因此，对监测评估方式方法等讲行研宄是非常必要的，也是迫在眉睫的。本文以湖北省大中型水库移民后期扶持政策实施监测为切入点展开研宄。水库移民后扶监测需要

4、采集、存储、处理大量的移民人口数据、直补资金、后扶项目、两区项目、专项资金项目、移民培训项目、其他资金项目等的各种信息，这些数据不仅量大，而且结构差异性大。监测中，需要提供各种报表和统计分析，为各级管理者提供决策支持。因此，将大数据技术应用到大中型水库移民后扶监测中，能够客观地和全方位采集、存储后扶监测数据，采用科学的数据处理方法，解决当前水库移民后扶监测评估存在的问题，更好地为后扶政策的实施提供决策参考。 1大数据概述当今计算机和网络已经深入到人们生活的方方面面，不同领域、不同行业、不同岗位、不同层次的人们，可以利用计算机、移动终端采集、使用这些数据，

5、这些特征很有利于水库移民监测中数据的采集和相互印证，达到客观和公正。近年来，各种移动平台、公共网络平台、专业网络平台和电子商务等的迅速发展，极大地推动了数据以指数级的方式增长。在这种背景下， “ 大数据 ” 概念应运而生。大数据指的是数据量规模巨大，数据呈异构型，目前主流工具无法正常处理。综合业界的研宄成果，大数据具有以下 4个特征 : 数据量巨大，不能用常规的方式存储；数据结构呈多样性，除包含结构化数据外，还有大量的非结构化数据；数据的利用价值低，无法用常规的方法在海量的数据中发现有价值的数据；实时性，虽然数据量巨大，数据处理效率的实时性要求高。

6、水库移民后扶监测数据来源广泛，比如后扶人口、规划、年度计划、扶持资金、后扶项目、两区项目、专项资金、移民培训，等等。这 *基金项目：湖北省教育厅人文社科重点课题（编号： 15D 086) 作者简介：余小高（ 1969-)，男，教授，博士，研究方向：大数据、水库移民后扶。收稿日期： 2016-01-11 18 科技创业月刊 2016年第 5期基于大数据技术的水库移民后扶监测研宄科技论坛些数据具有如下特征：数据源多、类型丰富；数据量巨大；数据实时性。根据后扶监测数据特征，在水库移民后扶监测中，主要应用的大数据关键技术有 4个方面：数据采集。利用该技术可以各种数据

7、源中的各种类型数据，通过手机、平板电脑、各种传感器、计算机网络等获取大量数据。分布式文件存储技术。该技术框架主要包括云计算、 Google的 GFS、 bigTable 及 Hadoop 的 HDFS 等。水库移民后扶数据量巨大，无法用常规的方法存储，因此可以利用大数据存储技术解决存储问题。并行处理技术。 MapReduce是目前最出色的并行处理技术，能够解决水库移民后扶监测数据处理的实时性和连续性，提高数据处理效率和精确度。大数据挖掘技术。在常规数据挖掘技术的基础上，大数据挖掘技术需要开发、研宄出新的算法。目前，可用Hive、 Mah0Ut等算

8、法对大数据进行挖掘，解决数据量巨大，但价值低的问题，充分挖掘出有用的信息。 2后扶监测体系架构基于大数据技术的水库移民后扶监测体系架构如图 1所示，共分为四层， S卩：数据采集和展现层、数据应用层、数据存储层、云计算平台层。其中，数据应用层分为四个部分，分别为数据共享管理、数据交换中心、平台监控和决策支持。利用大数据的存储技术来构建数据中心，通过大数据挖掘等技术，实现了大中型水库移民后期扶持的决策支持功能。数据服务功能可以提供各种接口和系统总线，数据交换中心利用数据交换技术，将后扶人口，后扶资金管理，后扶项目建设等不同子系统提供的数据，根据它们不同的特征，

9、存储到数据中心。统架构各层的工作机制如下。 (1) 数据采集和展现层。在移民后扶监测体系的数据采集层，利用大数据的采集技术，通过手机、平板电脑等移动终端和各种数码设备等工具，有效而全面地采集移民后扶的各类数据，保证数据的有效性、全面性、实时性和精确性。 (2) 云计算平台层。该层采用云计算的分布式处理技术，构建系统基础平台，为移民后扶监测大数据的应用提供最基本的物理平台。 (3) 数据存储层。该层利用了 HADOOP中的 HDFS存储技术存储，整合了移民后扶监测中各种数据库和数据资源，存储移民后扶监测中的各类结构化和非结构化数据。 (4) 数据应用层。该层采用大

10、数据挖掘技术对移民后扶监测总的各种数据进行挖掘分析，为安置区和库区规划、移民资金、移民项目、移民村特色及环境监测等方面提供决策支持服务。根据以上研宄，系统算法如下： (1) Source n =Source 1, source2, ， sourcen /确定 n个数据源，形成数据源组。 (2) DataSource =Source n/对数据源组的数据帅选、过滤、规范、标准等操作。 (3) CollectDatal =Filtl Data- Source /结构化数据清洗。 (4) CollectData2 =Filt2 Data- Source /非结构化数据清洗。 (5

11、)CloudSavel = CollectDatal /结构化数据存储。 (6) CloudSave2 =HDFS (Collect- Datal) /非结构化数据存储。 (7) Result =MapReduce_Dremel (CloudSavel,CloudSave2)/米用分布式实时处理技术，对数据进行处理。 (8) DSS =Spported (Result)/将处理后的数据形成决策支持。 3后扶数据处理大数据技术贯穿水库移民后扶监测的数据采集、数据存储、数据加工和决策支持等数据处理的各个阶段，具体如下。 3.1数据采集在水库移民后扶监测中，为了精准地监测后扶政策实

12、施效果，有大量和连续的数据需要采集，比如后扶人口、规划、年度计划、资金、后扶项目、两区项目、专项资金、移民培训等等数据，以便及时和动态地掌握移民后扶各项工作的进展情况和移民脱贫致富等后扶效果。在移民后扶监测数据采集中，常用的采集工具有手机、平板电脑、数码相机、笔记本、台式机、扫描仪、摄像机、录音笔等工具，以数字化方式记录移民后扶的相关文件资料，在录入过程中，保证数据的规范性。对于实时和连续性的数据，可以采用自动化设备进行采集。从技术层面上，对各种数据源进行分析，利用大数据技术，形成统一的数据集成平台，可以实现已有的各种数据的有效融合。 3.2数据存储由于移

13、民后扶监测的数据量巨大，数据类型多，包含了大量文字、图片、声音、视频等非结构化数据，常规的存储方式无法达到满意的效果，也不利于数据的分析与处图 1 体系架构 PIONEERING WITH SCIENCE & TECHNOLOGY MONTHLY 0.5 2016 19 科技创业爲 PIONEERING WITH SCIENCE i TECHNOLOGY MONTHLY - 理。利用大数据的分布式文件存储技术，如 GFS、 HDFS等的数据分块功能和追加更新方式，可以满足高效的实时性和海量数据存储的要求。该技术对硬件要求不高，可降低硬件的投入成本。在实现上，是将足够

14、多的成本低的服务器互联，就能够实现分布式存储，满足移民后扶监测的大数据存储。 3.3数据加工由于移民后扶监测数据量巨大，而传统的数据加工方法效率低下、耗时较长，无法做到实时性和精准性；同时数据的价值也无法充分挖掘出来，达不到监测的效果。针对这些问题，将大数据云计算的并行处理技术应用到移民后扶监测数据加工处理中，数据分析的效率得到大大提高，能够实时和连续地处理这些异构的、数据量大的数据。目前，在大数据环境中 MapReduce 模型是并行式处理的主要技术，能够对大规模集群的数据进行并行处理，满足大数据处理的需要。其工作方式如下。 (1) 建立中间文件。根据需要

15、处理的数据在各节点的分布情况，发送Map命令在这些节点上运行，在本地服务器上进行写操作，获得中间文件。 (2) 本地节点运行指令。由于写操作功能是在本地运行的，减少了中间文件数据的传送对网络带宽的依赖，减少了传送时间；若中间文件需要执行 Reduce操作，主数据服务器就将 Reduce指令发送到指定的节点，在节点所在的本地执行，这样就进一步减少了数据对网络带宽的依赖，提高了数据的处理效率。 (3) 容错处理。在大数据处理中，MapReduce模型具有很好的容错性能，正在运行的程序能够被 MapReduce从发送故障的节点动态迁移到另外一个工作正常的数据节点上执

16、行。 (4) 实时处理。 MapReduce适 20 科技创业月刊 2016年第 5期基于大数据技术的水库移民后扶监测研宄合对数据进行批处理，对于实时处理的数据，利用 Dremel计算模型，通过列存储方式，利用多层次的查询数，能够对海量数据以较快的方式进行处理，提高了移民后扶监测数据处理的实时性。 3.4决策支持存放在数据中心的移民后扶监测数据，不能仅仅起着记录的作用，需要充分利用这些数据为移民后扶工作发挥作用，因此，需要深度挖掘这些海量的数据，发挥其价值，为有关部门提供决策支持。利用大数据的分布式处理技术，采用其挖掘方法，发现这些数据的内在规律和关联性。在水库

17、移民后扶监测信息系统中，大数据技术的云计算、数据文件分布式存储、并行分布式数据处理技术和大数据挖掘技术组成了水库移民后扶监测大数据处理的一整套技术体系。在移民后扶监测中，利用大数据挖掘技术，能够科学地监测和评估移民后扶政策实施的效果，为政策的完善做好决策支持。在移民人口核定中，有些地区移民流动大，外出务工较多，科学分析移民人口动态变化，能够对当地的人口结构进行有效地分析和处理，并对未来的人口发展趋势进行预测，对优化后扶政策和有关制度、基础资源的配置等能够起到决策支持作用。在精准扶贫中，能够根据大数据，分析和得出各地区特色和存在的问题，能够有效地对水库移民实

18、现精准扶持。大数据的实时分析能力和连续处理能力，能够满足各地的移民后扶数据的处理要求，实现大数据综合分析和处理能力，从而提高移民后扶的实时性和精准性，提高移民后扶的效果，达到水库移民脱贫致富的目的。 4应用结果分析图 2 是基于大数据技术的水库移民后扶监测系统主界面，图 3 是后扶数据监测表格和统计界面，图 3后扶数据监测表格和统计界面该系统在实践中应用效果表明，利用大数据技术处理移民后扶信息是可行的，并取得了良好的效果，主要体现在以下几方面 : 大数据的处理能力得到了提高。利用分布式并行数据处理技术，降低了对网络带宽的依赖，数据处理的时效得到极大的降低，数据处理的效率得到提高。监测系统的伸缩性得到了增强。系统采用分布式文件存储方案，采用统一的系统总线和各种标准的接口，数据服务器的数量能够根据数据量情况，实现弹性增加和减少，有效地解决了数据量增长带来的问题。监测系统的可靠性得到了提升。在大数据环境中，动态迀移处理技术的应用，计算机软硬件故障的问题可以得到有效地解决。降低了监测系统的投资成本。利用大数据技术，能够将成本低的服务器并联，形成网络体系，并且数据处理对服务器的配置要求不高，有效地降低了移民后扶监测信息系统的成本。 ( 责任编辑吴汉）

展开阅读全文