《基于大数据技术的水库移民后扶监测研究_余小高.docx》由会员分享,可在线阅读,更多相关《基于大数据技术的水库移民后扶监测研究_余小高.docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 科 技 创 业 基于大数据技术的水库移民后扶监测研究 余 小 筒 (湖北经济学院湖北武汉 430205) 摘要:为了解决水库移民后期扶持政策实施监测的数据量大、处理效率低等问题,提高数 据采集精确度,探讨了大数据技术在水库移民后期扶持政策监测中的应用。首先简述了大数据 的基本特点和关键技术,并将这些技术应用到水库移民后期扶持政策实施监测中,指出水库移 民后期政策扶持监测的数据符合大数据特征;其次提出了基于大数据技术的水库移民后期扶持 政策实施监测信息系统的体系架构,并介绍了数据处理过程;最后分析了研宄成果的实际应用, 达到了良好的效果。应用结果表明,研宄成果能够提高数据处理效率和精确度,解决
2、移民后扶监 测中存在的数据处理问题,为移民后扶政策的实施提供决策支持。 关键词:大数据技术;水库移民;数据处理 中图分类号: D632.4 文献标识码 : A doi : 10.3969/j.issn.l665-2272.2016.05.007 0引言 根据国务院关于完善大中型 水库移民后期扶持政策的意见 2006年 17号文件 (注: “ 后期扶 持政策 ”简称 “ 后扶 ” ),实施大中型 水库移民后期扶持政策监测评估 工作是有政策依据的。国家发改 委、财政部和水利部在 2011年联 合出台了 1033号文件关于开展 大中型水库移民后期扶持监测评 估工作的诵知,为监测评估的指标 体系、内容
3、和方法等进行了界定,同 时为保证大中型水库后期扶持政 策实施提供了监督和管理的依据。 目前,监测评估工作具体实施过程 中普遍存在着许多不容忽视的问 题: 样本选择不够合理,存在一 定的随意性,缺乏连续性; 评估 主体的能力需要提高,部分基层干 部人员工作态度不积极,工作效 率 不高,难以系统性地收集资料; 各地后扶监测评估不深入,走形 式,不能突出地方特色,监测方法 有待提高。这些问题对后扶政策实 施效果的客观评价产生了不容忽 视的影响,因此,对监测评估方式 方法等讲行研宄是非常必要的,也 是迫在眉睫的。本文以湖北省大中 型水库移民后期扶持政策实施监 测为切入点展开研宄。 水库移民后扶监测需要
4、采集、 存储、处理大量的移民人口数据、 直补资金、后扶项目、两区项目、专 项资金项目、移民培训项目、其他 资金项目等的各种信息,这些数据 不仅量大,而且结构差异性大。监 测中,需要提供 各种报表和统计分 析,为各级管理者提供决策支持。 因此,将大数据技术应用到大中型 水库移民后扶监测中,能够客观地 和全方位采集、存储后扶监测数 据,采用科学的数据处理方法,解 决当前水库移民后扶监测评估存 在的问题,更好地为后扶政策的实 施提供决策参考。 1大数据概述 当今计算机和网络已经深入 到人们生活的方方面面,不同领 域、不同行业、不同岗位、不同层次 的人们,可以利用计算机、移动终 端采集、使用这些数据,
5、这些特征 很有利于水库移民监测中数据的 采集和相互印证,达到客观和公 正。近年来,各种移动平台、公共网 络平台、专业网络平台和电子商务 等的迅速发展,极大地推动了数据 以指数级的方式增长。在这种背景 下, “ 大数据 ” 概念应运而生。大数 据指的是数据量规模巨大,数据呈 异构型,目前主流工具无法正常处 理。综合业界的研宄成果,大数据 具有以下 4个特征 : 数据量巨大, 不能用常规的方式存储; 数据结 构呈多样性,除包含结构化数据外, 还有大量的非结构化数据; 数据 的利用价值低,无法用常规的方法 在海量的数据中发现有价值的数 据; 实时性,虽然数据量巨大,数 据处理效率的实时性要求高 。
6、水库移民后扶监测数据来源 广泛,比如后扶人口、规划、年度计 划、扶持资金、后扶项目、两区项 目、专项资金、移民培训,等等。这 *基金项目:湖北省教育厅人文社科重点课题(编号 : 15D 086) 作者简介:余小高( 1969-),男,教授,博士,研究方向:大数据、水库移民后扶。 收稿日期: 2016-01-11 18 科技创业月刊 2016年第 5期 基于大数据技术的水库移民后扶监测研宄 科技论坛 些数据具有如下特征: 数据源 多、类型丰富; 数据量巨大; 数 据实时性。根据后扶监测数据特 征,在水库移民后扶监测中,主要 应用的大数据关键技术有 4个方 面: 数据采集。利用该技术可以 各种数据
7、源中的各种类型数据,通 过手机、平板电脑、各种传感器、计 算机网络等获取大量数据。 分布 式文件存储技术。该技术框架主要 包 括 云 计 算 、 Google的 GFS、 bigTable 及 Hadoop 的 HDFS 等。水 库移民后扶数据量巨大,无法用常 规的方法存储,因此可以利用大数 据存储技术解决存储问题。 并行 处理 技术。 MapReduce是目前最出 色的并行处理技术,能够解决水库 移民后扶监测数据处理的实时性 和连续性,提高数据处理效率和精 确度。 大数据挖掘技术。在常规 数据挖掘技术的基础上,大数据挖 掘技术需要开发、研宄出新的算 法。目前,可用Hive、 Mah0Ut等算
8、法 对大数据进行挖掘,解决数据量巨 大,但价值低的问题,充分挖掘出 有用的信息。 2后扶监测体系架构 基于大数据技术的水库移民 后扶监测体系架构如图 1所示,共 分为四层, S卩:数据采集和展现层、 数据应用层、数据存储层、云计算 平台层。其中,数据应用层分为四 个部分,分别为数据共享管理、数 据交换中心、平台监控和决策支 持。利用大数据的存储技术来构建 数据中心,通过大数据挖掘等技 术,实现了大中型水库移民后期扶 持的决策支持功能。数据服务功能 可以提供各种接口和系统总线,数 据交换中心利用数据交换技术,将 后扶人口,后扶资金管理,后扶项 目建设等不同子系统提供的数据, 根据它们不同的特征,
9、存储到数据 中心。 统架构各层的工作机制如下。 (1) 数据采集和展现层。在移 民后扶监测体系的数据采集层,利 用大数据的采集技术,通过手机、 平板电脑等移动终端和各种数码 设备等工具,有效而全面地采集移 民后扶的各类数据,保证数据的有 效性、全面性、实时性和精确性。 (2) 云计算平台层。该层采用 云计算的分布式处理技术,构建系 统基础平台,为移民后扶监测大数 据的应用提供最基本的物理平台。 (3) 数据存储层。该层利用了 HADOOP中的 HDFS存储技术存 储,整合了移民后扶监测中各种数 据库和数据资源,存储移民后扶 监测中的各类结构化和非结构化 数据。 (4) 数据应用层。该层采用大
10、数据挖掘技术对移民后扶监测总 的各种数据进行挖掘分析,为安置 区和库区规划、移民资 金、移民项 目、移民村特色及环境监测等方面 提供决策支持服务。 根据以上研宄,系统算法如下: (1) Source n =Source 1, source2, , sourcen /确定 n个数据源, 形成数据源组。 (2) DataSource =Source n/对 数据源组的数据帅选、过滤、规范、 标准等操作。 (3) CollectDatal =Filtl Data- Source /结构化数据清洗。 (4) CollectData2 =Filt2 Data- Source /非结构化数据清洗。 (5
11、)CloudSavel = CollectDatal /结构化数据存储。 (6) CloudSave2 =HDFS (Collect- Datal) /非结构化数据存储。 (7) Result =MapReduce_Dremel (CloudSavel,CloudSave2)/米用分 布式实时处理技术,对数据进行 处理。 (8) DSS =Spported (Result)/将 处理后的数据形成决策支持。 3后扶数据处理 大数据技术贯穿水库移民后 扶监测的数据采集、数据存储、数 据加工和决策支持等数据处理的 各个阶段,具体如下。 3.1数据采集 在水库移民后扶监测中,为了 精准地监测后扶政策实
12、施效果,有 大量和连续的数据需要采集,比如 后扶人口、规划、年度计划、资金、 后扶项目、两区项目、专项资金、移 民培训等等数据,以便及时和动态 地掌握移民后扶各项工作的进展 情况和移民脱贫致富等后扶效果。 在移民后扶监测数据采集中, 常用的采集工具有手机、平板电 脑、数码相机、笔记本、台式机、扫 描仪、摄像机、录音笔等工具,以数 字化方式记录移民后扶的相关文 件资料,在录入过程中,保证数据 的规范性。对于实时和连续性的数 据,可以采用自动化设备进行采 集。从技术层面上,对各种数据源 进行分析,利用大数据技术,形成 统一的数据集成平台,可以实现已 有的各种数据的有效融合。 3.2数据存储 由于移
13、民后扶监测的数据量 巨大,数据类型多,包含了大量文 字、图片、声音、视频等非结构化数 据,常规的存储方式无法达到满意 的效果,也不利于数据的分析与处 图 1 体 系 架 构 PIONEERING WITH SCIENCE & TECHNOLOGY MONTHLY 0.5 2016 19 科技创业爲 PIONEERING WITH SCIENCE i TECHNOLOGY MONTHLY - 理。利用大数据的分布式文件存储 技术,如 GFS、 HDFS等的数据分块 功能和追加更新方式,可以满足高 效的实时性和海量数据存储的要 求。该技术对硬件要求不高,可降 低硬件的投入成本。在实现上,是 将足够
14、多的成本低的服务器互联, 就能够实现分布式存储,满足移民 后扶监测的大数据存储。 3.3数据加工 由于移民后扶监测数据量巨 大,而传统的数据加工方法效率低 下、耗时较长,无法做到实时性和 精准性;同时数据的价值也无法充 分挖掘出来,达不到监测的效果。 针对这些问题,将大数据云计算的 并行处理技术应用到移民后扶监 测数据加工处理中,数据分析的效 率得到大大提高,能够实时和连续 地处理这些异构的、数据量大的数 据 。目前,在大数据环境中 MapReduce 模型是并行式处理的 主要技 术,能够对大规模集群的数据进行 并行处理,满足大数据处理的需 要。其工作方式如下。 (1) 建立中间文件。根据需要
15、 处理的数据在各节点的分布情况, 发送Map命令在这些节点上运行, 在本地服务器上进行写操作,获得 中间文件。 (2) 本地节点运行指令。由于 写操作功能是在本地运行的,减少 了中间文件数据的传送对网络带 宽的依赖,减少了传送时间;若中 间文件需要执行 Reduce操作,主 数据服务器就将 Reduce指令发送 到指定的节点,在节点所在的本地 执行,这样就进一步减少了数据对 网络带宽的依赖,提高了数据的处 理效率。 (3) 容错处理。在大数据处理 中,MapReduce模型具有很好的容 错性能,正在运行的程序能够被 MapReduce从发送故障的节点动 态迁移到另外一个工作正常的数 据节点上执
16、行。 (4) 实时处理。 MapReduce适 20 科技创业月刊 2016年第 5期 基于大数据技术的水库移民后扶监测研宄 合对数据进行批处理,对于实时处 理的数据,利用 Dremel计算模型, 通过列存储方式,利用多层次的查 询数,能够对海量数据以较快的方 式进行处理,提高了移民后扶监测 数据处理的实时性。 3.4决策支持 存放在数据中心的移民后扶 监测数据,不能仅仅起着记录的作 用,需要充分利用这些数据为移民 后扶工作发挥作用,因此,需要深 度挖掘这些海量的数据,发挥其价 值,为有关部门提供决策支持。利 用大数据的分布式处理技术,采用 其挖掘方法,发现这些数据的内在 规律和关联性。在水库
17、移民后扶监 测信息系统中,大数据技术的云计 算、数据文件分布式存储、并行分 布式数据处理技术和大数据挖掘 技术组成了水库移民后扶监测大 数据处理的一整套技术体系。 在移民后扶监测中,利用大数 据挖掘技术,能够科学地监测和评 估移民后扶政策实施的效果,为政 策的完善做好决策支持。在移民人 口核定中,有些地区移民流动大, 外出务工较多,科学分析移民人口 动态变化,能够对当地的人口结构 进行有效地分析和处理,并对未来 的人口发展趋势进行预测,对优化 后扶政策和有关制度、基础资源的 配置等能够起到决策支持作用。在 精准扶贫中,能够根据大数据,分 析和得出各地区特色和存在的问 题,能够有效地对水库移民实
18、现精 准扶持。大数据的实时分析能力和 连续处理能力,能够满足各地的移 民后扶 数据的处理要求,实现大数 据综合分析和处理能力,从而提高 移民后扶的实时性和精准性,提高 移民后扶的效果,达到水库移民脱 贫致富的目的。 4应用结果分析 图 2 是 基 于 大 数 据 技 术 的 水 库移民后扶监测系统主界面,图 3 是后扶数据监测表格和统计界面, 图 3后扶数据监测表格和统计界面 该系统在实践中应用效果表明,利 用大数据技术处理移民后扶信息 是可行的,并取得了良好的效果, 主要体现在以下几方面 : 大数据 的处理能力得到了提高。利用分布 式并行数据处理技术,降低了对网 络带宽的依赖,数据处理的时效得 到极大的降低,数据处理的效率得 到提高。 监测系统的伸缩性得到 了增强。系统采用分布式文件存储 方案,采用统一的系统总线和各种 标准的接口,数据服务器的数量能 够根据数据量情况,实现弹性增加 和减少,有效地解决了数据量增长 带来的问题。 监测系统的可靠性 得到了提升。在大数据环境中,动 态迀移处理技术的应用,计算机软 硬件故障的问题可以得到有效地 解决。 降低了监测系统的投资成 本。利用大数据技术,能够将成本 低的服务器并联,形成网络体系, 并且数据处理对服务器的配置要 求不高,有效地降低了移民后扶监 测信息系统的成本。 ( 责任编辑吴汉)