《智慧教学科研大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《智慧教学科研大数据平台建设方案.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智慧教学科研大数据平台建设方案 解决方案 目录 1. 概述 (4) 1.1.背景 (4) 1.2.建设目标 (4) 1.3.建设的步骤和方法 (4) 2. 教学科研大数据平台概要 (5) 2.1.架构设计 (5) 2.2.教学科研大数据平台优势 (7) 2.2.1. 应用优势 (7) 2.2.2. 未来发展优势 (9) 3. 教学科研大数据平台设计 (9) 3.1.大数据资源池 (10) 3.1.1. cProc云计算 (10) 3.1.1.1. cProc云计算概述 (10) 3.1.1.2. 数据立方 (11) 3.1.1.3. 混合存储策略 (16) 3.1.1.4. 云计算核心技术 (
2、16) 3.1.1.4.1. 数据处理集群的可靠性与负载均衡技术 (16) 3.1.1.4.2. 计算与存储集群的可靠性与负载均衡 (20) 3.1.1.4.3. 计算与存储集群的负载均衡处理 (22) 3.1.1.4.4. 分布式文件系统的可靠性设计 (24) 3.1.1.4.5. 分布式数据立方可靠性设计 (24) 3.1.1.4.6. 分布式并行计算可靠性设计 (26) 3.1.1.4.7. 查询统计计算可靠性鱼负载均衡设计 (26) 3.1.1.4.8. 数据分析与数据挖掘 (28) 3.1.1.4.9. cProc云计算优势 (36) 3.1.2. cStor云存储 (37) 3.1
3、.2.1. cStor云存储介绍 (37) 3.1.2.2. cStor云存储架构 (39) 3.1.2.3. Stor云存储关键技术 (44) 3.1.2.4. 数据安全诊断技术 (45) 3.1.2.5. cStor云存储优势 (46) 3.2.大数据教学基础平台 (47) 3.2.1. Hadoop架构 (47) 3.2.2. Hadoop关键技术 (48) 3.2.3. Hadoop优势 (52) 3.2.4. Hadoop教学 (52) 3.3.教学科研私有云 (54) 3.3.1. Minicloud迷你云 (54) 3.3.1.1. Minicloud迷你云介绍 (54) 3.3
4、.1.2. Minicloud迷你云特点 (55) 3.3.1.3. Minicloud迷你云优势 (55) 3.3.2. 网盘 (58) 3.3.2.1. 网盘系统设计 (58) 3.3.2.2. 文件同步管理系统 (60) 3.3.2.3. 文件分析系统 (65) 3.3.2.4. 网盘优势 (66) 4. 产品配置 (68) 1.概述 1.1. 背景 随着教学资源的飞速增长,海量数据的存储已经成为高校研究的一个新难题。针对传统存储架构已突显管理数据资源效率不高和存储能力不足等问题,利用大数据处理平台已成当务之急。大数据处理平台是建立在云数据库基础上针对海量的数据的集中计算。建立一套具有高
5、可靠、可在线弹性伸缩,提供数据内在关系和价值的数据计算平台。 在高校开发云计算科研平台、建立云计算科研实验室、创设云计算教学培训等,实现高校教学科研一体化流程。海量教学资源存储平台的实现使高校中海量教学资源数据能够有效存储和共享,对今后数字化校园的建设有了更加深渊的意义。为高校实现信息化教学和科研管理奠定良性基础,增加高校学生就业机会和薪资水平,逐步培养当今互联网时代IT行业的大数据人才。 1.2. 建设目标 建设一个大数据教学科研实验室,做成大数据平台。即可以为高校科学研究提供技术支持,也可以满足高校的教学内容,做成高校大数据的标杆。 1.3. 建设的步骤和方法 大数据平台建设以硬件平台搭配
6、软件为基础,支撑实验室电子数据信息的存储和处理。 1.首先需要建立初步的大数据存储资源池和计算资源池,通过cStor、cProc、Minicloud来实现存储资源池和计算资源池,搭配Hadoop和网盘达到教学任务和科研任务,可以提供初步的大数据平台教学科研效果,实现高校教学科研一体化。 2.对初步大数据存储资源池和计算资源池进行扩容,建立虚拟化平台,深层次进行高端教学和高精尖科研的大数据平台。 3.对大数据存储资源池和计算资源进一步挖掘,实现基于云存储、云计算、虚拟 化等技术的进一步科研。 2.教学科研大数据平台概要 2.1. 架构设计 建立初步的大数据存储资源池和计算资源池,通过大数据教学基
7、础平台、初步的大数据资源池(包括计算资源池和存储资源池)以及科研私有云建设来实现。 1.教学科研大数据资源池主要是计算资源池和存储资源池的设计和建设: a)cProc云处理平台建立计算资源池; b)cStor云存储系统建立存储资源池;组合成大数据资源池。 2.大数据教学基础平台通过Hadoop大数据平台建设来达到 使用Hadoop一揽子解决方案建设。 3.教学科研私有云建设:使用Minicloud搭配云盘设计学院私有云,辅助教学科 研,丰富教学科研多样化。 教学科研大数据平台架构图 高校中汇聚着大量的信息,从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借
8、阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。同时随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。 通过实际需求的判断,将科研教学大数据平台设计分为3个层次IaaS、PaaS、SaaS。 IaaS层:利用云存储技术和云计算
9、技术,将计算机存储和网络等硬件资源以逻辑方式形成基础资源池,通过这样的形式为实验室的各业务模块提供资源服务;同时提供统一监控管理。同时后期可以加入虚拟化技术再将资源池提供给虚拟机、虚拟存储或虚拟端口组等经过二次封装与组合、调度使用,形成一个个面向用户的虚拟服务器、虚拟桌面或者云存储系统。提供物理资源和虚拟资源的统一监控管理,进而提供全生命周期资源服务。 PaaS层:在IaaS层基础上,采用分布式数据库-数据立方来解决海量结构化数据的管理和数据交互,云存储集群来存储结构化数据和非结构化数据。提供标准SQL接口、JDBC接口、webservice接口、集群管理接口、负债均衡接口等接口与前台所有应用
10、进行无缝对接。同时预留了其他接口如提供海量任务并行调度引擎接口等接口极大的方便了大数据平台的扩展。能够实时处理任务的负载均衡和任务分发,做到所有任务实时分发处理,不堆积,做到高度可靠性,任何任务处理过程中不会丢失,保障所有任务都能够处理完。 SaaS层:大数据平台能够支撑完善的科研教学任务运行,所有科研教学任务数据统一管理,根据权限做到绝对安全访问,同时能够支撑云盘功能,为未来其他业务系统也留存了对接接口。 2.2. 教学科研大数据平台优势 2.2.1.应用优势 Hadoop集群指的便是为了对海量的非结构化数据进行存储和分析而设计的一种特定的集群。其本质上是一种计算集群,也就是将不同的数据进行
11、分配,并对其进行数据的处理。在大数据处理中Hadoop之所以能够应用非常的广泛,主要在于其进行数据提取、数据变形以及加载等方面优势非常的明显。Hadoop的分布式架构能够让大数据处理时候引擎靠存储更近。Hadoop本身的扩展性非常的高 Hadoop本身便是一个能够进行高度扩展的存储平台,其在进行数据存储以及分发的时候可以横跨几百个能够进行并行操作的廉价服务器数据集群。这种方式和以往的关系型数据库系统有着明显的区别,以往的关系型数据库系统并不能够很好的进行大量数据的处理,而Hadoop本身便能够给用户提供几千TB的数据节点。 Hadoop的应用在成本上有一定的优势 Hadoop本身的价格非常的低
12、廉,能够给用户节约更多的成本,这个存储解决方案的优势也更加的明显。在以往利用关系型数据库进行系统管理的时候,存在着一些问题。很多高校在以往不得不对数据的最优价值进行假设,然后根据其假设的价值对数据设定进行一定的分类,选择价值高的数据进行存储和处理,因为若是保存所有的数据,学校会付出巨大的成本。虽然上面的方式能够在比较短的时间内进行问题的解决,但是随着高校的发展,数据量也会不断的增加,这种方式并不能够彻底地解决问题。Hadoop的构架却和以往的关系型数据库有着明显的不同,它能够进行外延,能够更广地向外扩展,能够将高校所有的数据存储起来,并且消耗的成本比较低,在成本节约方面的效果非常好。并且Had
13、oop能够提供的计算能力以及存储能力也是非常惊人的,这不是较少的资金便能够解决的问题。 Hadoop在进行大数据处理的时候灵活性非常的强 Hadoop的应用能够帮助高校更快捷地进行新数据的访问,并且还能够对这些类型不同的数据进行一定的分析,找到这些数据中存在的价值。这种应用也直接意味着高校可以将Hadoop本身的灵活性利用进去,在一些电子邮件、社交媒体以及点击浏览中获得一些具有价值的信息,这对高校未来的发展是非常有利的。除此之外,Hadoop本身的应用也非常的广泛,能够更好的进行数据处理、系统推荐,对仓库中的数据以及市场活动进行一定的分析,甚至还能够对 欺诈进行检测。 Hadoop在进行大数据
14、处理的时候处理的速度非常的快 Hadoop本身拥有的存储方式是比较独特的,其数据和数据处理的工具经常处于同一个服务器上,这也导致了其在进行数据处理的时候,速度更加快。若是需要对非常多的非结构化数据进行处理,那么将Hadoop应用进去,便能够在几分钟的时间内处理几TB的数据,并且数据处理的有效性也能够得到保证,而利用以往的方式进行数据处理的时候,需要的时间非常长,单位经常是小时。 Hadoop本身的容错能力非常的强将Hadoop应用到大数据处理中去,一个重要的优势便是其容错能力非常的强。若是将数据发送到某个单独借点中去的时候,这些数据会直接被复制到其他的借点上,也就是说,在出现故障导致数据损失的
15、时候,其他借点的数据也能够应用。 Hadoop系统相比传统数据处理系统有如下技术优势: 1.高度可靠 Hadoop系统采用云架构,底层数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。HDFS的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的724小时不间断服务。 2.优异性能 Hadoop系统采用分布式并行计算技术,将海量数据的计算处理转化为各个存储节
16、点上并行读写和计算,这样减少了网络的带宽使用,提高了数据的处理速度。同时随着处理节点数目的增多,整个系统的计算性能将呈线性增长。 3.海量存储 Hadoop平台所依赖的数据存储层云数据库容量仅受限于卷管理服务器内存,可支撑的容量接近无限。 4.通用易用 Hadoop系统提供专用的API接口,供开发人员调用。 5.快速高效 Hadoop平台算法库采用了分布式并行算法能够在较短的时间内完整各种算法,同时随着机器的增加系统性能线性增长。 2.2.2.未来发展优势 大数据平台是一个可靠、安全、高性能、低成本、简捷易用的服务架构平台。在设计大数据平台架构时特别考虑到了系统的高灵活性和可扩展性,在自由的海
17、量分布式数据存储计算技术基础之上,根据各种应用数据的产生方式和使用特点,系统拥有功能丰富的、简捷易用的、专门面向物联网应用开发的编程接口,目的是为了降低未来物联网应用的数据接入和使用的技术门槛以及运营成本。 3.教学科研大数据平台设计 根据平台建设的需要,采用cStor、cProc、 Minicloud、网盘对数据进行统一集中的管理,通过分布式云平台的高可靠容错来对外提供稳定可靠的服务,同时依托分布式的云存储节点对外提供高速的存储访问服务;并且基于分布式架构的云存储平台,具有在线伸缩规模的能力,为系统的扩展提供良好的支撑。同时通过Hadoop建立一套具有高可靠、可在线弹性伸缩,提供数据内在关系
18、和价值的数据计算平台。为高校建立云计算科研实验室、创设云计算教学培训,实现信息化教学和科研管理奠定良性基础。具体如下: 大数据资源池: cProc云计算 cStor云存储 大数据教学基础平台: Hadoop平台 教学科研私有云: Minicloud迷你云 网盘 针对每一部分的技术说明,详见如下章节。 3.1. 大数据资源池 3.1.1.cProc云计算 3.1.1.1.cProc云计算概述 cProc是一种处理海量数据的高效分布式软硬件集合的云处理平台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量信息进行快捷、高效的处理。平台支持100GBps以上量级的数据流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析工作。平台可以对入口数据进行实时索引,对数据进行分析、清理、分割,并将其存储在云存储系统上,不仅在入库和检索时具有非常高的性能优势,还可以支持数据深度挖掘和商业智能分析等业务。 cProc云处理平台是搭建在云存储系统上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。cProc云处理平台是一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。