《118页智慧教学科研大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《118页智慧教学科研大数据平台建设方案.docx(111页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智慧教学科研大数据平台解决方案智慈教学科研大数据平台建设方案2018年在TaaS层基础上,采用分布式数据库一数据立方来解决海量结构 化数据的管理和数据交互,云存储集群来存储结构化数据和非结构化 数据。提供标准SQL接口、JDBC接口、webservice接口、集群管理接 口、负债均衡接口等接口与前台所有应用进行无缝对接。同时预留了 其他接口如提供海量任务并行调度引擎接口等接口极大的方便了大数 据平台的扩展。能够实时处理任务的负载均衡和任务分发,做到所有 任务实时分发处理,不堆积,做到高度可靠性,任何任务处理过程中 不会丧失,保障所有任务都能够处理完。SaaS层:大数据平台能够支撑完善的科研教学
2、任务运行,所有科 研教学任务数据统一管理,根据权限做到绝对平安访问,同时能够支 撑云盘功能,为未来其他业务系统也留存了对接接口。2.2.教学科研大数据平台优势221.应用优势Hadoop集群指的便是为了对海量的非结构化数据进行存储和分 析而设计的一种特定的集群。其本质上是一种计算集群,也就是将不 同的数据进行分配,并对其进行数据的处理。在大数据处理中Hadoop 之所以能够应用非常的广泛,主要在于其进行数据提取、数据变形以 及加载等方面优势非常的明显。Hadoop的分布式架构能够让大数据处 理时候引擎靠存储更近。Hadoop本身的扩展性非常的高Hadoop本身 便是一个能够进行高度扩展的存储平
3、台,其在进行数据存储以及分发智慈教学科研大数据平台建设方案2018年桌面虚拟化系统亦可利用您原有的教学科研环境。用户的各种教学 科研应用均可运行在本地,日常的操作可于本地完成。而对于高校 核心数据的访问,需耍通过桌面虚拟化系统,在管理员的授权之下 进行,数据管控不误便捷教学科研。.网盘3.3.2.1.网盘系统设计L技术特点系统采用基于云存储的平台设计模式,打造的同步存储检索云。网盘系统包括:【文件同步管理系统】、【文件存储服务系统】、【文 件分析系统,文件存储服务系统是指通过集群应用、网格技术或分布式文件系 统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合 起来协同工作,共同对外提
4、供数据存储和业务访问功能的一个系统。 文件同步管理系统是指以云存储系统为基础,通过多种智能设备终端 收集数据,将数据同步到统一存储云上。文件分析系统是指在已有数 据的基础上,通过全文索引,按照权限划分等方式对存储系统中的各 种类型数据进行全文检索,同时对视频等相关文件进行格式转换,供 用户进行在线浏览。智慈教学科研大数据平台建设方案2018年文件同步管理系统应用示意图文件存储服务系统采用cStor云存储系统,为文件管理服务端提 供底层数据存储及管理服务。可以作为标准的存储系统为网盘应用系 统提供标准的数据存储。智慈教学科研大数据平台建设方案2018年个人爵足耽嫉BUS .,其已BUB一L)一L
5、)主LVS服务器番LVS服务器r;存储节点;服务甘点存储系统应用示意图2.系统设计原那么.高可用性原那么:7x24小时不间断可用性。1 .高性能原那么:具有较高实用性,有效实现万级别用户服务。2 .高性价比原那么。3 .据用户及业务规模作出最合理的配置方案。4 .高可管理性原那么。5 .统一前端、分布中端、统一后端存储架构。6 .先进性/可扩展性原那么。7 .采用先进架构及技术,可升级、易扩容,可持续。3.系统功能智慈教学科研大数据平台建设方案2018年网盘系统旨在方便用户对自己文件的备份,保存。在使用网盘中 可让用户体会到如下优势:便于携带:将常用文件存入网络硬盘,在需要的时候既可以用来展
6、示,还可以给其他人发送电子邮件等,同时也防止了携带太多文件 的麻烦。便于保管:可以将个人电脑中的重要文件存入网络硬盘,防止因为 电脑以外造成的文件丧失。便于共享:将想要共享的文件、照片、视频等进行外链提供,方便 同事等对这些珍贵文件进行查看。利于文件珍藏:由于个人电脑硬盘空间有限,可以将喜欢的文件存 入网盘即可。节省时间:将自己常用的软件及电脑驱动软件存入网盘,即节约本 地硬盘空间,也省去了寻找相关软件的麻烦。保护隐私:可将自己电脑中的隐私文件存入私人网盘,并设置访问 密码和访问权限,从而有效地保护私人秘密。操作直观方便简单:根据所使用的网络硬盘直接在网上注册使用。平安可靠:使用备份技术对数据
7、备份,即使一块数据损坏还存在多 个备份。33.2.2. 文件同步管理系统智慈教学科研大数据平台建设方案2018年网盘系统是针对用户文件管理混乱且易丧失的情况,且不断增长 的情况下,造成用户文档管理低效而开发的云存储云盘软件,提供多 终端无缝访问,不改变用户使用习惯的前提下,为用户提供高效文档 管理利器。网盘系统还提供的目录共享、文件历史版本恢复、文件外链、目 录操作历史等特色功能,让用户更方便协作、为文档编辑提供补偿机 制、提供API文档与外部接口,同时提供丰富的插件来满足不同用户 的个性化需求。同时提供用户自主注册.功能描述基于云存储平台的多终端数据同步服务,为用户提供个性化的数 据管理方式
8、。系统提供了一套完整的数据应用、管理、监控的解决方 案。同时,同步管理系统作为数据应用系统,为用户提供个人数据存 储、提供服务,保护数据平安等基础服务。此外,灵活的空间管理、 集中的账户配置、实时的日志审计方便系统管理者实现全方位的管理 和监控。智慈教学科研大数据平台建设方案2018年智慈教学科研大数据平台建设方案2018年系统整体部署图满足用户平安访问特性,通过防火墙的控制,可以到达平安访问 的要求,同时对用户数据集进行模块化分析,防止用户数据被盗用。1 .主要功能点收集数据集中存储1)为为用户提供平安可靠的数据集中存储环境。2)防止数据不必要丧失。3)随时随地访问数据。4)提供基于PC、w
9、eb、Android、iPhone/基ad等终端设备的数据同步 客户端。多种格式数据收集1)通讯录:备份通讯录联系人,快速整理通讯录。2)短信:手机端增量备份短信,网页实时查看搜索。3)视频:本地视频同步上传,在线视频同步播放。4)图片:手机端wifi智能图片同步。5)文件:各种格式文件快速同步。6)笔记备份同步:手机端添加记事笔记,实时同步。统一管理1)提供子账号功能,并可对子账户进行权限分配。2)元/流别离设计模式,支持秒传机制,版本历史,事件列表等。平安可靠智慈教学科研大数据平台建设方案2018年1)基于OAuth协议,保证数据传输平安。2)可以支持网络银行SSL加密技术,文件加密存储和
10、传输。同步管理系统通过模块化机制扩展出了非常丰富的功能模块。同步管理系统等很多通过模块化的实用功能/_Web操作飞-.- -Android/iPhone-Pc端支持 IE/ChromeAM文件上传、下载自动同步文件上传、下载文件修改、删除文件上传、下载文件修改、删除重命名、移动文件修改、删除重命名、移动文件手动排序文件重命名文件历史版本文件秒传文件秒传操作历史文件提供断点续传文件排序备注冲突机制文件标签缩略图选择性同步缩略图国际化代理设置国际化自动更新虚拟盘符Office在线浏览权限机制监控目录打包下载离线模式国际化文本在线编辑在线浏览权限响应智慈教学科研大数据平台建设方案2018年同步系统与
11、存储系统结合从两个方面降低TT本钱:大幅减低存储 资源:在同等备份情况下,采用同步系统存储方式,可以节省存储资 源70%以上,系统采用去重、差分编码、压缩等机制,相比传统文件 的备份与存储,可大量节省服务端空间的占用,大幅减少存储资源的 使用:1)去重:用户文件同步到服务端时,会自动进行识别与过滤,如果服 务器上已经存在相同哈希值的文件,平台会瞬间将文件上传完成, 体验“零秒上传”,同时也重复占用服务器存储空间2)差分编码:系统采用轻量级差分编码技术,如果用户修改文件后生 成新版本与历史版本有差异时,通过差分编码技术,只是同步差异 局部的数据块即可,可减少对存储资源的占用。3)压缩:传统文件备
12、份时,一般不进行压缩,该存储在云端的文件, 都是经过高倍压缩的,能更好的节省云端空间。2 .主要特点1)元/流分开设计模式,支持秒传,去重复文件的描述信息和文件内容本身分开存储,将描述信息存储到数据库, 文件内容存到任cStor云存储系统。如果服务器存在相同内容的文件, 那么使用服务器上己经存储的副本,省去再次上传的消耗。2)提供标准REST风格API网盘系统开放了 rest风格的API,以便开发者使用。网盘系统使用的 客户端/移动端均是基于API进行开发的。智慈教学科研大数据平台建设方案2018年3)基于0Auth2. 0的用户验证机制Oauth是平安的,用户登录完成之后,客户端/移动端将都
13、不在保存用 户的帐号信息(用户名和密码),为之后的API服务提供了简单的、标 准的访问方式。4)插件机制网盘系统提供插件机制,即可以动态的添加或者删除一些功能。到目 前为止,我们提供了 40多个功能各异的插件,另外,用户开发如有相 关需求也可以开发一些插件以满足个性化需求。5)可移植性网盘系统支持跨平台,可以在Windows、Linux、MAC 0S等平台上运行, 用户可以根据自己的需求选择不同的服务器平台。6)方便与现有系统集成提供AD (LDAP)域验证以及CAS验证方式,可和现有系统方便集成。33.2.3. 文件分析系统随着信息化的普及,用户可收集文档途径增多,同时对用户有益 的内容也越
14、来越多,用户收集到信息存储后,怎么让用户方便快捷的 查找文档成为提高用户体验一个非常重要的标准。对用户在云存储系统中的数据进行全文索引处理,用户可方便的 对自己拥有文档进行检索。针对用户的office智慈教学科研大数据平台建设方案2018年的时候可以横跨几百个能够进行并行操作的廉价服务器数据集群。这 种方式和以往的关系型数据库系统有着明显的区别,以往的关系型数 据库系统并不能够很好的进行大量数据的处理,而Hadoop本身便能够 给用户提供几千TB的数据节点。Hadoop的应用在本钱上有一定的优势系统查询界面用户管理统计报表统一查询接口分类控制权限控制时间控制数据分析分词模块索引库量 分词功能类
15、 多种分词方法|弓i |创立索引更新索引理分词运算时间分词准确性理 访问索引索引优化结构化数据|非结构化数据各种类型数据导入系统H志记录模型模块,内容模块系统内部构架图智慈教学科研大数据平台建设方案2018年文档、电子邮件、合同,单据等非结构化数据在数据量很大的情 况下,用户很难从中找到需要的信息,云检索系统旨在解决此用户需 求,满足用户对大量非结构化数据进行检索,使用户能快速、高效的 查询上述类型的非结构化数据。视图模块控制模块1 .提供对 Word. Excel. PowerPoint、PDF、TXT 以及其它文档内 容的查询。2 .提供对上述文件内容的在线浏览功能。检索系统特点:1 .与
16、存储同步系统完美融合,适配权限分配,对查询信息进行灵活处理。2 .检索速度快,不受硬件性能影响。智慈教学科研大数据平台建设方案2018年3 .检索系统分布式部署、并发检索。检索速度不再受单台服务器性能 的限制,可根据海量数据规模增长需求,提高检索速度。智慈教学科研大数据平台建设方案2018年4 .规模弹性化扩展.系统方案具备云检索弹性扩展能力,当资源缺乏时,可随时无障碍 扩充硬件资源,前端应用业务无需停机等待或程序调整,完全不受 扩充影响。具备弹性扩展能力的高速检索平台有助于控制前期建设 规模,根据业务运营进展有序扩张。5 .提供API接口,能够灵活支持各种应用接入,同时支持关系数据库 数据导
17、入,方便传统应用向云架构迁移。6 .服务稳定.云检索平台内置监控功能,多维度监测检索平台及节点运行质量, 平台调度系统根据监控数据调度资源保障检索服务稳定提供。332.4,网盘优势1 .便捷的文件管理集中存储用户所有数据,分类管理,配额控制,合理规划用户空 间。在线预览:不用安装任何插件,即可在线高质量预览文件,支持 大多数文件类型。断点续传:如果意外造成传输中断,再次上传文件 时将从断点处继续上次的传输。个人回收站:删除的文件将移动到Web 端的回收站,并保存30天,以便进行误删恢复。2 .跨平台支持支持 Web 端、PC 端(Windows)以及移动端(iPad、iPhone Androi
18、d) 多平台数据同步,实现数据无缝对接,随时随地访问云端文件,轻松 实现移动教学科研。智慈教学科研大数据平台建设方案2018年3.数据同步和备份自动同步各平台文件与云端自动保持一致,在任一设备对文件的增删或修改,都会实时更新到其他设备同步动态实时查看同步进度,管理同步进程,还有详细的历史记录供您查看选择性同步您可能不希望将云端所有文件都同步到本地磁盘,或者想先同步某些 紧急性较高的文件,那么可以对文件目录进行选择性过滤同步局域网加速自动检测拥有相同文件的其他终端,已同步完成的文件将直接在局域 网内分发,大大减少带宽占用,同步速度可提高10倍以上自动备份您可以指定电脑、手机等存储硬件上的文件夹、
19、文件、数码相片、相 册、通讯录等上传到云端或网络空间,网盘会自动进行备份,实现长 期保存、在线浏览,下载本地等4 .快捷的文件提供大文件发送无论是GB级的单个大文件,还是多个文件的批量发送,接受者都可通 过链接迅捷下载外链管理智慈教学科研大数据平台建设方案2018年对于重要文件,您可以设置有效期和访问密码,系统还会统计下载次 数预览权限您可以控制外链接受者的文件使用权限,有效限定文件的使用范畴邮件提供支持邮件提供外链,以邮件形式发送链接地址,沟通更便捷.平安可靠从数据传输到平安存储,均采用最高级的平安策略,专为用户打造专 有的存储空间,确保用户数据平安可靠。日志审计全面的日志功能,记录各文档生
20、命周期的操作记录,用户的使用情况 也会被完整记录,且无法删除或更改,便于管理员进行监控和审计用户平安管理网盘管理员,除管理用户的基本设置、所属团队及用户的访问权限外, 还可以对用户的访问平安策略进行配置数据平安存储采用最先领先的云存储技术进行数据存储,确保数据平安可靠智慈教学科研大数据平台建设方案2018年4.产品配置见附表智慈教学科研大数据平台建设方案2018年Hadoop本身的价格非常的低廉,能够给用户节约更多的本钱, 这个存储解决方案的优势也更加的明显。在以往利用关系型数据库进 行系统管理的时候,存在着一些问题。很多高校在以往不得不对数据 的最优价值进行假设,然后根据其假设的价值对数据设
21、定进行一定的 分类,选择价值高的数据进行存储和处理,因为假设是保存所有的数据, 学校会付出巨大的本钱。虽然上面的方式能够在比拟短的时间内进行 问题的解决,但是随着高校的开展,数据量也会不断的增加,这种方 式并不能够彻底地解决问题。Hadoop的构架却和以往的关系型数据库 有着明显的不同,它能够进行外延,能够更广地向外扩展,能够将高 校所有的数据存储起来,并且消耗的本钱比拟低,在本钱节约方面的 效果非常好。并且Hadoop能够提供的计算能力以及存储能力也是非常 惊人的,这不是较少的资金便能够解决的问题。Hadoop在进行大数据处理的时候灵活性非常的强Hadoop的应用 能够帮助高校更快捷地进行新
22、数据的访问,并且还能够对这些类型不 同的数据进行一定的分析,找到这些数据中存在的价值。这种应用也 直接意味着高校可以将Hadoop本身的灵活性利用进去,在一些电子邮 件、社交媒体以及点击浏览中获得一些具有价值的信息,这对高校未 来的开展是非常有利的。除此之外,Hadoop本身的应用也非常的广 泛,能够更好的进行数据处理、系统推荐,对仓库中的数据以及市场 活动进行一定的分析,甚至还能够对欺诈进行检测。Hadoop在进行大数据处理的时候处理的速度非常的快智慈教学科研大数据平台建设方案2018年Hadoop本身拥有的存储方式是比拟独特的,其数据和数据处理 的工具经常处于同一个服务器上,这也导致了其在
23、进行数据处理的时 候,速度更加快。假设是需耍对非常多的非结构化数据进行处理,那么 将Hadoop应用进去,便能够在几分钟的时间内处理几TB的数据,并 且数据处理的有效性也能够得到保证,而利用以往的方式进行数据处 理的时候,需要的时间非常长,单位经常是小时。Hadoop本身的容错能力非常的强 将Hadoop应用到大数据处理中 去,一个重要的优势便是其容错能力非常的强。假设是将数据发送到某 个单独借点中去的时候,这些数据会直接被复制到其他的借点上,也 就是说,在出现故障导致数据损失的时候,其他借点的数据也能够应 用。Hadoop系统相比传统数据处理系统有如下技术优势:1 .高度可靠Hadoop系统
24、采用云架构,底层数据被分块存储在不同的存储节点 上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储 服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间 断。HDFS的管理节点采用了主备双机镜像热备的高可用机制,在主管 理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新 的主管理节点,待故障节点修复并重启服务后,它那么成为新的备管理 节点,保障系统的7义24小时不间断服务。2 .优异性能智慈教学科研大数据平台建设方案2018年Hadoop系统采用分布式并行计算技术,将海量数据的计算处理转 化为各个存储节点上并行读写和计算,这样减少了网络的带宽使用, 提高了数据的处
25、理速度。同时随着处理节点数目的增多,整个系统的 计算性能将呈线性增长。3 .海量存储Hadoop平台所依赖的数据存储层云数据库容量仅受限于卷管理 服务器内存,可支撑的容量接近无限。4 .通用易用Hadoop系统提供专用的API接口,供开发人员调用。5 .快速高效Hadoop平台算法库采用了分布式并行算法能够在较短的时间内 完整各种算法,同时随着机器的增加系统性能线性增长。2.2.2.未来开展优势大数据平台是一个可靠、平安、高性能、低本钱、简捷易用的服 务架构平台。在设计大数据平台架构时特别考虑到了系统的高灵活性 和可扩展性,在自由的海量分布式数据存储计算技术基础之上,根据 各种应用数据的产生方
26、式和使用特点,系统拥有功能丰富的、简捷易用的、专门面向物联网应用开发的 编程接口,目的是为了降低未来物联网应用的数据接入和使用的技术 门槛以及运营本钱。智慈教学科研大数据平台建设方案2018年3.教学科研大数据平台设计根据平台建设的需要,采用cStor eProc、Minicloud、网盘对 数据进行统一集中的管理,通过分布式云平台的高可靠容错来对外提 供稳定可靠的服务,同时依托分布式的云存储节点对外提供高速的存 储访问服务;并且基于分布式架构的云存储平台,具有在线伸缩规模 的能力,为系统的扩展提供良好的支撑。同时通过Hadoop建立一套具 有高可靠、可在线弹性伸缩,提供数据内在关系和价值的数
27、据计算平 台。为高校建立云计算科研实验室、创设云计算教学培训,实现信息 化教学和科研管理奠定良性基础。具体如下:大数据资源池: eProc云计算cStor云存储大数据教学基础平台: Hadoop 平台教学科研私有云: Minicloud 迷你云网盘针对每一局部的技术说明,详见如下章节。智慈教学科研大数据平台建设方案2018年3.1 .大数据资源池eProc 云计算3.1.1.1. eProc云计算概述eProc是一种处理海量数据的高效分布式软硬件集合的云处理平 台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对这 些海量信息进行快捷、高效的处理。平台支持lOOGBps以上量级的数 据
28、流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析 工作。平台可以对入口数据进行实时索引,对数据进行分析、清理、 分割,并将其存储在云存储系统上,不仅在入库和检索时具有非常高 的性能优势,还可以支持数据深度挖掘和商业智能分析等业务。eProc云处理平台是搭建在云存储系统上,对业务层直接提供对 外开发接口和数据传输接口的分布式数据处理平台。eProc云处理平 台是一种处理海量数据的并行编程模型和计算框架,用于对大规模数 据集的并行计算。智慈教学科研大数据平台建设方案2018年处理层JobKeeperMapReduce应用层数据立方llbase层 -cStorHDFS虚拟资源层eProc架
29、构图同时eProc云处理软件支持和关系数据库混合模式,绝大局部海量 数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数 据存放于关系数据库,以满足支撑各种类型的业务需求。支持支撑查 询、统计、分析业务;可支撑深度数据挖掘和商业智能分析业务。要 求对标准SQL规范支持度到达50%以上。提供属性选择、分类预测、 回归预测、聚类分析、关联分析、时间序列分析等数据挖掘算法。提 供食品二维码扫描功能,能够对各类信息实现溯源。3.1.1.2,数据立方智慈教学科研大数据平台建设方案2018年我们以B+树的结构建立了字段的索引,每个B+树结构的字段索引 相当于一个数据平面,这样一个全局数据表与其多个
30、重要字段的索引 就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方”。7段x索引:,7高引 =1:,7高引 =1全局数据收r字段X MJ必料的索引X.mLllHU ,1,, -一三七匕心:数据文件在HDFS上的绝对路竹+文件中的偏移员数据立方图eProc是一种用于数据分析与索引的技术架构。它是针对大数据 (big data)的处理利器,可以对元数据进行任意多关键字实时索引。 通过eProc对元数据进行分析之后,可以大大加快数据的查询和检索 效率。eProc是凌驾于数据存储层和数据库系统之上的,通过eProc解析 后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据 实时入库、
31、实时查询、查询结果实时传输等优势。1.技术参数智慈教学科研大数据平台建设方案2018年技 术 参 数工程内容可管理的数据总量支持100PB量级的数据管理实时索引数据流S支持lOOGbps以上量级的数据流实时索引关键字段实时创立索引根据提供的表结构解析元数据,并根据提供 的任意关键字段实时创立索引。可移植性Java语言实现,具有跨平台性,一次编程, 任意操作系统都可运行。实时查询1小时范围查询:13秒内响应,24小时范围查询:3 5秒内响应,7*24小时范围查询:5 10秒内响应。支持简单SQL组合查询采用和关系数据库混合模式,绝大局部海量 数据存放于分布式平台并进行分布式处理, 少量实时性要求
32、很高的数据存放于关系数 据库,可支撑各种类型的业务。不仅支撑查 询、统计、分析业务,还可支撑深度数据挖 掘和商业智能分析业务。负载均衡拔掉或增加一台节点后,仍能均匀地向各处 理节点分发数据。支持并发查询智慈教学科研大数据平台建设方案2018年目录1 .概述01.1. 背景01.2. 建设目标01.3. 建设的步骤和方法1.教学科研大数据平台概要11.4. 架构设计11.5. 教学科研大数据平台优势41.5.7, 应用优势41.5.8, 未来开展优势7.教学科研大数据平台设计81.6. 大数据资源池91.6.7, eProc 云计算.9eProc云计算概述91.6.7.1. 数据立方10合存储策
33、略161.6.7.2. 云计算核心技术17数据处理集群的可靠性与负载均衡技术171.6.7.2.1. 计算与存储集群的可靠性与负载均衡21与存储集群的负教均衡处理231.6.7.2.2. 分布式文件系统的可靠性设计26分布式数据立方可靠性设计271.6.7.2.3. 分布式并行计算可靠性设计28统计计算可靠性鱼负载均衡设计301.6.7.2.4. 数据分析与数据挖掘33eProc 云计算优势441.6.8, cStor 云存储.46cStor 云存储介绍461.6.8.1. cStor 云存储架构49Stor云存储关键技术551.6.8.2. 数据平安诊断技术57cStor 云存储优势591.
34、7. 大数据教学基础平台601.7.7, Hadoop 架构601.7.8, 甲关键技术621.7.9, Hadoop 优势661.7.10, Hadoop 教学661.8. 教学科研私有云701.8.7, Minicloud 迷你云.70智慈教学科研大数据平台建设方案2018年20个查询都能正常下发执行、且都能正常返 回结果,20个查询任务的总耗时差距不大, 根据机器负载进行均衡分配查询任务。数据准确性查询条件相同情况下,每次查询结果相同。稳定性系统连续运行7*24小时: 无任何故障,所有 周期任务均正常执行,旦执行结果正确。可靠性没有单点故障,任意节点宕机,系统工作正 常,可以继续进行数据
35、处理和应用查询,不 会影响分布式系统运行和查询结果的准确 性。灵活性既可以在很小规模机器上跑,也可以在成千 上万台的机器上运行,而且经过很简单的操 作就可以把规模扩展到成千上万台服务器 上,而且可靠性随着加入节点的增加成线性 上升。分布式计算能力集群能增加节点、并且能正常执行查询任 务,在流量没变、资源增加的情况下,增加 机器前后,查询任务耗时按比例降低。支持对外接口支持Web访问和Web Services接口进行对 外数据交互操作。智慈教学科研大数据平台建设方案2018年监控功能提供web界面对分布式文件进行监控,支持 查看、下载索引文件和元数据文件。智慈教学科研大数据平台建设方案2018年
36、技术参数图2.软件接口说明接口名称参数用途单条、多条记录入库接 表名、记录用于根据表结构,插入对应的单条或多条记录带有记录的文件导入接口表名、文件路径用于根据表结构,导入带有记录的文件,将记录入库的接口查询接口时间戳、 表名、其 他查询条 件(sql 语句)用于根据时间戳、表名等查询条件,过滤出符合的记录单条、多条记录入库wcbservice 接口Webservi ce地址、 表名、记 录用于根据表结构,通过 wcbservice方式,插入对应的 单条或多条记录带有记录的文件导入webservice 接口W用于根据表结构,通过 webservice方式,导入带有记 录的文件,将记录入库的接口智
37、慈教学科研大数据平台建设方案2018年ebservic e地址、 表名、文件路径查询 webservice 接口Webservi ce地址、 时间戳、 表名、其 他查询条 件(sql 语句)用于根据时间戳、表名等查询 条件,通过webservice方式, 过滤出符合的记录3.入库性能产品入库数据量(条)入库时间(ms)数据立方50001,2101万1,32010万2,33650万11. 133200万63, 9092000 万314, 3255000 万880, 120智慈教学科研大数据平台建设方案2018年1亿1,564, 9634亿4, 850, 8238亿8, 731,481智慈教学科研
38、大数据平台建设方案2018年入库性能表4.查询性能产品入库数据量(条)查询时间(ms)数据立方50001,0121万1,03310万1,35050万1,397200万1,3392000 万1,3565000 万1,4101亿2,6794亿8, 7528亿15, 431查询性能表3.1.1.3,混合存储策略混合存储策略可以简述为HDFS分布式文件系统用来存储海量数 据,可以根据存储的数据类型建立索引,HBase也可用来存储海量数 据,其由查询条件建立索引表,数据库对小型数据的存储处理。分布 式文件系统支持扩展到PB级容量。智慈教学科研大数据平台建设方案2018年分布式文件系统HDFS是一个开源云
39、处理平台Hadoop框架的底层实现 局部,适合运行在通用硬件上的分布式文件系统,具有高容错性,能 提高吞吐量的数据访问,非常适合于大规模数据集上的应用。 MapReduce在HDFS的基础上实现的并行框架,为用户提供容易使用的 并行编程模式,MapReduce处理包括两个阶段,Map (映射)阶段和 Reduce (规范)阶段。首先,Map函数把一组(Key, Value)输入,映射 为一组中间结果(Key, Value),然后通过Reduce函数把具有相同Key 值的中间结果,进行合并化简。MapReduce将处理作业分成许多小的 单元,同时数据也会被HDFS分为多个Block,并且每个数据
40、块被复制 多份,保证系统的可靠性,HDFS按照一定的规那么将数据块放置在集群 中的不同机器上,以便MapReduce在数据宿主机器上进行处理。HBase类似Bigtable的分布式数据库,是一个稀疏的,长期存储 的,多维的,排序的映射表.这张表的索引是行关键字,列关键字和时 间戳。所有数据库的更新都是一个时间戳标记,每个更新都是一个新 的版本,而HBase会保存一定数量的版本,这个值是可以设定的。客 户端可以获取距离某个时间最近的版本,或者一次获取所有版本。3.1.1.4. 云计算核心技术3.1.1.4.1. 数据处理集群的可靠性与负载均衡技术.负载均衡处理机的单点失效容错处理负载均衡机分布如
41、图:智慈教学科研大数据平台建设方案2018年负载均衡机分布全量原始数据接入交换机,将数据发向指TP的负载均衡机,负载 均衡机向负载均衡Master节点请求任务处理机,Master返回存任务 处理机IP端口信息,负载均衡机根据任务处理机的IP端口信息将数 据发向任务处理机。单点容错如图:当某一台负载均衡机宕机后:智慈教学科研大数据平台建设方案2018年负载均衡机宕机预案第一步Master节点能过链接心跳得知宕机负载均衡机。第二步Master节点从所有均衡机中选出负载小的负载均衡机,启动虚拟IP及相关进程第三步启动虚拟IP接收原始交管数据,进行负载均衡 当Master节点宕机后:智慈教学科研大数据
42、平台建设方案2018年原始全量数据交换机3 公 a 12 3 4 爱&筮 负负负负Master节点宕机预案第一步Master节点宕机,负载均衡节点及存储计算节点能过链接 心跳得知Master宕机第二步所有负载均衡节点,重选举出Master节点,并通知存储计算节点新Master节点所有存储计算节点,根据负载均衡IP列表,请求新Master节点,后向新Master节点上报负载状态。第三步 新Master节点接管所有工作,对宕机的Master节点容错。1 .查询处理机的单点失效容错处理智慈教学科研大数据平台建设方案2018年33.1.1. Minicloud迷你云介绍70Minicloud迷你云特点
43、7133.1.2. Minicloud迷你云优势723.3.2. 网盘761.网盘系统设计761.1.1. 文件同步管理系统79文件分析系统8433.2.4.网盘优势864.产品配置89智慈教学科研大数据平台建设方案2018年nr查询处理单点失效容错处理第一步:任务处理机宕机,负载均衡机得知任务处理机宕机,缓 存交管数据.同时Master得知任务处理宕机后,将任务处理机信息删 除待分配列表。第二步:负载均衡机向Master请求任务处理机,Master重新分 配任务处理机给负载均衡机。第三步:负载均衡机将原始数据发向新任务处理机,进行查询计算与存储集群的可靠性与负载均衡1.计算与存储集群Mast
44、er单点失效容错处理智慈教学科研大数据平台建设方案2018年写入日志NFS服务器读取 Primary日志并日志镜客户端客户端用户访问AvatarNod率(Primary)像做 CheckpointAvatarNodcl(Standby)DataNode向AvatarNodeO发送心跳信息,其中包括block的位置信息DataNode 也向AvatarNodel 发送心跳信息,其中包括block的位置信息客户端客户端NFS服务器用户访问读取 Primary日志并Fl志镜像做Checkpoint写入日志AvatarNodqQ(Primary)AvatarNodel(Standby)DataNode
45、向 AvatarNodeO发送心跳 信息,其中包括 block的位置信息DataNode 也向 AvatarNodel 发送心 跳信息,其中包括 block的位置信息DataNodeO DataNode 1 DataNode2 DateiNode3 DcitaNode4 DataNode5Master单点失效容错处理智慈教学科研大数据平台建设方案2018年AvatarNodeO 以 Primary 方式启动,AvatarNodeO 作为 Namenode 节 点与用户交互。AvatarNodel以Standby方式启动,它是一个处于 safemode的Namenode。它定期读取AvatarN
46、odeO的日志来更新自己内 存和磁盘中的元数据,并定期做checkpoint,更新AvatarNodeO上的 fsimage 以及 editlogoDataNode节点向AvatarNodeO和AvatarNodel同时发送心跳信息 和BlockReport,其中包括Block的位置信息。NFS 服务器存储 AvatarNodeO 和 AvatarNodel 的 fsimage 和 editlogo AvatarNode 的 primary 节点写入 editlog, standby 节点读 MX editlog,更新内存中的元数据信息,并且定期做checkpoint,将 fsimage及editlog回写到nfs服务器。3.1.1.4.2. 计算与存储集群的负载均衡处理负载的均衡,就是要让大家各尽其力齐心干活,发挥各自独特的 优势,不能忙