《高校大数据实验室建设解决方案.pdf》由会员分享,可在线阅读,更多相关《高校大数据实验室建设解决方案.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-高校大数据实验室建立方案高校大数据实验室建立方案一、一、 建立目标建立目标章鱼大数据实验室的建立目的是作为大数据教学实验及科研平台, 包括数据挖掘与大数据分析平台。实验室的设计全面落实产、学、研、用一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据工程实战融为一体,由难而易、循序渐进,逐步提升学生的学习技能和实践水平,提高学的质量和成效。利用大数据分析主流软件框架,搭建与业界主要用户一致的实验与科研环境, 将理论课程中学到的数据挖掘算法运用到实际的数据分析过程中,提升学生的动手操作和工程实践
2、能力。 使得学生所学与企业工程人才需求无缝衔接, 与教师的科研工作严密配合。通过专业的大数据分析计算资源搭建的开放式大数据分析平台, 可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高研的成效。二、二、 产品优势产品优势交互式学习模式提供体系完整、简单易用的在线教学课堂;以根底知识学习、在线视频教学、习题、线上测试、评估等为主线的一系列方法,确保学生在短时间内掌握大数据虚拟仿真实验、分析部署技能。真机实验训练实验训练体系设计成各模块相对独立的形式,各模块交互式的实验任务、大数据实验机、实际工程上机操作,通过多方位的训练,最终灵活的、渐进
3、式地掌握大数据生态体系。.z.-大数据实战及案例分析提供实验数据,包括网站流量数据、租房及二手房数据、电商商品交易数据、搜索引擎访问等多种行业数据,数据内容超过 20TB,同时周期更新数据内容。充分支撑科研工作提供行业数据及案例解剖用于根底研究,提供数据分析方案及流程,提供数据更新接口,可以对行业数据进展分析统计,按需求生成数据报表,为科研工作提供数据支撑。例如*地区经济数据分析、股市数据分析、全国地震数据分析、食品价格行业数据分析等。三、三、 建立规模建立规模按照 60 台大数据实验机容量进展同时在线使用进展建立为根底,整体系统提供快速扩容升级效劳。四、四、 硬件配置硬件配置采用十六台高性能
4、品牌效劳器作为大数据节点进展建立, 采用企业级全千兆三层交换机进展网络数据交换。每台节点的配置如下:处理器高速缓存QPI 总线速率内存每节点支持 2 个英特尔 至强 处理器 E5-2650 CPU15MB提供 12 个内存插槽,标配 192G 内存,支持高级内存纠错,内存镜像,内存热备等高级功能磁盘标配 4 块 3TB SATA 硬盘标配 2 块 120G SSD 硬盘300G 10000 转 SAS 系统盘.z.-网络控制器集成 1 个高性能千兆以太网控制器双口 ,支持虚拟化加速,网络加速,负载均衡,冗余等高级功能电源虚拟化技术标配大功率高效白金级电源,1+1 冗余支持 VMware vSp
5、here、Docker、OpenStack 等五、五、 软件平台介绍软件平台介绍1 1、大数据教学管理系统、大数据教学管理系统1.1 专业管理提供对专业信息的增加、删除、修改、查询功能。1.2 班级管理提供对专业下属班级的增加、删除、修改、查询功能。1.3 学生管理提供对班级内学生的管理,学生内容包含姓名、*、所属班级、所属专业、联系手机、登录次数等内容。1.4 交流日志查阅对实验机分享交流的内容进展查询,包含交流IP、相关学员、相关教师、实验机编号、交流内容等内容。1.5 成绩管理对于学习中心在线学习的学习考核成绩进展管理,包含查询及删除等功能。1.6 学习记录提供每个学生在学习中心平台内学
6、习课程的学习记录,包含日期、方案、课程、章节、学习 IP等。1.7 学习行为报表.z.-对所有学生的课程学习记录进展统计,包含个体统计、班级统计、全体统计等。1.8 课程管理对学习课程进展查询、修改、删除等操作。1.9 开通课程方案对于学习开课方案的字段内容包含方案名称、授课讲师、授课时间段、开通状态、允许申请周期,允许申请人数等,功能提供绑定课程方案相关实训平台课程、授课助教、云实验机绑定、实验任务绑定等功能。1.10 课程测验习题管理提供对课程相关的习题管理,题型包含单项选择、多项选择、判断题等类型,对习题进展增、册、改、查操作。1.11 分级权限功能系统分为总管理员、助教等二级管理角色,
7、总管理员进展管理所有的功能点,助教可以进展班级管理、学生管理、开课方案制作、实验机远程协助等。1.12 学生实训系统提供学生根据姓名、*、密码登录系统进展实训操作,学生只需安装浏览即可进展实验任务操作;提供实训课程在线学习功能、实验机在线操作、实验报告提交、实验机界面截图、记录课程学习时长等。1.13 实验机桌面分享提供实验机桌面分享功能,如学生在学习、操作云实验机的过程中,有问题可以向教师发起协助请求,助教在收到请求时,可以远程访问学生的实验机,并指导如何操作。2 2、云实验机及实验任务、云实验机及实验任务1.14云实验机.z.-提供基于 Web 浏览器的实验机可视化操作,操作终端无需安装其
8、它开发软件即可进展实验操作;云实验机可以根据学生编号、实验任务和环境要求自动创立,无需管理人员参与实验机创立操作过程。管理平台对云实验机可以进展停顿、销毁操作。1.15云实验机集群管理功能提供云实验机集群管理,对实验机所属效劳器进展新增、删除等操作。1.16云实验机类型包含 Hadoop 实验机、Hive 实验机、HBase 实验机、R 语言实验机、Scala 实验机、Spark 实验机、Kafka 实验机、Sqoop 实验机、Flume 实验机、数据可视化实验机等。1.17实验机运行监控系统系统提供对实验集群运行的所有实验机进展监控,可以查询编号、所属效劳器、创立时间、运行状态、开放端口等内
9、容。1.18实验任务管理提供对实验任务内容的管理,包含任务课程、绑定实验机、设定任务成绩总分,排序值等,提供多种实验任务内容,例如 Hadoop 实验任务、Hive 实验任务、HBase 实验任务、Flume 与 kafka实验任务等。1.19实验报告审阅功能在实验任务过程中学生上交的任务报告进展审阅评分, 提供按照学生、 实验任务等字段进展检索功能。1.20云实验机桌面分享系统提供实验机桌面基于浏览器的分享功能, 允许学生与学生、 学生与教师同步操作实验机桌面系统,提供基于浏览器的交流功能。3 3、大数据实战平台系统、大数据实战平台系统.z.-1.21大数据集群管理系统基于分布式集群管理系统
10、,提供大数据集群管理系统,功能包含 Hadoop、Hive、HBase、Sqoop、Flume、Spark 等节点部属及管理,提供实时监控集群的 CPU、内存、硬盘等使用率及相关信息,可以对管理节点、计算节点进展启动、停顿等操作管理。1.22大数据作业工作流系统提供大数据相关作业的上传、部属、流程管理等功能,基于 Web 的任务调度、兼容 Hadoop、Spark 主流版本、失败任务的、运行状态监控等。六、六、 大数据课程及行业案例大数据课程及行业案例实验平台提供 100 个课时的 Hadoop、Spark 等大数据主流课程,课程与大数据实验机完美结合,学员在教学管理系统学习课程,随时进展实训
11、操作,包含工程设计、数据采集、清洗、建模、技术实现等,快速提升实操技能,最终掌握大数据开发、数据分析与数据挖掘等大数据能力。局部案例图片:【电商大数据分析案例】【电商大数据分析架构】【房产大数据分析架构】【房产大数据分析可视化】【搜索大数据分析架构】【网站日志大数据分析架构】课程实验内容包含:课程名称Hadoop 根底课时10课程内容介绍讲解 Hadoop 生态系统,包括操作与开发;详细讲解HDFS 和Map-Reduce 的功能及作用;了解 MapReduce 原理、运行流程、压缩数据处理、作业调度、计算器等环节。讲解Hadoop文件系统HDFS JAVA API的使用。 掌握如何使用HDF
12、SJava API,读写文件、读写目录、以及对文件进展压缩处理等。HDFS 程序开发6.z.-MapReduce 开发6本课程针对 Hadoop MapReduce 开发进展讲解。课程以案例为根底,重点介绍 MapReduce 程序构造,以及如何使用 MapReduce进展数据统计,去重,排序, Map 端 Join,Reduce 端 Join 等关联操作,掌握 MapReduce 处理过程。Hive是基于Hadoop构建的数据仓库分析系统, 通过学习掌握Hive的函数、Hive 数据的加载、Hive 的 DDL 操作、自定义函数UDF等内容,到达使用 Hive 进展查询、汇总、分析数据的能力
13、。HBase 是 Hadoop 生态系统中的重要一员, 主要用于海量构造化数据存储;通过学习对 HBase 表设计、表操作、数据操作、Java API等内容,掌握对 HBase 系统的开发及使用。Sqoop 是关系型数据库和 Hadoop 生态系统之间进展数据转换的主要工具;通过学习将 mysql 中的数据导入到 hdfs 中、将数据导入到 HBase 中、定义导入导出任务等,掌握对数据迁移的能力。Flume 对海量日志进展采集、聚合和传输的主流大数据工具;课程内容包含 Flume 应用场景、FlumeNG、FlumeOG、Flume 的核心组件、Flume 的架构、Flume 的 sourc
14、e、sink 配置说明等。Kafka 是分布式的消息队列,广泛应用于实时数据处理。学习内容包含 Kafka 的体系构造、 安装模式及安装部署、 Topic、 Producer、Consumer、发布订阅消息以及Kafka JAVA 开发等。Spark 是一款高性能的分布式计算框架,比 MapReduce 计算快百倍;本课程内容全面涵盖了Spark 生态系统、Spark 与 Hadoop 比照、开发环境搭建、RDD、编程模型、Web 监控等内容。Spark Streaming 是用户结合流式、批处理和交互式查询应用的实时计算框架;本课程内容详细讲解原理与特点、适用场景、Dstream 操作、容错
15、、性能优化和内存优化等。Spark SQL 的出现,使得SQL-on-Hadoop 的性能相对于 Hive 有了显著的提高。 到达 Spark 兼容 Hive 的功能。 本课程详细讲解特点、运行架构、数据源、数据缓存、DataFrame 等。讲解 Hadoop 系统架构设计以及工程分析流程;通过对用户搜索记录数据的清洗,分析指标内容,得出关键词排行榜、用户停留时间最高页面等。讲解 Spark 系统架构设计以及工程分析流程;本课程主要讲解搭建电商的数据处理平台、数据统计、分析及可视化技术的应用开发流程。Hive 数据仓库24分布式数据库 HBase6数据迁移工具 Sqoop4分布式日志框架 Fl
16、ume4Kafka 流式数据采集4Spark6Spark Streaming4Spark SQL4实战案例搜索引擎日志数据统计分析实战案例电子商务平台大数据分析66七、七、 行业数据及案例行业数据及案例提供大数据实战案例以及行业数据, 提供包含海量网站日志分析案例、 租房及二手房大数据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案例等案例讲解及实战作业工作流内容。数据名称数据名称数据描述数据描述更新更新.z.-地区房产数据全国汽车数据法律咨询数据包含二手房在售数据、出租房屋数据、经纪人评价数据等。包含国内不同种类汽车详细配置信息、汽车使用评论数据、汽车销售数据
17、以及二手车数据等。可用于汽车行业市场行情分析。包含国内所有法律咨询效劳机构数据、机构评论数据、有关法律咨询话题的数据。可用于法律咨询行业市场行情分析,社会治安情况分析。包含国内不同种类疾病问题数据、医生回复数据、有关疾病常识等话题的数据。包含国内、港股、美股等国内外股票行情及交易数据、按照时间段提供详细数据;也包含证券投资基金、保险基金、信托投资基金等行情数据。每周每月每周疾病问答数据股票基金交易数据每月每日天气、气象数据人脸图像数据电商评价数据包含全国各个地区气象数据气温、降水量、风、气压等 、气象观每日测产品数据。可用于气象业务、天气预报、气候预测以及气象效劳。包含国内多种年龄段的人脸图像
18、数据。用于脸部特征分析、人脸识别、人脸检测等,每个人提供多个角度的图片。包含上百万条国内知名电商平台产品评价数据。可用于用户购置产品意愿分析、个性化推荐和精准营销,进展商业舆情监控和产品的市场行情分析。包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品的最低价、最高价以及平均价以及最新价格。利用大数据可进展生鲜食品行业分析。包含用户搜索记录数据。通过对用户搜索记录的分析,可以分析用户行为特征,构建广告点击模型。包含海量用户访问网站的日志数据。通过对日志的分析,我们可以知道获取网站每类页面的 PV 值PageView,页面访问量 、独立 IP数,哪个网页最有价值等。每月每周北京生鲜食品价格数据每日搜索引擎访问日志数据海量网站访问日志数据每周每周八、八、 安装配置安装配置1、大数据教学管理系统2、大数据实战集群及案例.z.