《大数据体系架构课件.pptx》由会员分享,可在线阅读,更多相关《大数据体系架构课件.pptx(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据导论第二章大数据的架构2.1云计算2.2大数据架构介绍2.3Hadoop体系架构 2.4上机与项目实训大数据应用人才培养系列教材习题2.1 云计算第二章 大数据的架构大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界不断推出新的或改进的计算模式和系统工具平台。大数据与云计算2.1 云计算第二章 大数据的架构云计算的概念 云是网络、互联网的一种比喻说法,通常在图中往往用云来表示电信网,后来也用云来表示互联网和底层基础设施的抽象。云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。2.1 云计算第二章 大数据的架构维基百科NIST云计算是一种
2、基于互联网的服务方式,提供动态可伸缩的虚拟化的资源的计算模式。通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,他就像我们日常生活中用水和用电一样,按需付费,无需关心水电是从哪里来的。云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供、动态易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,他意味着计算能力也可作为一种商品通过互联网进行流通。国务院政府第二章
3、 大数据的架构2.1 云计算资源池弹性可扩张需求服务自助化12虚拟化以网络为中心354云计算的特点高可靠性和安全性2.1 云计算第二章 大数据的架构云计算的服务方式IaaSPaaSSaaS基础设施级服务,消费者通过Internet可以从完善的计算机基础设施获得服务。IaaS是把数据中心、基础设施等硬件资源通过Web分配给用户的商业模式。平台级服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。软件级服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。2.
4、1 云计算第二章 大数据的架构云平台架构图2.1 云计算第二章 大数据的架构云计算的8个应用 微软 IBM 亚马逊 红帽 智慧城市 教育 金融 阿里云第二章大数据的架构2.1云计算2.2大数据架构介绍2.3Hadoop体系架构 2.4上机与项目实训习题大数据应用人才培养系列教材 2.2大数据架构介绍第二章 大数据的架构大数据架构是一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。大数据架构Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统,主要用于处理大于1TB的海量数据。其核心包括系统HDFS和MapReduce,这一结构的实现十分有利于面向数据
5、的系统架构,因此已经成为大数据技术领域的事实标准。2.2 大数据架构介绍第二章 大数据的架构1大数据的分类数据类型划分1、传统企业数据(Traditionalenterprisedata):包括MIS系统的数据,传统的ERP数据库存数据以及财务账目数据等。2、机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志,交易数据等。3、社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。处理过程划分海量型数据。大数据计算中的数
6、据挖掘是通过挖掘海量的数据推动科学知识的界限,数据集越大,结论越精确。响应型数据。响应型的数据集很大,但它的价值围绕着很具价值的分析结果影随型数据。影随型数据是一种你拥有,但并不容易拿到的数据。过程型数据。又称为操作数据。这是从生产设备、工业机械和其他在商业建筑和工业厂房里找到的信息。未知型数据。未知型数据包括现在可以能够拿到的、希望拿到的、然而还不充足的信息。2.2大数据架构介绍第二章 大数据的架构1大数据的分类产生数据的主题划分1、少量企业应用产生的数据,比如关系型数据库中的数据和数据仓库中的数据等。2、大量人产生的数据,比如微信、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论
7、数据等。3、巨量机器产生的数据,比如应用服务器日志、图像和视频监控数据、二维码和条形码扫描数据等。2.2大数据架构介绍第二章 大数据的架构1大数据的分类大数据架构划分1)按需分析,与社交媒体数据一样;2)实时、持续提供3)时序(基于时间的数据)。4)数据类型。要处理数据的类型1、分析类型。判断进行数据分析时,对数据执行实时分析还是批量分析。2、处理方法。用来处理数据的技术类型(如预测、分析、临时查询和报告)。3、数据频率和大小。预计有多少数据和数据到达的频率有多高。4、数据类型。要处理数据的类型,如交易、历史、主数据等。5、内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音
8、频、视频和图像)或半结构化。6、数据源即数据的来源(生成数据的地方),如 Web 和社交媒体、机器生成、人类生成等。7、数据使用者。处理数据的所有可能使用者的情况列表。8、硬件。用来实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。2.2 大数据架构介绍第二章 大数据的架构1大数据分类图2.2 大数据架构介绍第二章 大数据的架构2.数据类型第二章 大数据的架构2.2 大数据架构介绍移动互联网,每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据电子地图,它代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值12社交网络,它的出现,大量的互联网用户创
9、造出海量的社交行为数据电子商务,它的崛起带来了大量的网上交易数据,这些数据的产生为大数据的研究带来了很大的契机,其中隐藏了更大的商业价值。354传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能性。2.2 大数据架构介绍第二章 大数据的架构分析大数据时,四种参考数据类型人为数据非结构化数据广泛应用并存在于电子邮件、文档、图片、音频、视频中,同时通过博客、维基,尤其是社交媒体所产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据资源。移动数据智能手机和平板这些移动设备上的App都能够追踪和沟通大量事件,从Ap
10、p内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。交易数据使用大数据平台能够帮助我们获取时间跨度更大、更海量的结构化交易数据,这样就能够对更广泛的交易数据类型进行数据分析,其中不仅仅包括POS或电子商务购物数据,还包括行为交易数据。机器和传感器数据机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。物联网的数据可以用于构建分析模型,连续监测预测性行为,提供规定的指令,做出及时正确的判断。2.2 大数据架构介绍第二章 大数据的架构2.数据类型采用大数据方案解决问题时,应熟悉项目的实际状况,熟悉项目的建设流程,弄清大数据分析技术的原理
11、,架构,设计理念,以及掌握大数据的关键技术,才可以从容不迫的对待建设项目进行调研实施。2.2 大数据架构介绍第二章 大数据的架构2.架构概述架构,又称软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。软件系统的架构有两个要素:首先他是一个软件系统从整体到部分的最高层的的划分,再则一个系统通常是由元件组成,而这些元件如何形成、相互之间怎样发生作用,就是这个系统本身结构的问题了。所以说软件架构是平衡的艺术。2.2 大数据架构介绍第二章 大数据的架构2.架构四大注意要素2.2大数据架构介绍第二章 大数据的架构与Oracle性能关系最大的SGASGA包含三个部分:数据缓
12、冲区,是SGA的一个高速缓存区域,可避免重复读取常用的数据01日志缓冲区,提升了数据增删改的速度,减少磁盘的读写而加快速度02共享池,使相同的SQL语句不再编译,提升了SQL的执行速度,共享池的大小(以字节为单位)由init.ora文件参数SHARED_POOL_SIZE决定。032.2 大数据架构介绍第二章 大数据的架构数据库体系架构图2.2 大数据架构介绍第二章 大数据的架构整体系统架构图2.2 大数据架构介绍第二章 大数据的架构整体逻辑功能架构图第二章 大数据的架构2.2 大数据架构介绍大数据存储技术并行计算能力12数据分析技术数据显示技术354数据挖掘算法 大数据架构关键技术第二章大数
13、据的架构2.1云计算2.2大数据架构介绍2.3Hadoop体系架构 2.4上机与项目实训习题大数据应用人才培养系列教材2.3Hadoop体系架构第二章 大数据的架构Hadoop概述HadoopHadoopHadoopHadoop最最最最初初初初是是是是一一一一个个个个由由由由ApacheApacheApacheApache软软软软件件件件基基基基金金金金会会会会研研研研发发发发的的的的一一一一种种种种分分分分布布布布式式式式计计计计算算算算机机机机系系系系统统统统。主主主主要要要要用用用用来来来来处处处处理理理理大大大大于于于于1TB1TB1TB1TB的的的的海海海海量量量量数数数数据据据据。
14、HadoopHadoopHadoopHadoop采采采采用用用用JavaJavaJavaJava语语语语言言言言开开开开发发发发,其其其其核核核核心心心心模模模模块块块块包包包包括括括括分分分分布布布布式式式式文文文文件件件件系系系系统统统统(Hadoop Hadoop Hadoop Hadoop Distri Distri Distri Distri buted buted buted buted File File File File SystemSystemSystemSystem,Hadoop Hadoop Hadoop Hadoop HDFSHDFSHDFSHDFS)和和和和分分分分
15、布布布布式式式式计计计计算算算算框框框框架架架架MapReduceMapReduceMapReduceMapReduce,HDFSHDFSHDFSHDFS为为为为海海海海量量量量数数数数据据据据提提提提供供供供存存存存储储储储,MapReduceMapReduceMapReduceMapReduce为为为为海海海海量量量量数数数数据据据据提提提提供供供供计计计计算算算算,这这这这样样样样的的的的结结结结构构构构实实实实现现现现了了了了计计计计算算算算与与与与存存存存储储储储的的的的高高高高度度度度耦耦耦耦合,成为大数据技术的事实标准。合,成为大数据技术的事实标准。合,成为大数据技术的事实标准。
16、合,成为大数据技术的事实标准。012.3Hadoop体系架构第二章 大数据的架构Hadoop发展史12004年 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。2005年12月 Nutch移植到新的框架,Hadoop在20个节点上稳定运行。2006年2月 Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2008年9月 Hive成为Hadoop的子项目 2009年3月 Cloudera推出CDH(Clouderas Dsitribution Including Apache Hadoop)20
17、09年7月 MapReduce 和 Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。2009年7月 Avro 和 Chukwa 成为Hadoop新的子项目。2010年5月 Avro脱离Hadoop项目,成为Apache顶级项目。2010年5月 HBase脱离Hadoop项目,成为Apache顶级项目。2010年9月 Hive(Facebook)脱离Hadoop,成为Apache顶级项目。2010年9月 Pig脱离Hadoop,成为Apache顶级项目。2011年1月 ZooKeeper 脱离Hadoop,成为Apache顶级项目。201
18、1年3月 Apache Hadoop获得Media Guardian Innovation Awards。2011年8月 Dell与Cloudera联合推出Hadoop解决方案Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机2012年3月在Hadoop1.0版的基础上发布Hadoop1.2.1稳定版2013年10月Hadoop2.2.0版本成功发布2014年11月Hadoop已经发展到了2.6.0版本022.3Hadoop体系架构第二章 大数据的架构H
19、adoop的五大优点1)高可靠性。Hadoop具有按位存储和处理数据的能力。2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,可以方便地扩展到其他节点中。3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,具有较快的处理速度。034)高容错性。Hadoop能够自动保存数据的多个副本,并自动将失败的任务重新分配。5)低成本。Hadoop是开源的,项目的软件成本因此会大大降低。2.3Hadoop体系架构第二章 大数据的架构Hadoop的版本选择当前Hadoop版本比较混乱,让用户不知道怎样选择,实 际 上,目 前 Hadoop只 有 两 个 版
20、本:Hadoop 1.0和Hadoop 2.0。其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则由一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性,并支持多种计算框架。我们在选择使用某个开源环境时,通常会考虑几个因素:a.是否是免费的开源软件b.版本是否稳定c.是否有强大的实践验证及出现故障后是否有一个强大的社区支持,快速获取问题的解决方法。03第二章 大数据的架构2.
21、3Hadoop体系架构Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。他是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。MapReduce是一种编程模型,MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运行软件框架(Software Framework);3)是一个并行程序设计模型与方法(Programming Model
22、&Methodology)。HDFSMapReduceHBase:类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。其他 Hadoophe核心组件第二章大数据
23、的架构2.1云计算2.2大数据架构介绍2.3Hadoop体系架构 2.4上机与项目实训习题大数据应用人才培养系列教材2.4上机与项目实训第二章 大数据的架构上机与项目实训1)安装虚拟机和linux,虚拟机推荐使用vbox或vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便。可以使用复制虚拟机功能简化准备流程。如果只是实验用途,内存分配可以在1G左右,硬盘大约预留20-30G空间即可。43)到Oracle官网下载java jdk安装包2)以Centos为例,分区可以选择默认,安装选项 选 择 Desktop Gnome,以 及 Server、Server GUI即可。其它Linux,注意选项里应包括ssh,vi(用于编辑配置文件),perl等(有些脚本里包含perl代码需要解析)4)安装Linux后一定要确认iptables,selinux等防火墙或访问控制机制已经关闭,否则实验很可能受影响第二章大数据的架构2.1云计算2.2大数据架构介绍2.3Hadoop体系架构 2.4上机与项目实训 习题大数据应用人才培养系列教材感谢聆听