《第8章 大数据ppt课件.pptx》由会员分享,可在线阅读,更多相关《第8章 大数据ppt课件.pptx(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、在此输入您的封面副标题第8章 大数据信 息 技 术 素 养第八章 大数据8.1 大数据概述8.1.1 大数据的发展历程1.大数据萌芽阶段(1980年-2008年)2.大数据发展阶段(2009年-2011年)3.大数据爆发阶段(2012-2016年)4.大数据成熟阶段(2017至今)8.1.2 大数据的概念1.大数据的概念 大数据,指无法在一定范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要处理模式才能更强的决策力、洞策发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、
2、BB、NB、DB2022/5/11现代教育技术中心38.1 大数据概述8.1.2 大数据的概念2.大数据的特征 业界较为统一的认识是“大数据”的4V特点,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),其核心在于对这些含有意义的数据进行专业化处理。(1)数据体量巨大(2)数据类别多样(3)处理速度快(4)价值真实性高和密度低8.1.3 大数据时代的思维变革1.总体思维2.容错思维3.相关思维4.智能思维2022/5/11现代教育技术中心48.2 大数据技术8.2.1 大数据技术发展历程2022/5/11现代教育技术中心58.2 大数据技术8.2.2
3、 大数据关键技术1.数据收集 利用数据仓库(ETL)将把零散的结构化和非结构化的海量数据抽取到临时中间层进行清洗、转换、集成最终加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;利用日志采集工具(Flume、Kafka等)采集实时的数据,经过滤聚集后加载到HDFS等存储系统。2.数据存储管理主要由面向文件存储的分布式系统和面向行/列存储的分布式数据库构成。3.资源管理与服务协调 统一资源管理与调试系统,管理集群中的各种资源(比如CPU和内存等),并按照一定的策略分配给上层的各类应用。2022/5/11现代教育技术中心68.2 大数据技术8.2.2 大数据关键技术4.大数据计算模式
4、大数据的计算模式包括批处理、流式实时处理、图计算、查询分析计算四种计算模式。各计算模式的代表产品如表所示。2022/5/11现代教育技术中心7大数据计算模式解决问题代表产品批处理计算针对大规模数据的批处理MapReduce、Spark等流计算针对流数据的实时计算Storm、S4、Flume、Scribe、Spark Streaming图计算针对规模巨大包含具有复杂关系的图数据进行存储和计算Pregel、GraphX、Griaph、PowerGraph等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等5.数据分析 为方便用户解决大数据问题而提供
5、的各种数据分析工具。8.2 大数据技术8.2.3 大数据架构Lambda Architecture(LA)是一种大数据软件设计架构,目的是指导用户充分利用批处理和流式计算技术各自的优点实现一个复杂的大数据处理系统。LA主要思想是将数据处理流程分解成三层:批处理层、流式处理层和服务层。2022/5/11现代教育技术中心88.2 大数据技术8.2.4 分布式存储和计算平台Hadoop1.Hadoop简介 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。2.Hadoop的特点 Hadoop基于Java语言开发,以一种可靠、高效、可扩展的方式对大量非
6、结构化数据进行分布式处理的软件框架。(1)成本低且易扩展(2)高可靠性和容错性(3)高效性2022/5/11现代教育技术中心98.2 大数据技术8.2.4 分布式存储和计算平台Hadoop3.Hadoop的版本 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。Hadoop 三大发行版本:Apache、Cloudera、HortonworkApache版本最原始(最基础)的版本,是学习hadoop的基础。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。2022/5/11现代教育技术中心108.2 大数据技术8.2.4
7、 分布式存储和计算平台Hadoop4.Hadoop生态系统 Hadoop采用Java语言开发,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。2022/5/11现代教育技术中心118.2 大数据技术8.2.5 分布式文件系统HDFS1. HDFS介绍(1)HDFS的优点.能处理超大型数据.流式处理.兼容廉价硬件设备.跨平台兼容性强(2)HDFS不适合应用的类型.低延时的数据访问.存储大量小文件.不支持多用户写入及任意修改文件2022/5/11现代教育技术中心128.2 大数据技术8.2.5 分布式文件系统HDFS2.HDFS核心概念(1)Client(2)NameNode(3
8、)DataNode(4)Secondary NameNode3.HDFS架构2022/5/11现代教育技术中心138.2 大数据技术8.2.5 分布式文件系统HDFS4.HDFS关键技术 HDFS在实现时采用了大量分布式技术,其中的关键技术有容错性设计、副本放置策略、异构存储介质以及中央化缓存管理等。(1)容错性设计(2)副本放置策略(3)异构存储介质(4)集中式缓存管理2022/5/11现代教育技术中心148.2 大数据技术8.2.6 分布式数据库HBase1.HBase简介 HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang发表于2006年11月的Google论文
9、“Bigtable:一个结构化数据的分布式存储系统”。HBase是Apache的Hadoop项目的子项目。HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群,主要用来存储和检索大规模数据,通过水平扩展的方式,处理超过10亿数据和数百万列元素组成的表。2022/5/11现代教育技术中心158.2 大数据技术8.2.6 分布式数据库HBase2.HBase和传统数据库的区别2022/5/11现代教育技术中心16对比项对比项HBaseHBase传统数据库传统数据库数据类型数据类型
10、HBase的数据类型简单,只保留字符串有丰富的数据类型数据操作数据操作HBase有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系。通常有各式各样的函数和连接操作。存储模式存储模式HBase是基于列存储的,利于数据压缩,可以并行查询列,查询效率高。 传统数据库是基于表格结构和行存储,需要维护大量索引,存储成本高,不能线性扩展,压缩效率低。 数据维护数据维护HBase的更新是插入了新的数据。传统数据库的更新是替换和修改数据。可伸缩性可伸缩性HBase可以轻松的增加或减少硬件的数目,并且对错误的兼容性比较高。传统数据库需要增加中间层才能实现类似的功能。事务事务HB
11、ase只可以实现单行的事务性,意味着行与行之间、表与表之前不必满足事务性传统数据库是可以实现跨行的事务性8.2 大数据技术8.2.7 NoSQL数据库1. NoSQL的产生 主流的NoSQL数据库有BigTable、HBase、Cassandra、SimpleDB、CouchDB、MongoDB和Redis等。2.NoSQL的优势(1)易扩展 (2)大数据量,高性能 (3)灵活的数据模型 (4)高可用 2022/5/11现代教育技术中心178.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型 一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文
12、档型数据库和图形(Graph)数据库。(1)键值(Key-Value)存储数据库2022/5/11现代教育技术中心18项目描述相关产品Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached数据模型Key 指向 Value 的键值对,通常用hash table来实现典型应用内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。优点扩展性好、灵活性好、大量写操作时性能高缺点无法存储结构化信息、条件查询效率低8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(2)列存储数据库2022/5/11现代教育技术中心19项目描述相关产品
13、BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS数据模型以列簇式存储,将同一列数据存在一起典型应用分布式的文件系统优点查找速度快,可扩展性强,更容易进行分布式扩展缺点功能相对局限8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(3)文档型数据库2022/5/11现代教育技术中心20项目描述相关产品CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、Cloudkit、Perservere、Jackkrabbit数据模型Key-Value对应的键值对,Value为结构
14、化数据典型应用Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)优点性能好、灵活性好、复杂性低、数据结构灵活缺点查询性能不高,缺乏统一的查询语法8.2 大数据技术8.2.7 NoSQL数据库3.NoSQL的类型(4)图形(Graph)数据库2022/5/11现代教育技术中心21项目描述相关产品Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB数据模型图结构典型应用应用于大量复杂、互连接、低结构化的图结构场合、如社交网络、推荐系统等优点灵活性高、支持复杂的图算法,比如最短路径寻址,N度关系查找等、可用于构
15、建复杂的关系图谱缺点复杂性高、只能支持一定的数据规模;8.2 大数据技术8.2.8 编程模型MapReduce 1.MapReduce 1.x 架构 MapReduce 1.x采用Master/Slave架构,由全局唯一的JobTracker和多个TaskTracker组成,并且在Clent中提供一系列的应用程序接口API供编程和管理使用。客户端(Client)提交一个任务(Job),JobTracker把他提交到候选列队里,将Job拆分成map任务(Task)和reduce任务(Task),把map任务和reduce任务分给TaskTracker执行。2022/5/11现代教育技术中心228
16、.2 大数据技术8.2.8 编程模型MapReduce 1.MapReduce 1.x 架构 MapReduce 1.x采用Master/Slave架构,由全局唯一的JobTracker和多个TaskTracker组成,并且在Clent中提供一系列的应用程序接口API供编程和管理使用。客户端(Client)提交一个任务(Job),JobTracker把他提交到候选列队里,将Job拆分成map任务(Task)和reduce任务(Task),把map任务和reduce任务分给TaskTracker执行。2022/5/11现代教育技术中心238.2 大数据技术8.2.8 编程模型MapReduce
17、2.MapReduce处理流程 MapReduce处理数据过程主要分成Map、Reduce两个阶段。首先执行Map阶段,再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现,但要符合MapReduce框架的约定。工作流程如图:2022/5/11现代教育技术中心248.2 大数据技术8.2.8 编程模型MapReduce 3. MapReduce应用场景 MapReduce框架实现的是跨节点的通信,擅长横向扩充、负载均衡、失效恢复、一致性等功能,可以对海量的非结构化数据、时空数据、图像数据进行数据挖掘;分析和挖掘用户在Web上的访问、购物行为特征,实现个性化推荐;可以做字数统计
18、(WordCount)、词频TFIDF分析;学术论文、专利文献的引用分析和统计;维基百科数据分析;基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。2022/5/11现代教育技术中心258.2 大数据技术8.2.9 新一代资源管理调度框架YARN 在Hadoop 2.x 中,把MapReduce1.0中的资源管理调度功能单独分离出来形成了YARN(Yet Another Resource Negotiator,另一种资源协调者),是一个纯粹的资源管理调度框架,为上层应用提供统一的资源管理、调度、监控和数据共享,提高了集群的利用率。 YARN包括ResourceManager、App
19、licationMaster和NodetManager。2022/5/11现代教育技术中心268.2 大数据技术8.2.10 轻量级的分布式内存计算系统Spark2022/5/11现代教育技术中心271.内存计算内存计算是指在内存数据库上进行数据存储和处理。内存计算允许在服务器的内存中处理大量的实时数据,提供即时分析和交易的结果,利用内存的高速性能,更快速地获取数据、汇总数据、分析数据;通过分布式的环境,内存计算器的服务器被分到不同的节点上,快速地进行数据分散计算、数据分散汇总、更快速的获取结果。2. Spark介绍 Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是美国
20、加州大学伯克利分校AMPLaab的集群计算平台,也是Apache基金会的开源项目。Spark立足于内存计算,从多迭代批量处理出发,整合了数据仓库、流处理和图计算多种计算范式,可用于构建大型的、低延迟的数据分析应用程序。8.2 大数据技术8.2.10 轻量级的分布式内存计算系统Spark2022/5/11现代教育技术中心283.Spark核心概念Spark提出了一个数据集抽象概念RDD(Resilient Distributed Dataset,弹性分布式数据集),指的是一个只读的、带分区的数据集合,并支持多种分布式算子。RDD具有以下几个特点:(1)分布在集群中的只读对象集合,由多个分区构成,
21、这些分区可能存储在不不同机器上。(2)RDD可以存储在磁盘或内存中(多种存储级别),分区可全部存储在内存或磁盘上,也可以部分在内存中,部分在磁盘上。(3)通过并行“转换”操作构造:Spark提供了大量API通过并行的方式构造和生成RDD;(4)失效后自动重构:8.2 大数据技术8.2.10 轻量级的分布式内存计算系统Spark2022/5/11现代教育技术中心294.Spark与Hadoop的对比相对于Hadoop MapReduce,Spark主要有以下优点:(1)Spark提供了多种数据集操作类型,编程模型比MapReduce更灵活。(2)Spark提供了多种高层次、简洁的API,同时提供
22、了实时交互式编程反馈,可高效实现很多复杂的算法操作;而对于实现相同功能的应用程序,Hadoop需要编写不少相对于底层的代码,不够高效。(3)Spark把数据载入内存,迭代计算可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读写数据,带来了更高的迭代运算效率。而Hadoop每次迭代都需要从磁盘中写入、读取中间数据,IO开销大,迭代计算非常耗资源。(4)Spark通过在内存中缓存处理的数据,提高了处理流式数据和迭代式数据的性能,更适合做迭代运算比较多的数据挖掘与机器学习运算。Hadoop对于迭代式流式数据的处理能力差,适合处理静态数据。8.2 大数据技术8.2.11 流计算2022/5/11
23、现代教育技术中心301.流数据流数据具有如下特征:(1)数据快速持续到达,潜在大小也许是无穷无尽的;(2)数据来源众多,格式复杂;(3)数据量大,但一旦经过处理,要么被丢弃,要么被归档存储(存储于数据仓库);(4)注重数据的整体价值,不过分关注个别数据;(5)数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。8.2 大数据技术8.2.11 流计算2022/5/11现代教育技术中心312.流计算框架流计算方式作为一种新的数据计算结构,它可以对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。流计算框架应具备的特点:高吞吐量
24、和低时延;完善的故障处理机制;功能可扩展,易于二次开发,提供友好的编程接口,良好的负载均衡、Web管理、自动部署等功能。目前主要的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架。8.2 大数据技术8.2.11 流计算2022/5/11现代教育技术中心323.流计算应用流运算针对流数据的实时计算,主要面向以下几种应用:对金融与科学计算当中的数据进行更快运算和分析的需求;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。8.2 大数据技术8.2.12 图计算2022/5/11现代教育
25、技术中心331.图计算简介这里的“图”指的是数据结构,是针对“图论”而言的,而不是指图像。图(Graph)由节点V(vertice)与边E(edge)构成,我们一般表示为G(V,E)。特征代表软件基于遍历算法的、实时的图数据库Neo4j、OrientDB、DEX和 Infinite Graph以图顶点为中心、基于消息传递批处理的并行引擎GoldenOrb、Giraph、Pregel和Hama等图处理软件是基于BSP模型实现的并行图处理系统。8.2 大数据技术8.2.12 图计算2022/5/11现代教育技术中心342 .图计算的应用场景在金融行业中,图计算以及认知技术重点应用的业务领域包括:金
26、融风险的管控、客户的营销拓展,内部的审计监管、以及投资理财等方面。利用图计算和图认知技术,完整刻画企业客户之间、企业与自然人之间的社会关系、经济往来关系,构建全方位的风险关联网络,实现风险要素的动态性和完整性呈现,从而提升风险管理的可靠性和准确率。8.3 数据可视化8.3 数据可视化2022/5/11现代教育技术中心35可视化技术分为可视化报表和可视化分析两类。可视化报表用图和表来描述业务绩效,通常通过度量和时间系列信息来定义。可视化分析,即可视化地探索数据,可视化地过滤、比较和关联数据。数据可视化工具有入门级工具、在线可视化工具、互动图形用户界面控制、地图工具、专家级工具等。8.4大数据的应
27、用大数据在互联网领域的应用2022/5/11现代教育技术中心36在互联网领域,大数据被广泛应用在三大场景中,分别是搜索引擎、推荐系统和广告系统。搜索引擎:搜索引擎能够帮助人们在大数据集上快速检索信息,谷歌在自己的搜索引擎中广泛使用了大数据存储和分析系统。推荐系统:推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的兴趣和需求,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求,已经被广泛应用于电子商务、电影视频网站、新闻推荐等系统中。广告系统:广告系统能够根据用户的历史行为信息及个人基本信息,为用户推荐最精准的广告。广告系统通常涉及广告库、日志库等数据,需采
28、用大数据技术解决。8.4大数据的应用8.4.2 大数据在医疗卫生领域的应用2022/5/11现代教育技术中心37大数据在医疗卫生领域的应用有以下几点:1.促进医疗信息平台的建设2. 辅助临床决策3. 预测预防流行病8.4大数据的应用8.4.3 大数据在金融行业的应用2022/5/11现代教育技术中心38随着大数据、云计算、人工智能、区块链等技术的创新,大数据时代改变了传统金融行业的服务模式,比如电子化的现金支付手段、网络化的金融销售方式、数字化的信用获取方法。大数据在金融业的应用体现在以下几个方面。1.精准营销2.信用评估3.风险管理4.智能服务8.4大数据的应用8.4.4 大数据在智能交通的应用2022/5/11现代教育技术中心39利用大数据技术进行整合、转换处理,用于支撑交通规划、交通监控、智能诱导、智能停车等应用系统建设。通过大数据分析推出车辆轨迹、道路流量、案件聚类等大数据模型;基于大数据模型,推出智能套牌、智能跟车分析、轨迹碰撞、人脸比对、舆情分析等数据应用。城市建设的车辆大数据平台,可以协助有关部门每天自动发现套牌车辆,再根据车辆的轨迹分析和落脚点分析,快速找到套牌车辆进行处罚管理。