《第10章大数据技术与应用.pptx》由会员分享,可在线阅读,更多相关《第10章大数据技术与应用.pptx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第10章大数据技术与应用温浩宇 西安电子科技大学出版社商业智能:方法与应用8 . 1大数据概述目 录O N T E N T S8 . 2 . 2数据存储与检索技术Hive8 . 2 . 1分布式文件系统HDFS8 . 2大数据关键技术8 . 3大数据应用8 . 2 . 3大数据分析技术MapReduce8.1 大数据概述大数据的产生与发展大数据的产生与发展大数据的概念与数据结构大数据的概念与数据结构大数据的特征大数据的特征 8.1 大数据概述-大数据的产生和发展数据体量膨胀存储成本降低数据整合简单数据复杂性提高数据成本降低数据类型总类增加数据空间维度增加大数据的产生和发展 8.1 大数据概述-
2、大数据的产生和发展数据量的增长与数据复杂度的提高概念n 数据量大:通常定义10TB的数据量为是大型数据集,但是在现实企业中,多个数据集集合在一起,就已经达到了远远超于10TB的数量n 数据种类多,数据来源多:这些数据生产于不同的系统,不同的应用,不同的行业背景,并且数据的种类和格式也各种各样,呈现出多元化的特点。面临挑战n大量的数据可以为统计分析提供依据,但数据复杂性的提高也导致数据处理和分析过程中的低准确性和低效率。n大数据所面临的挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源等方面。8.1 大数据概述-大数据的概念及数据结构8.1 大数据概述-
3、大数据的概念及数据结构结构化数据数据是第一次数据大潮,一直扮演不可缺少的角色,并在信息化和互联网发展中得到广泛应用。半结构化数据是第二次数据大潮,它仍是以内容为基础的,可以用来被查找,比如邮件数据,HTML页面信息。非结构化数据是第三次数据大潮,并且有愈演愈烈的势头,必须要有对应的软件来支撑,比如音频、视频数据。体量大速度快多样性通过各种设备产生的海量数据,其数据规模极为庞大,远大于传统组织产生的信息流量,PB级别将是常态。大数据的种类繁多,包含结构化和非结构化的数据,并在编码方式、数据格式、应用特征等多个方面存在差异,多信息源并发形成了大量的异构数据。指处理数据的速度必须很快,设计到感知、传
4、输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。8.1 大数据概述-大数据的特征价值密度低价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。8.2 大数据关键技术分布式文件系统分布式文件系统HDFS数据存储与检索技术数据存储与检索技术Hive大数据分析技术大数据分析技术MapReduce 8.2 大数据关键技术 大数据产业链全景图 8.2 大数据关键技术Hadoop生态图 8.2.1 分布式文件系统HDFS HDFS是一个服务于需要海量分布式数据的
5、框架文件系统。 HDFS遵循了传统的Master/Slave的主从架构。 NameNode作为Master指导Slave DataNode后台线程去执行底层的IO任务。分布式文件系统HDFS NameNode的功能相当于HDFS的一个记事本, 它追踪用户文件如何被切分为多个块状文件,哪些节点存储了这些块状文件,以及整个文件系统的健康状况。 NameNode起到了集群存储和IO集中管理的作用。NameNode 作为Slave节点,DataNode承担了集群具体沟通文件系统读写任务读写HDFS文件块到本地文件系统上的文件。 客户端程序直接和DataNode交互进行具体的读写任务。DataNode
6、8.2.1 分布式文件系统HDFSHadoop中NameNode和DataNode的分布情况Apache Hive能够分析存储在Hadoop的HDFS和兼容的文件系统(如Amazon S3文件系统)中的大型数据集。它提供了一种类似SQL的查询语言,称为HiveQL,并将查询转换为MapReduce、Apache Tez和Spark作业。这三个执行引擎都可以在Hadoop YARN中运行。为了加速查询,它提供了索引功能。Hive提供必要的SQL抽象,将类似SQL的查询(HiveQL)集成到底层Java中,而无需在低级Java API中实现查询。由于大多数数据仓库应用程序使用基于SQL的查询语言,
7、Hive可以帮助基于SQL的应用程序移植到Hadoop。Apache HiveApache Hive是一个基于Apache Hadoop构建的数据仓库软件项目,用于数据查询和分析,Hive提供了一个类似SQL的接口,用于查询存储在与Hadoop集成的各种数据库和文件系统中的数据。8.2.2 数据存储与检索技术Hive8.2.2 数据存储与检索技术Hive存储每个表的元数据,它还包括分区元数据,以帮助驱动程序跟踪在群集中分布的各种数据集的进度,数据以传统的RDBMS格式存储。通过创建会话、监视生命周期和执行进度来开始执行语句。它存储HiveQL语句执行期间生成的必要元数据。还充当Reduce操作
8、后获得的数据或查询结果的收集点。编译将查询转换为执行计划的HiveQL查询。此计划包含Hadoop MapReduce为获取查询转换的输出而需要执行的任务和步骤。对执行计划执行各种转换以获得优化的DAG。可以将转换聚合在一起,还可以拆分任务,以提供更好的性能和可伸缩性。Metastore驱动程序编译器优化程序执行程序编译和优化后,执行程序执行任务。它与Hadoop的作业跟踪器交互以安排要运行的任务。CLI,UI和Thrift服务器命令行界面(CLI)通过提交查询,指令和监视进程状态,为外部用户提供了与Hive交互的用户界面。 Thrift服务器允许外部客户端通过网络与Hive交互,类似于JDB
9、C或ODBC协议。MapReduce 是使用集群的并行、分布式算法处理大数据集的可编程模型。MapReduce以并行处理为主要思想,Map 把复杂任务分解为简单的任务执行,Reduce 对 map 阶段的结果进行汇总,将大数据分解为众多小数据。Mapper类Mapper 类主要负责对数据的分析处理,最终转化为 key-value 数据对。Reducer类Reducer 类主要获取 key-value 数据对,然后处理统计。MapReduce执行流程图8.2.3大数据分析技术MapReduce8.2.3大数据分析技术MapReduce主服务器主服务器将任务调度到从服务器上,并进行监控,从而重新执
10、行失败的任务。应用程序应用程序可在 HDFS 上指定输入与输出的位置,使用特定接口提供与之匹配的 Map 和 Reduce 方法。Hadoop 客户端Hadoop 客户端则主要负责发可执行文件的配置信息给主服务器,由主服务器进行分发,同时调度任务给从服务器,并且将相应的状态信息反馈给 Hadoop 客户端。MapReduce 框架u 一种是独立的主服务器 JobTracker,主要进行工作分配。u 另一种从服务器 TaskTracker,重要进行任务执行。8.2.3大数据分析技术MapReduce YARN系统架构理论基础与文献综述ApplicationMaster每一个Application
11、Master对应一个应用,这使得Yarn成为真正意义上的分布式框架。Yarn框架Yarn框架将 JobTracker 两个主要的功能资源管理和任务调度分离成单独的组件。ResourceManager依据各个应用程序对资源的需求,ResourceManager 会统筹协调进行智能的任务调度;应用程序需要的资源被一个抽象的容器集中管理。NodeManagerNodeManager 管理着单机的计算资源,实时监控应用程序的资源占用并通过发送心跳数据包向ResourceManager汇报。8.3 大数据应用随着大数据分析越来越广泛,其现实应用也越来越普遍地出现在人类生产、生活的方方面面,以下列举出大数
12、据应用的几个关键领域。8.3 大数据应用大数据应用政府医疗保健物联网信息技术媒体保险制造业大数据为制造业的发展提供了技术基础,提高了制造过程的可控性和可预测性。媒体业正在摆脱传统的特定媒体环境,转而利用各种数据来挖掘出潜在消费者。保险公司正在通过各种渠道收集有关数据,据此来预测医疗成本,并精准推荐相关的报销产品。大数据作为一种帮助员工提高工作效率、简化信息收集和分发的工具,在企业运营中日益突出。大数据与物联网协同工作,从物联网设备中提取的数据映射了设备的互连性。此外,物联网也越来越多地被用作收集感官数据的一种手段。在政府工作流程中使用大数据相关技术,可以提高成本、生产率和创新等方面的效率。大数据分析有助于为医疗保健提供个性化医疗和处方分析,临床风险干预和预测分析,帮助医疗过程的数据共享和科学决策,以便帮助改善医疗保健效果。