Spark编程基础Python版-第1章-大数据技术概述(202.ppt

上传人:创****公 文档编号:2510163 上传时间:2020-04-16 格式:PPT 页数:46 大小:7.84MB
返回 下载 相关 举报
Spark编程基础Python版-第1章-大数据技术概述(202.ppt_第1页
第1页 / 共46页
Spark编程基础Python版-第1章-大数据技术概述(202.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《Spark编程基础Python版-第1章-大数据技术概述(202.ppt》由会员分享,可在线阅读,更多相关《Spark编程基础Python版-第1章-大数据技术概述(202.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、,厦门大学计算机科学系2020版,林子雨厦门大学计算机科学系E-mail:ziyulin主页:,第1章大数据技术概述(PPT版本号:2020年1月版),温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字,Spark编程基础(Python版)教材官网:,扫一扫访问教材官网,课程教材,林子雨,郑海山,赖永炫编著Spark编程基础(Python版),本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreami

2、ng、StructuredStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。,教材官网:,提纲,1.1大数据时代1.2大数据概念1.3大数据的影响1.4大数据关键技术1.5大数据计算模式1.6代表性大数据技术,百度搜索厦门大学数据库实验室网站访问平台,1.1大数据时代,1.1.1第三次信息化浪潮,根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革,表1三次信息化浪潮,1.1.2信息科技

3、为大数据时代提供技术支撑,图1-1存储价格随时间变化情况,1.存储设备容量不断增加,1.1.2信息科技为大数据时代提供技术支撑,图CPU晶体管数目随时间变化情况,2.CPU处理能力大幅提升,1.1.2信息科技为大数据时代提供技术支撑,图网络带宽随时间变化情况,3.网络带宽不断增加,1.1.3数据产生方式的变革促成大数据时代的来临,图数据产生方式的变革,1.2大数据概念,1.2.1数据量大,根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量预计到2020年,全球将总共拥有35ZB的数据量,相较于

4、2010年,数据量将增长近30倍,1.2.2数据类型繁多,大数据是由结构化和非结构化数据组成的10%的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相关,科学研究基因组LHC加速器地球与空间探测企业应用Email、文档、文件应用日志交易记录Web1.0数据文本图像视频Web2.0数据查询日志/点击流Twitter/Blog/SNSWiki,1.2.3处理速度快,从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同,1.2.4价值密度低,价值密度低,商业价值高以视频为例,连续不间断监控过程中,可能有用的数据仅仅有

5、一两秒,但是具有很高的商业价值,继续装ing,1.3大数据的影响,图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式,实验,理论,计算,数据,1.3大数据的影响,在思维方式方面,大数据完全颠覆了传统的思维方式:全样而非抽样效率而非精确相关而非因果,1.4大数据关键技术,表1-5大数据技术的不同层面及其功能,1.4大数据关键技术,分布式存储,分布式处理,GFSHDFSBigTableHBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQLAzure),MapReduce,大数据,两大核心技术,1.5大数

6、据计算模式,表1-3大数据计算模式及其代表产品,1.6代表性大数据技术,1.6.1Hadoop1.6.2Spark1.6.3Flink1.6.4Beam,1.6.1Hadoop,图Hadoop生态系统,1.6.1HadoopMapReduce,图MapReduce工作流程,Shuffle,MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分

7、片(split),这些分片可以被多个Map任务并行处理,1.6.1HadoopYARN,一个企业当中同时存在各种不同的业务应用场景,需要采用不同的计算框架MapReduce实现离线批处理使用Impala实现实时交互式查询分析使用Storm实现流式数据实时分析使用Spark实现迭代计算这些产品通常来自不同的开发团队,具有各自的资源调度管理机制为了避免不同类型应用之间互相干扰,企业就需要把内部的服务器拆分成多个集群,分别安装运行不同的计算框架,即“一个框架一个集群”导致问题集群资源利用率低数据无法共享维护代价高,YARN的目标就是实现“一个集群多个框架”,为什么?,图在YARN上部署各种计算框架,

8、YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩可以实现一个集群上的不同应用负载混搭,有效提高了集群的利用率不同计算框架可以共享底层存储,避免了数据集跨集群移动,1.6.1HadoopYARN,1.6.2Spark,Spark架构图,1.6.2Spark,Spark生态系统,1.6.2Spark,Hadoop存在如下一些缺点:表达能力有限磁盘IO开销大延迟高任务之间的衔接

9、涉及IO开销在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务,Hadoop与Spark的对比,1.6.2Spark,Spark在借鉴HadoopMapReduce优点的同时,很好地解决了MapReduce所面临的问题相比于HadoopMapReduce,Spark主要具有如下优点:Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比HadoopMapReduce更灵活Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高Spark基于DAG的任务调度执行机制,要优于HadoopMap

10、Reduce的迭代执行机制,Hadoop与Spark的对比,1.6.2Spark,图Hadoop与Spark的执行流程对比,1.6.2Spark,图Hadoop与Spark执行逻辑回归的时间对比,使用Hadoop进行迭代计算非常耗资源Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据,1.6.2Spark,问题:Spark会取代Hadoop吗?,Hadoop包括两大核心:HDFS和MapReduceSpark作为计算框架,与MapReduce是对等的谈到“取代”,Spark应该是取代MapReduce,而不是整个HadoopSpark和H

11、adoop生态系统共存共荣,Spark借助于Hadoop的HDFS、HBase等来完成数据的存储,然后,由Spark完成数据的计算,1.6.3Flink,Flink架构图,1.6.3Flink,Flink生态系统,1.6.3Flink,Flink与Spark的比较,1.6.3Flink,Spark和Flink全部都运行在HadoopYARN上,性能为FlinkSparkHadoop(MR),迭代次数越多越明显,性能上,Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有对迭代自动优化的功能。,性能对比首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算

12、性能。经过测试,Flink计算性能上略好。,1.6.3Flink,流式计算比较,它们都支持流式计算,Flink是一行一行处理,而Spark是基于数据片集合(RDD)进行小批量处理,所以Spark在流式处理方面,不可避免增加一些延时。Flink的流式计算跟Storm性能差不多,支持毫秒级计算,而Spark则只能支持秒级计算。,SQL支持,都支持SQL,Spark对SQL的支持比Flink支持的范围要大一些,另外Spark支持对SQL的优化,而Flink支持主要是对API级的优化。,既生瑜,何生亮!,1.6.4Beam,谷歌,Beam,一统天下?,1.6.4Beam,附录A:主讲教师林子雨简介,单

13、位:厦门大学计算机科学系E-mail:ziyulin个人网页:,主讲教师:林子雨,林子雨,男,1978年出生,博士(毕业于北京大学),现为厦门大学计算机科学系助理教授(讲师),曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国计算机学会数据库专业委员会委员,中国计算机学会信息系统专业委员会委员。国内高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013年度和2017年度厦门大学教学类奖教金获得者,荣获2017年福建省精品在线开放课程、2018年厦门大学高等教育成果特等奖、2018年福建省高等教育教学成果二

14、等奖、2018年国家精品在线开放课程。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在软件学报计算机学报和计算机研究与发展等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049),主持的教改课题包括1项2016年福建省教改课题和1项2016年教育部产学协作育人项目,同时,作为课题负责人完成了国家发改委城市信息化重大课题、国家物联网重大应用示范工程区域试点泉州

15、市工作方案、2015泉州市互联网经济调研等课题。中国高校首个“数字教师”提出者和建设者,2009年至今,“数字教师”大平台累计向网络免费发布超过500万字高价值的研究和教学资料,累计网络访问量超过500万次。打造了中国高校大数据教学知名品牌,编著出版了中国高校第一本系统介绍大数据知识的专业教材大数据技术原理与应用,并成为京东、当当网等网店畅销书籍;建设了国内高校首个大数据课程公共服务平台,为教师教学和学生学习大数据课程提供全方位、一站式服务,年访问量超过200万次。,扫一扫访问个人主页,附录B:大数据学习路线图,大数据学习路线图访问地址:,附录C:大数据技术原理与应用教材,欢迎访问大数据技术原

16、理与应用概念、存储、处理、分析与应用教材官方网站:,扫一扫访问教材官网,大数据技术原理与应用概念、存储、处理、分析与应用(第2版),由厦门大学计算机科学系林子雨博士编著,是国内高校第一本系统介绍大数据知识的专业教材。人民邮电出版社ISBN:978-7-115-44330-4定价:49.80元全书共有15章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HB

17、ase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。,附录D:大数据基础编程、实验和案例教程,本书是与大数据技术原理与应用(第2版)教材配套的唯一指定实验指导书,步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程,清华大学出版社I

18、SBN:978-7-302-47209-4定价:59元,附录E:Spark编程基础(Python版),林子雨,郑海山,赖永炫编著Spark编程基础(Python版),本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,

19、包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。,教材官网:,附录F:Spark编程基础(Scala版),Spark编程基础(Scala版)厦门大学林子雨,赖永炫,陶继平编著披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系,本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。,人民邮电出版社出版发行,ISBN:978-7-115-48816-9教材官网:,附录G:高校大数据课程公共服务平台,扫一扫访问平台主页,扫一扫观看3分钟FLASH动画宣传片,DepartmentofComputerScience,XiamenUniversity,2020,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁