《《大数据基础与应用》习题答案(全).docx》由会员分享,可在线阅读,更多相关《《大数据基础与应用》习题答案(全).docx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模块一思考与练习一、填空题1 .数据的类型有很多种,主要分为三种,即结构化数据和_、半结构化 数据和非结构化数据O2 .大数据的三个明显特征分别是攵据量大、数据实时性与数据多样性3 .魔镜现在有五个版本,即企业基础版、企业标准版、企业高级版、云平 台版和Hadoop版。二、简答题1 .简述大数据的定义。大数据(big data , mega data ),或称巨量资料,指的是需要新处理模式才 能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息 资产。2 .大数据的价值表现在哪几个方面?3 )大数据是新时代信息技术的关键支撑4 )大数据是促进现代社会经济开展的推动力5 )大数
2、据将成为科技创新的引擎6 .大数据的特点有哪些?大数据具有四大特点,即volume (容量),代表海量的数据规模;variety (种类),代表数据类型的多样性;value(价值),代表深度的数据价值velocity (速度),代表数据流转的迅速与体系的动态性7 .大数据的分析工具主要有哪些?InfoSphere Biginsights ; BigQuery ;魔镜3 .垂直网站通常指的是为满足用户在某些特定的领域或某种特定的需求提 供有关这个领域或需求的全部深度信息和相关服务的专业性网站。三、简答题1 .搜索引擎的产生和开展经历了哪几个阶段?试简述各阶段的特点。答:早期出现的搜索引擎只是检索
3、FTP网站文件的程序,随后的搜索引擎 开始收录网络地址形成分类目录,后续的开展中搜索引擎开始收录标题,目前的 搜索引擎,已经开展到抓取网页全文阶段。2 .简述搜索引擎索引系统的形成过程。答:1 )提取关键词:通过结构化、消噪去除掉网页中所有的格式代码,同 时去除非正文关键词或停用词,网页的主文字内容后应用自身的分词系统,将此 文分成一个分词列表,然后存储在数据库中,并与此文的URL进行一一对应2 )倒排文件建立索引:在不同索引词组成的索引表中记录索引词ID号,表 明匹配该索引词的文档数量,并匹配文档在记录文件内的偏移量,通过这偏移量 就可以读取记录文件对应区域的信息。3)对网页完成重要度分析并
4、完成排名3私有化的Web化数据所指代的含义是什么?它的产生有何背景?答:私有化的Web化数据是指垂直网站在到达一定规模后,拥有与搜索引 擎同比竞争的能力时,会特意屏蔽搜索引擎的爬虫,将自己的数据私有化。它的 产生一方面由于互联网中局部信息并未Web化,另一方面Web化的网页中的信 息,搜索引擎也不可能实现完全抓取。模块六思考与练习一、选择题1 .不属于大数据主要的存储模型的是(D )。A.关系型数据库B.列式数据库C.键值存储D.视频数据库2 .不属于关系型数据库的是(B )0A. Oracle B. Sybase C. DB2 D. Microsoft SQL Server3 .数据存储方式
5、有(D ) 0A.在线存储B,近线存储C.异地备份 D.以上皆对二、填空题1 .云存储系统的结构模型由4层组成:存储层、基础管理层、应用接口层 和访问层。2 .在一个图形数据库中,最主要的组成有两种:结点集和连接结点的关系。3 .分布式存储系统具有如下几个特性:可扩展。(2 )低本钱自动运维。(3 ) 高性能(4 )易用。三、简答题1 .简述大数据存储的概念。数据存储是指数据流在加工过程中产生的临时文件或需要查找的信息的存 储。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这 种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动 态数据的特征;数据存储反映系
6、统中静止的数据,表现出静态数据的特征。2 .大数据存储的常见问题是什么?L容量3 .延迟4 .平安问题4本钱5 .数据保存6 .灵活性7 .应用感知8 .小用户3.大数据存储的方式有哪几种?关系型数据库、列式数据库、键值存储、文档存储、图形数据库模块7 思考与练习一、选择题1.以下不属于大数据基本特征的是(D )。A.数据规模庞大B.数据的形式多样化C.数据的获取及处理速度快D.数据的处理具有实时性2 .数据挖掘中关联规那么分析最典型的算法是(D )。A. KNN 算法 B. Naive Bayes 算法 C. k-means 算法 D.Aprior 算法3 .大数据处理流程中的第二个步骤是(
7、A )。A.数据的导入和预处理B.数据的统计与分析C.数据清洗 D.数据的采集二、填空题1 .数据仓库是一组支持决策过程的、面向主题的、集成的、随时间而变的持 久的数据集合。2 .数据挖掘的最终目标是获取数据的有效价值,其具体的实际应用功能可分 为三大类、六分项来说明:分类和聚类属于分类区隔类;_回归分 析和时间序列属于推算预测类;关联规那么和 序列模式属于关联分析类。3 .在数据挖掘的分类算法中比拟典型的算法是Naive Bayes 算法和 _KNN 算法。三、简答题1 .大数据时代数据的存储与管理与传统数据存储方式有何区别?答:传统数据管理方法的局限性及大数据的现实条件促使新的数据库设计的
8、 出现,在新的数据库设计中,原本数据库模式中存在的记录和预设场域(成规数 据的整齐排列)的规律被替代。大数据为适应信息开展的需要,运用非关系型数 据库作为一种新型数据库设,它不需要预先设定记录结构,同时允许处理规模庞 大、结构复杂的数据。2 .数据挖掘中典型的聚类算法有哪些?答:为了找到效率高、通用性强的聚类方法,根据划分条件的不同有多种聚 类算法,典型的有K-means方法、K-medoids方法、CLARANS方法、BIRCH方 :土笺 /ZxTo3.大数据分析中重要的五个方面分别指什么?它们各自完成的任务有哪 些?答:1)可视化分析:运用一些数据分析的工具将数据转化为图的形式,达 到看图
9、说话”的效果。2)数据挖掘算法:运用挖掘算法处理海量的数据并更加科学地呈现出数据 本身具备的特点。3)预测性分析能力:作用是让数据分析员可以根据数据可视化分析和数据 挖掘计算所得结果对未来的相关事物做出一些预测性的判断。4)语义引擎:借助语义引擎,可从用户的搜索关键词、标签关键词或其他 输入语义,分析、判断用户需求5)数据质量和数据管理:高质量的数据和有效的数据管理,无论是在学术 研究还是在商业应用领域,都能够保证分析结果的真实和有价值。模块八思考与练习一、选择题1.不属于数据可视化技术的主题是(D )。A.数据的显示B.连接的显示C.网站的显示D信息可视化2 .不属于数据可视化展现方式(c
10、)。A.鱼骨图B.柏拉图C.回归图D.直方图3 .大数据可视化分析工具有(c )0A.Word B.PPT C.Excel D.Google Pinyin二、填空题1统计学领域有一组统计量是用来描述样本的集中趋势的,它们就是:平 均数、和中数众数2 .正态分布:也称常态分布 ,正态分布是一种 概率分布。3 .直方图(Histogram)又称 质量分布 图。是一种 统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。三、简答题1 .常用的数据整理技术有哪些?回退模型可视化相关性变化分析差异分析预测群集技术决 策树神经网络2 .使用分析Excel和Google Spreadsheets
11、 ,分析它们之间的优缺点、Excel功能更加完善 能完成的分析更多,Google Spreadsheets基于网络的, 更好的在线实时编辑,更好的网络交互。3 .开展大数据可视化,那么传统的数据和信息的表示方式是否还有意义?答:当然有意义。模块9思考与练习一、填空题1 .机密性(Confidentiality )、完整性(Integrity )、可用性(Availability )2 .物理平安、网络平安、应用平安、数据隐私3 .网络黑客和病毒攻击威胁、信息资源泄露威胁、网络漏洞威胁二、简答题1 .答:数据处理的平安是指如何有效的防止数据在录入、处理、统计或打印 中由于硬件故障、断电、死机、人
12、为的误操作、程序缺陷、病毒或黑客等造成的 数据库损坏或数据丧失现象,某些敏感或保密的数据可能被不具备资格的人员或 操作员阅读,而造成数据泄密等后果。2.答:数据存储的平安是指数据库在系统运行之外的可读性。一旦数据库被 盗,即使没有原来的系统程序,照样可以另外编写程序对盗取的数据库进行查看 或修改。3答:大数据的平安机制可从网络平安、数据平安、应用平安、终端平安等 各个管理角度加强大数据的平安防范。(1 )网络平安网络是输送大数据资源的主要途径,通过强化网络基础设施平安保障,可以 访问控制,以用户身份认证为前提,实施各种策略来控制和规范用户在系统中的 行为,从而到达维护系统平安和保护网络资源的目
13、的;二是通过链路加密,建立 虚拟专用网络,隔离公用网络上的其他数据,防止数据被截取;三是通过隔离技 术,对数据中心内、外网络区域之间的数据流量进行分析、检测、管理和控制, 从而保护目标数据源免受外部非法用户的侵入访问;四是通过网络审计,监听捕 获并分析网络数据包,准确记录网络访问的关键信息,通过统一的策略设置的规 那么,智能地判断出网络异常行为,并对异常行为进行记录、报警和阻断,保护业 务的正常运行。提高大数据环境的平安。可从如下个方面加强网络平安的保障措施:一是通过(2)虚拟化平安虚拟化技术是大数据概念的一个基础组成局部,它加强了基础设施、软件平 台、业务系统的扩展能力,同时也使得传统物理平
14、安边界逐渐缺失。加强虚拟环 境中的平安机制与传统物理环境中的平安措施,才能更好地保障在虚拟化基础之 上为大数据提供的各类应用和服务的平安。可从如下两个方面加强虚拟化平安的 保障措施:一是在虚拟化软件层面建立必要的平安控制措施,限制对虚拟化软件 的物理和逻辑访问控制;二是在虚拟化硬件方面建立基于虚拟主机的专业的防火 墙系统、杀毒软件、日志系统和恢复系统,同时对于每台虚拟化服务器设置独立 的硬盘分区,用以系统和日常数据的备份。(3)数据平安基于数据层面的保护最直接的平安技术包括两方面的内容:一是数据加密, 深入数据层保护数据平安,针对不同的数据采用不同的加密算法,实施不同等级 的加密控制策略,有效
15、地杜绝机密信息泄漏和窃取事件;二是数据备份,将系统 中的数据进行复制,当数据存储系统由于系统崩溃、黑客入侵以及管理员的误操 作等导致数据丧失和损坏时,能够方便且及时地恢复系统中的有效数据,以保证 系统正常运行。通过以上措施可以保障大数据在数据方面的平安性。(4)应用平安由于大数据环境的灵活性、开放性以及公众可用性等特性,部署应用程序时 应提高应用方面的平安意识,充分考虑应用可能引发的各类平安风险。加强各类 程序接口在功能设计、开发、测试、上线等覆盖生命周期过程的平安实践,广泛 采用更加全面的平安测试用例,在处理敏感数据的应用程序与服务器之间通信时 采用加密技术,通过以上措施可以保障大数据在应用
16、方面的平安性。(5)终端平安随着云计算、移动互联网等技术的开展,用户终端种类不断增加,很多应用 程序被攻击者利用收集隐私和重要数据。用户终端上应部署平安软件,包括反恶 意软件、防病毒、个人防火墙以及入侵防御系统(IPS: Intrusion Prevention System )类型的软件,并及时完成应用平安更新,注重自身账号密码的平安保 护,尽量不在陌生的终端上使用公共服务;同时还应采用屏蔽、抗干扰等技术防 止电磁泄漏,可从一定程度上降低大数据失窃的风险,增强大数据在终端方面的 平安性。4.答:大数据的平安防护技术可从以下五方面进行相应技术的研究:(1 )数据发布匿名保护技术对于非结构化数据
17、要有效地实现用户数据平安和隐私保护,数据发布匿名保 护技术是关键点,但是这一技术还需要不断开掘和完善。现有的大局部数据发布 匿名保护技术的基本理论,设定环境大多是用户一次性、静态地发布数据。如通 过元组泛化和抑制处理方式分组标识符,用k匿名模式对有共同属性的集合进行 匿名处理,但这样容易漏掉某个特殊的属性。通常情况下现实生活中的数据发布 普遍是连续、屡次的,在大数据复杂的环境中,要实现数据发布匿名保护技术较 为困难。攻击者可以从不同的发布点、不同的渠道获取各类信息,所获得的信息 将帮助攻击者确定攻击目标的用户信息。因此数据发布匿名保护技术还需要信息 领域的研究人员投入更多的精力多加研究。(2)
18、社交网络匿名保护技术包含了大量用户隐私的非结构化数据大多产生于社交网络,这类数据最显著 的特征就是图结构,因而数据发布保护技术无法满足这类数据的平安隐私保护需 求。一般攻击者都会利用点和边的相关属性,通过分析整合,重新鉴定出用户的 身份信息。因此在社交网络中实现数据平安与隐私保护技术,需要结合其图结构 的特点,进行用户标识匿名以及属性匿名(点匿名),即在数据发布时对用户标 识和属性信息进行隐藏处理;同时对用户间关系匿名(边匿名),即在数据发布 时对用户之间的关系连接进行隐藏处理。这是社交网络数据平安与隐私保护的要 点,可以防止攻击者通过用户在不同渠道发布的数据,或者是用户之间的边联系 推测出原
19、本受匿名保护的用户,破解匿名保护。研究说明,社交网络的集聚特性 对于关系预测方法的准确性具有重要影响,社交网络局部连接密度增长,集聚系 数增大,那么连接预测算法的准确性就进一步增强。因此未来的社交网络匿名保护 技术应可以有效抵抗此类型的网络攻击,以提高大数据的用户隐私保护度,增强 大数据的数据内容可信度。(3)数据水印技术水印技术是指将可标识信息在不影响数据内容和数据使用的情况下,以一些 比拟难发觉的方式嵌入到数据载体里。一般用于媒体版权保护中,也有一些数据 库和文本文件应用水印技术。在多媒体载体上与数据库或者文本文档上应用水印 技术有着很大的不同,基于二者的数据的无序和动态性等特点并不一致。
20、数据水 印技术从其作用力度可以分为两种类型,一种是强健水印类,多用于证明数据起 源,保护原作者的创作权;另一种是脆弱水印类,可用于大数据的真实性证明。 水印技术存在问题之一是当前的方案多是基于静态数据集进行数据隐私保护的, 针对大数据的高速产生与更新的特性考虑不够充足,这是数据水印技术在未来亟 待提高的地方。(4)数据溯源技术对数据溯源技术的研究一开始是在数据库领域内的,现在也被引入到大数据 平安与隐私保护中来。标记来源的数据可以缩短使用者判断信息真伪的时间,或 者帮助使用者检验分析结果正确与否。其中标记法是数据溯源技术中最为基本的 一种手段,主要是记录数据的计算方法(Why )和数据出处(W
21、here )。对于文 件的溯源和恢复,数据溯源技术也同样发挥了极其重大的作用。然而,数据溯源 技术应用于大数据平安与隐私保护中面临着数据溯源与隐私保护之间的平衡和 数据溯源技术自身的平安性保护两方面的挑战,未来数据溯源技术将在大数据安 全领域发挥重要的作用。(5)角色挖掘基于角色的访问控制(RBAC : Role-Based Access Control)是当前广泛使用 的一种访问控制模型。通过为用户指派角色、将角色关联至权限集合,实现用户 授权、简化权限管理。早期的RBAC权限管理多采用“自顶向下的模式,即根 据企业的职位设立角色分工,当其应用于大数据场景时,面临需大量人工参与角 色划分、授
22、权的问题,又称为角色工程。后来研究者们开始关注自底向上模 式,即根据现有“用户-对象”授权情况,设计算法自动实现角色的提取与优化, 其被称为角色挖掘,简单来说就是如何设置合理的角色。在大数据场景下,采用 角色挖掘技术可根据用户的访问记录自动生成角色,高效地为海量用户提供个性 化数据服务,同时也可用于及时发现用户偏离日常行为所隐藏的潜在危险。然而, 当前角色挖掘技术大都基于精确、封闭的数据集,在应用于大数据场景时还需要 解决数据集动态变更以及数据质量不高等特殊性问题,因此角色挖掘技术还需要 信息领域的研究人员投入更多的精力多加研究。模块2思考与练习一、选择题B C B B D二、简答题1 .列举
23、Hadoop的功能作用,以及Hadoop的优势是什么?答:作用:hadoop是通过分布式集群技术,将多个物理机或虚拟机当作一台机器运行,简 单说就是做大数据的分布式计算。优点:(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;(2扃扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(3 )高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动 态平衡,因此处理速度非常快。(4 )高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败 的任务重新分配。2 .Hddoop的体系结构是怎样的,请举
24、例说明。答:DataNodeDataNodeDataNodeDataNodeDataNode如上所示,在一个典型的HDFS集群中,有一个NameNode, 一个SecondaryNameNode和至少一个DataNode而HDFS客户端数量并没有限制。所有的数据均存放在运行DataNode进程的节点的块(block )里。3 .Hadoop与大数据、云计算之间的关系是什么,主要起什么作用?答:用一句话概括就是云计算因大数据问题而生,大数据驱动了云计算的开展, 而Hadoop在大数据和云计算之间建起了一座坚实可靠的桥梁。4 .HDFS中数据副本的存放策略是什么?答:在大多数情况下,副本系数是3
25、, HDFS的存放策略是将一个副本存放在本 地机架节点上,一个副本存放在同一个机架的另一个节点上,最后一个副本放在 不同机架的节点上。这种策略减少了机架间的数据传输,提高了写操作的效率。机架的错误远远比节点的错误少,所以这种策略不会影响到数据的可靠性和可用 性。与此同时,因为数据块只存放在两个不同的机架上,所以此策略减少了读取 数据时需要的网络传输总带宽。5 .NameNode和DataNode的功能分别是什么?答:NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及 目录树里所有的文件和目录;DataNode被称为数据节点,它是HDFS 的主从架构的从角色的扮演者,它在Name
26、Node的指导下完成I/O任 务。模块3思考与练习一、选择题B C B D D D二、填空题1、read ( )、write ()2、硬盘、HA三、简答题.根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步 骤。答:如上图所示,HDFS客户端首先要访问NameNode ,并告诉它所要读取的文 件,在这之前,HDFS会对客户的身份信息进行验证。验证的方式有两种:一种 是通过信任的客户端,由其指定用户名;第二种方式是通过诸如Kerberos等强 制验证机制来完成。接下来还需要检查文件的所有者及其设置的访问权限。当文 件确实存在,且该用户对其有访问权限时,NameNode会告诉H
27、DFS客户端这个 文件的第一个数据块的标号及保存有该数据块的DataNode列表。这个列表是 DataNode与HDFS客户端间的距离进行的排序。有了数据块标号和DataNode 的主机名,HDFS客户端便可以直接访问最合适的DataNode ,读取所需要的数 据块。这个过程会一直重复直到该文件的所有数据块读取完成或HDFS客户端主 动关闭了文件流。1 .根据自己的理解画出HDFS文件系统中文件写入的流程,并解释其中的各个步骤。答:NaraeNode如上图所示,首先HDFS客户端通过HDFS相关API发送请求,翻开一个要 写入的文件如果该用户有写入文件的权限那么这一请求将被送达NameNode
28、 , 并建立该文件的元数据。但此时新建立的文件元数据并未和任何数据块相关联, 这时HDFS客户端会收到翻开文件成功”的响应,接着就可以写入数据了。当 客户端将数据写入流时,数据会被自动拆分成数据包,并将数据包保存在内存队 列中。客户端有一个独立的线程,它从队列中读取数据包,并向NameNode请 求一组DataNode列表,以便写入下一个数据块的多个副本。接着,HDFS客户 端将直接连接到列表中的第一个DataNode ,而该DataNode又连接到第二个 DataNode ,第二个又连接第三个,如此就建立了数据块的复制管道。复制管道 中的每一个DataNode都会确认所收到的数据包已经成功写
29、入磁盘。HDFS客户 端应用程序维护着一个列表,记录着哪些数据包尚未收到确认信息。每收到一个 响应,客户端便知道数据已经成功写入管道中的一个DataNode。当数据块被写入列表中的DataNode中时,HDFS客户端将重新向NameNode申请下一组DataNodeo最终,客户端将剩余数据包写入全部磁盘,关闭数据管道并通知NameNode文件写操作已经完成。模块4思考与练习一、填空题1 .客户端、JobTracker、TaskTracker.分布式文件系统2 . Client. JobTracker、TaskTrackers Task二、简答题1 .答:MapReduce的执行过程如下:(1)
30、数据预处理:在任务开始前,首 先调用类库,将输入文件分为多个分片。(2 )任务分配:JobTracker为集群中 空闲的节点分配Map任务或者Reduce任务。设集群中有M个Map任务和R个 Reduce任务(Reduce任务数通常小于Map任务数)0 ( 3 ) Map任务:Mapper 读取自己所属的文件分片,将每一条输入数据转换为vkey, value键值对,使用 M叩函数对每一个键值对进行处理,得到一个新的key, value键值对,作为中 间结果缓存在当前节点。(4 )缓存文件定位:Map任务得到的中间结果被周期 性地写入M叩per所在的本地硬盘中,并把文件的存储位置信息经由JobT
31、racker 传递给Reducer。( 5 ) Reducer拉取文件:Reducer通过位置信息到相应的 Mapper处拉取这些文件 将同一key对应的所有取值合并 得到vkey, list(value) 键值组。(6 ) Reduce任务:Reducer将所读取到的key, list(value)键值组 使用Reduce函数进行计算,得到最终结果并将其输出。(7 )结束:当所有的 Map任务和Reduce任务运行完毕后,系统会自动结束各个节点上的对应进程并 将任务的执行情况反应给用户。2 .答:MapReduce的作业周期分为五个阶段:(1)作业提交与初始化:用 户在提交完作业之后,Job
32、Client将程序jar程序包、作业配置文件、分片元信息 文件等作业相关信息上传至分布式文件系统上,分片元信息文件的作用是记录每 个输入分片的逻辑位置信息。当JobTracker接受到JobClient的请求后,就会立 即进行初始化,之后在运行过程中需要监控作业运行情况,这就需要建立Job InProgress对象,而且可以同时监控多个任务的运行状况。(2 )任务调度与监控: JobTracker是用来对任务进行调度和监控的。TaskTracker通过Heartbeat周期 性的向JobTracker发送本节点资源的使用情况,在有空闲资源的情况下,任务 调度命令JobTracker按照一定的计
33、划来选择合适的空闲资源。任务调度器是具 有双层架构、比拟独立的结构,可以完成对任务的选择,选择任务需要充分考虑 数据的本地性。止匕外,JobTracker的作用保证任务运行可以成功,并且可以跟踪 作业的整个运行过程。如果TaskTracker或者Task运行失败,那么重新进行任务 运行时间的计算;如果运行进度落后,也会重新进行计算;如果其他运行结束, 就重新启动一个相同Task ;最终选取计算最快的Task结果作为最终结果。(3 ) 任务运行环境准备:通过启动JVM ,将资源进行隔离,这就基本准备好了运行环 境,都是通过TaskTracker来实现的。TaskTracker为每个Task启动一
34、个独立的 JVM ,它为了防止Task滥用资源,采用了操作系统进程来实现隔离。(4 )任务 执行:TaskTracker准备好了任务的执行环境之后,就可以执行任务。在运行过 程中,每个任务都汇报给TaskTracker之后再给JobTracker。( 5 )作业完成: 如果其中的所有任务都执行完成,作业就完成了。3 .答:MapReduce与Spark的异同点:MapReduce是一种高效的适用于分布式处理的并行计算模型 但是和Spark 对化,M叩Reduce存在如下一些缺点:(1)抽象层次低,需要手工编写代码来 完成;(2 )只提供两个操作:M叩和Reduce ; ( 3 )一个MapRe
35、duce Job只有 M叩和Reduce两个阶段,复杂的计算需要由大量的job完成,并且各个job之 间的依赖关系由开发者自己管理;(4)处理逻辑隐藏在代码细节中,没有整体 逻辑;(5 )中间结果需要放在HDFS文件系统中;(6 )延时高,只适用于处理 离线批量数据,对交互式数据处理、实时数据处理等不支持;(7)对迭代式数 据处理性能不高。Spark从多个不同角度弥补了 MapReduce的缺乏,具有以下优点:(1)基 于RDD的抽象,实际数据处理逻辑的代码非常简短;(2 )提供了除Map、Reduce 之外的多种操作,例如join、intersection、union等,对数据处理的方式更加
36、灵 活(3 )-个job可以包含RDD的多个转换操作任务调度时可以生成多个stage , 而且如果map操作的RDD分区不变,可放在一个任务中完成;(4 )在scala 中,通过匿名函数和高阶函数,RDD的转换支持流式API,可提供处理逻辑的整 体DAG视图,代码不包含具体操作的实现细节,逻辑更清晰;(5)中间结果放 在内存中,内存缺乏时写入本地磁盘,而不是HDFS ; (6)延时低,通过RDD 实现分布式内存的抽象使用,支持多种不同的大数据处理场景;(7)通过在内 存中缓存数据,进行迭代式数据处理时,性能很高。模块5 思考与练习一、选择题L搜索引擎中用户查询所得的信息是(B )。A.直接在互
37、联网中获取的B.存储在网络数据库中的C.来自某个网站的D.与网页连接显示的2.对于搜索引擎蜘蛛(Google称之为机器人)程序来讲有三种页面非常重 要,以下哪种页面不属于其中?( B)A.从未抓取过的新页面B.页面内容之前被采集过但有所改动的页面C.已被删除掉的之前被采集过的页面D.搜索引擎蜘蛛的起始页面3.以下不属于搜索引擎评价指标的是(D )。A.查全率B.查准率C.响应速度D.下载速度二、填空题L搜索引擎的组成大致可划分为4个局部,第一局部是J叟索引擎蜘蛛程序_,第二局部是遮据分析系统,第三局部是索引系统第四局部是用户查询系统02寸叟索引擎工作工程主要包括三个阶段,分别是网页阶段,检索信息生 成阶段和用户查询服务阶段。