《2022年分布式计算、云计算与大数据习题参考解答 .pdf》由会员分享,可在线阅读,更多相关《2022年分布式计算、云计算与大数据习题参考解答 .pdf(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分布式计算、云计算与大数据习题解答参考第 1 章 分布式计算概述一、选择题1,CD 2,ABC 3,ABCD 4,ACD二、简答题1, 参考 1.1.1 和节2, 参考 1.1.2 节3, 分布式计算的核心技术是进程间通信,参考1.3.2 节4, 单播和组播5, 超时和多线程三、实验题1.进程 A 在进程 B 发送 receive 前发起 send 操作进程 A进程 B发出非阻塞 send操作,进程 A继续运行发出阻塞 receive操作,进程 B被阻塞进程 B 在进程 A发起 send 前发出 receive 操作名师资料总结 - - -精品资料欢迎下载 - - - - - - - - -
2、- - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 19 页 - - - - - - - - - 进程 A进程 B发出非阻塞 send操作,进程 A继续运行发出阻塞 receive操作,进程 B被阻塞收到进程 A发送的数据,进程 B被唤醒2.进程 A 在进程 B 发送 receive 前发起 send 操作进程 A进程 B发出阻塞 send操作,进程 A被阻塞发出阻塞 receive操作,进程 B被阻塞进程 B 在进程 A发起 send 前发出 receive 操作名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - -
3、 - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 19 页 - - - - - - - - - 进程 A进程 B发出阻塞 send操作,进程A被阻塞发出阻塞 receive操作,进程 B被阻塞收到进程 A发送的数据,进程 B被唤醒收到进程 B返回的数据,进程 A被唤醒3.1).在提供阻塞 send操作和阻塞 receive操作的通信系统中m1m1m2m2P1P2P3receiveoperationsendoperationt=1t=3t=2t=4t=5t=6t=7t=8t=9t=10t=11在提供非阻塞 send 操作和阻塞 receive 操作的通信系统中名
4、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 19 页 - - - - - - - - - m1m1m2m2P1P2P3receiveoperationsendoperationt=1t=3t=2t=4t=5t=6t=7t=8t=9t=10t=112)P1,P2,P3进程间通信的顺序状态图m1m1m2m2第 2 章 分布式计算范型概述1.消息传递,客户-服务器, P2P ,分布式对象,网络服务,移动代理等2.分布式应用最广泛最流行的范型是客户-服务器范型,参考节3.分布式
5、应用最基本的范型是消息传递模型,参考节4.参考节, P2P应用有很多,例如Napster,迅雷, PPS网络电视等5.参考节6.参考节7.略8.消息传递模式是最基本的分布式计算范型,适用于大多数应用;客户-服务器范型是最流行的分布式计算范型,应用最为广泛;P2P范型又称为对等结构范型,使得网络以最名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 19 页 - - - - - - - - - 有效率的方式运行,适用于各参与者地位平等的网络;分布式对象范型,是抽象化的远程调用,
6、适用于复杂的分布式计算应用等。9.略10.中间件又称为代理,中间件为参与对象提供内容抽象,隐藏对象引用,起到中介作用。11.略第 3 章 Socket 编程与客户服务器应用开发一、填空题1.数据包 socket,流式 socket2.无连接方式,面向连接方式3.数据层,业务层,应用层4.迭代服务器和并发服务器5.有状态服务器和无状态服务器二、简答题1.API: Application Programming Interface, 应用程序编程接口, 是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节Socket
7、API:套接字应用程序编程接口,适用于进程间通信的套接字应用程序编程接口Winsock:Windows 下网络编程的规范Windows Sockets是 Windows 下得到广泛应用的、开放的、支持多种协议的网络编程接口。2.无连接方式将以任意顺序到达,而有连接方式则以发送顺序按序到达3.setToTimeout 设置为 0 则表示永无超时,4./*this example illustrates the basic method for receiving a datagram packet*/tryDatagramSocket mySocket = new DatagramSocket(
8、port);Waiting for receiving the data!); 5.2.3B 23. A 24. E 26. E 27. B 28. E 29. D 30. A31. A 32. BC 二、填空题4. 6. 8. setContentType(String s) 9. responseaddCookie(c)10.静态页面动态页面:/15. gbk 16.一对多 /多对一三、名词解释及解答1. 静态网页是实际存在的,无需经过服务器的编译,直接加载到客户浏览器上显示出来。2. 所谓动态网页是指网页文件里包含了程序代码,通过后台数据库与Web 服务器的信息交名师资料总结 - - -
9、精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 19 页 - - - - - - - - - 互,由后台数据库提供实时数据更新和数据查询服务。3. 数据和资源共享这两种方式结合在一起即成为今天广泛使用的网络数据库(WEB数据库) ,它是以后台(远程)数据库为基础,加上一定的前台(本地计算机)程序,通过浏览器完成数据存储、查询等操作的系统。4. 前者是指令元素、后者是行为元素。jsp:include 动作和 include 指令之间的根本性的不同在于它们被调用的时间。jsp:include 动作在
10、请求期间被激活,而include 指令在页面转换期间被激活。4.request 对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过HTML 表单或在网页地址后面提供参数的方法提交数据,然后通过request 对象的相关方法来获取这些数据。request 的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。5.JSP的 response 隐藏对象在转换为Servlet 之后,对应于HttpServletResponse 型态对象,HttpServletResponse 对象是有关于对客户端请求之响应,它可以来设定一些要响应的讯息,例如标题信息、响应状
11、态码等.7. 跨平台既然 JSP是基于 Java语言的,那么它就可以使用Java API ,所以它也是跨平台的,可以应用在不同的系统中,如Windows 、Linux、Mac 和 Solaris 等正是因为跨平台的特性,使得采用JSP技术开发的项目可以不加修改地应用到任何不同的平台上,这也应验了Java语言的 一次编写,到处运行的特点。 业务代码分离采用 JSP技术开发的项目, 通常使用HTML 语言来设计和格式化静态页面的内容,而使用 JSP标签和 Java代码片段来实现动态部分。组件重用JSP中可以使用JavaBean编写业务组件, 也就是使用一个JavaBean类封装业务处理代码或者作为
12、一个数据存储模型,在 JSP页面甚至整个项目中都可以重复使用这个JavaBean 。 JavaBean也可以应用到其他Java应用程序中,包括桌面应用程序。继承 Java Servlet功能Servlet 是 JSP出现之前的主要Java Web处理技术。它接受用户请求,在Servlet 类中编写所有 Java和 HTML 代码,然后通过输出流把结果页面返回给浏览器。预编译预编译就是在用户第一次通过浏览器访问JSP页面时,服务器将对JSP页面代码进行编译,并且仅执行一次编译。编译好的代码将被保存,在用户下一次访问时,直接执行编译好的代码。这样不仅节约了服务器的CPU资源,还大大提升了客户端的访
13、问速度。8.需要 Java运行环境和JSP服务器; JDK即 Java Development Kit ,是 Java运行所必须的环境包。JSP服务器有Tomcat/Weblogic/websphere/JBOSS 等等。9. 它是软件系统体系结构,通过它可以充分利用两端硬件环境的优势,将任务合理分配到Client 端和 Server 端来实现,降低了系统的通讯开销。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 19 页 - - - - - - - - - S结构( B
14、rowser/Server ,浏览器 /服务器模式) ,它将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。 客户机上只要安装一个浏览器(Browser) ,如 Netscape Navigator 或 Internet Explorer ,服务器安装Oracle、Sybase 、Informix 或 SQL Server等数据库。11.动态网页语言有JSP 、ASP和 PHP等等。JSP (Java Server Pages) 是由 Sun Microsystems 公司倡导、许多公司参与一起建立的一种动态网页技术标准。ASP是 Active Server Page的缩写
15、,意为“动态服务器页面”。ASP是微软公司开发的代替CGI脚本程序的一种应用,它可以与数据库和其它程序进行交互,是一种简单、 方便的编程工具。PHP,是英文超文本预处理语言Hypertext Preprocessor 的缩写。 PHP 是一种HTML 内嵌式的语言,是一种在服务器端执行的嵌入HTML 文档的脚本语言, 语言的风格有类似于C语言,被广泛地运用。是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言。同时也是一种广泛用于客户端 Web 开发的脚本语言,常用来给HTML 网页添加动态功能,比如响应用户的各种操作。是 用于保持状态的基于Web 服务器的方法。 Session 允许通过
16、将对象存储在Web 服务器的内存中在整个用户会话过程中保持任何对象。,有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session 跟踪而储存在用户本地终端上的数据(通常经过加密)。15.当用户通过浏览器访问一个Web 站点时,首先向服务器发送一个连接请求,请求内容包括服务器的地址和请求页面的路径。服务器根据用户请求的路径以及页面路径组合起来查找到相应的页面, 然后返回客户端。客户端在向服务器端提交数据时有多种数据提交机制,最常用的是 GET方法和 POST方法。16. servlet 有良好的生存期的定义,包括加载和实例化、初始化、处理请求以及服务结束。这个生存期由接口的
17、init,service 和 destroy 方法表达。Servlet 被服务器实例化后,容器运行其 init 方法,请求到达时运行其service 方法, service 方法自动派遣运行与请求对应的doXXX方法( doGet,doPost)等,当服务器决定将实例销毁的时候调用其 destroy 方法。第 6 章 P2P原理与实践1、 P2P的基本概念是什么答: P2P ,即 Peer-to-Peer 的缩写,在英语中“Peer”表示 “ 对等者 ” 和“ 伙伴 ” 的意思,因此我们常称它为 “ 点对点 ” 或者 “ 端对端 ” ,而学术界常称它为“ 对等计算 ” 。P2P 是一种以非集中
18、化方式使用分布式资源来完成一些关键任务的系统和应用。2、 P2P技术有哪些特点答:非中心化、可扩展性高、健壮性强、高性价比、负载均衡等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 19 页 - - - - - - - - - 3、 说明 P2P网络有哪几种拓扑结构,并举出它们的典型应用系统。答:中心化拓扑,应用:Napster;全分布式非结构化拓扑,应用:Gnutella ;全分布式结构化拓扑,应用:Chord;半分布式拓扑,应用:KaZaA 。4、 尝试开发一个基于
19、P2P模式的简单的文件传输系统。暂未完成5、 对于 P2P的未来,你有哪些感想略第 7 章 Web Services1.什么是 Web Services答: Web Services是基于网络、自包含、分布式的模块化组件;它执行特定的任务,遵守具体的技术规范, 这些技术规范使得Web Services能与其他兼容组件进行互操作;一般由企业发布能完成特定业务需求的在线服务,而其他企业或应用软件可以通过Internet 寻求到自己所需的服务,并调用此服务,以完成特定的需求。2Web Services有哪些特点答: Web Services具有良好的封装性、松耦合性、高度可集成性和易于构建的特点3.
20、在哪些应用场合中适合使用Web Services 方案答: Web Services 的适用场合有:跨防火墙的通信、应用程序集成、B2B 的集成和软件及数据的重用。4.简述 Web Services的体系架构和工作原理。答: Web Services的体系架构可以参见本章图。在典型情况下,Web 服务由服务提供者、服务使用者和注册中心三者构成。服务提供者托管可通过网络访问特定的软件模块,定义 Web Services的服务描述并将服务发布到服务注册中心统一目录中;服务请求者使用查找操作从注册中心中检索特定的服务,然后使用服务描述与服务提供者进行绑定并调用相应的服务,以进行交互。有哪些特点答:可
21、扩展性、自描述性、简洁性、数据的描述与显示相分离、易于数据的交换和共享、易于充分利用数据、可用于创造新的语言。与 Web Services是有怎样的关系答: 在 Web Services中 SOAP 、 WSDL 、 UDDI等技术都是基于XML 建立起来的,它是 Web Services的基石。正是因为XML 具有跨平台、跨语言等特性,才使得Web Services也具备这些特性,成为应用集成的好帮手。7.试着使用XML 语言描述一个生活中你熟悉的事物,并画出该文档的树形图,同时写出相名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -
22、 - 名师精心整理 - - - - - - - 第 8 页,共 19 页 - - - - - - - - - 应的 XML Schema文档。解析:这里我们来描述下某家鞋店的鞋子信息,一双鞋的信息可以包括品名、价格、尺码、类别、颜色、材质和产地等。鞋子列表信息如下:adidas42TrainingBlueLeatherIndiaNike34245BasketballWhiteLeatherChina其文档树形图如下:相应的 XML Schema文档如下:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - -
23、 - - - 第 9 页,共 19 页 - - - - - - - - - 8.什么是 SOAP ,它由哪几个部分组成答:简单对象访问协议(SOAP )是一种基于XML 的、轻量级的、跨平台的分布式系统间信息交换协议。 SOAP主要由四个部分组成,SOAP Envelope用于定义一个描述消息中的内容、发送者、接收者、处理者及如何处理的整体表示框架;SOAP编码规则定义了一套编码机制用于交换应用程序定义的数据类型的实例;SOAP RPC 表示远程过程调用和应答的协定;SOAP绑定定义了一种使用底层传输协议来完成在节点间交换SOAP消息的约定。9.尝试用 SOAP XML Schema编写一个列
24、车时刻信息的服务。该SOAP服务接收三个参数:日期、始发地和终点,返回满足参数条件的所有列车信息(如:列车编号、始发地、终点、始发时间、到达时间、票价和余票等)。解析:SOAP请求消息如下: 上海虹桥 武昌 2013/07/18SOAP响应消息如下:D3052上海虹桥 2013-07-18 10:54 武昌 2013-07-18 16:505210、SOAP Web Services有哪几种应用模型答:请求 /响应模式、 fire-and-forget 模式、 高级消息模式、 增量解析和处理模式、缓存模式。11、简述 WSDL和 UDDI。答: WSDL (Web Services Descr
25、iption Language ,Web 服务描述语言)是一种基于XML 的、专门用于描述Web Services 的语言。 通过 WSDL可以对服务的功能信息、功能参数的消息类型、协议绑定信息和特定服务的地址信息进行描述。UDDI(Universal Description 、Discovery and Integeration ,统一描述、发现和集成)是一套基于 Web 的分布式的Web Services信息注册中心的实现标准规范,也包含一组访问协议的实现标准, 使得企业能将自身的Web Services 注册上去, 并让其他企业能够发现并使用这些服务,使服务更容易被获取。为了实现Web
26、服务跨平台、跨语言和松耦合的特性,UDDI也是以 XML 为基础的。 UDDI 提供了一个全球的、跨平台、开发的框架,企业可以更具需要发布服务产品或业务流程到注册中心中,以便更多的结识更多、更好的合作伙伴,从而拓展企业的业务范围。12、试着使用MyEclipse 实现第 9 题中列车时刻信息查询服务,要求使用JAX-WS开发 SOAP型 Web Services。注意,从客户端传入始发地、终点和始发时间三个参数,服务返回满足要求的所有列车时刻信息。解析:(1)创建实体类Train,含有属性trainNum (列车编号) 、startPlace(始发地)、startTime(始发时间) 、des
27、tination (终点)、reachTime(到达时间) 、price(票价)、remainder (余票) 。的代码如下:public class Train private String trainNum; quals(startPlace)&().equals(destination)&().startsWith(time)(temp);名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 19 页 - - - - - - - - - return resultLis
28、t;(3)完成服务端的建立后,可以创建客户端CheckTrainPollingClient。注意,客户端需要传入三个参数( startPlace、destination 和 time),且这里采用异步方式。的代码如下:public class CheckTrainPollingClient public static void main(String args) CheckTrainWSService service = new CheckTrainWSService();CheckTrainWSDelegate port = ();2013/07/182013/07/18quals(tSta
29、rtPlace)(temp);return resultList;quals(tStartPlace)&().equals(tDestination)(temp);return resultList;quals(tStartPlace)&().equals(tDestination)&().startsWith(tTime)(temp);return resultList;(3)完成服务建立,并部署和发布后,可以启动Test with REST Web Services Explorer 测试服务。先测试某站始发的所有列车信息,如输入“ 上海虹桥 ” ,则返回上海虹桥站始发的所有列车时刻信息,
30、如下如所示:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 19 页 - - - - - - - - - 接着测试从 “ 上海虹桥 ” 站到 “ 杭州 ” 站的所有列车时刻信息,如下图所示:最后,测试 “ 2013 -07-20” 从“ 广州 ” 到“ 深圳 ” 的所有列车信息,如下图所示:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 19 页
31、 - - - - - - - - - 第 8 章 云计算原理与技术略,参考各章节内容第 9 章 云计算模拟编程实践略,参考各章节内容第 10 章 云存储技术1. 参考 11.1.12. 参考 11.1.23. 参考 11.1.34. 参考 11.1.45. 参考 11.2.16. 参考7. 参考8. 参考 11.2.29. 参考及其他文献名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 19 页 - - - - - - - - - 第 11 章 大数据技术与实践1.简述大
32、数据的定义及其它的特征。答:大数据并没有统一的定义,但是通常它是指所处理的数据规模巨大到无法通过目前主流数据库软件工具,在可以接受的时间内完成抓取、储存、管理和分析,并从中提取出人类可以理解的资讯。4V 特征:第一个特征Volume 是数据体量巨大。第二个特征Variety:数据类型繁多。非结构和半结构数据正是大数据处理的难点所在。第三个特征Velocity:处理速度快,时效性强。最后一个特征是Value:商业价值高,但是价值密度低。单个数据的价值很低,只有大量数据聚合起来处理才能借助历史数据预测未来走势,体现出大数据计算的价值所在。2.思考: HDFS体系结构是否存在其局限性或瓶颈。采用 M
33、aster-Slave 结构, 必定会存在单点故障问题与NameNode 性能瓶颈问题。 其他更详细的请读者补充。3.HDFS中为什么默认副本数为3答:副本数为 3 的集群中, 将一个副本保存到本地机架1 的一个节点1 上,第二个副本保存到本地机架的一个节点2 上,第三个副本由节点2 传输复制到远程机架2 的节点 3 上。把三分之二的副本储存在本地机架,把三分之一的副本储存在远程机架。这样做既保证了数据的可靠性, 又节省了机架之间的网络带宽。一整个机架崩溃的概率很明显远远低于单个节点的崩溃概率。一个机架崩溃了可以由另一机架保证数据的可用性。4.HBase 是如何实现随机快速存取数据的为什么要H
34、BASE在创建表时只需要定义列族,列族是如何存储的随机写入: HBase底层的存储是采用了一个keyvalue 的文件结构,称作hfile 来实现的;HBase的随机写入并不是立刻写入HDFS ;而是先写入内存memstore, 当 memstore 达到一定的阀值后才会写入HDFS ;而且 HBase的后台合并机制,将memstore 写入到 HDFS的小文件合并成大文件;随机删除: HBase中删除数据并不是立即删除,而只是在数据上做好标记,然后再下一次合并操作的时候进行清理。随机读取: HBase 在存储数据时在一个hfile 中只存储同一列族的数据,并且数据时按Row key 排序的,
35、因此在读取数据时只需要根据Row key 跳转到指定行就读取数据。HBase特别擅长的是对于同一列族的顺序读取,所以随机小数据量读取虽然可行,但是性能远远不如顺序读取。5.Cassandra中超级列族与超级列与HBase中的列族和列有什么区别和联系超级列 (super column) 是一种特殊的列。两种列都是名/值对,但是普通列的值是字节数组,而超级列的值是一个子列的映射。超级列不能存储其他的超级列的映射,即超级列仅允许使用一层,但是它不限制列的数量。超级列族概念上和普通列族相似,只不过它是超级列的集合。6.Cassandra提供了怎样的可供用户选择的一致性级别写一致性如果是向 Cassan
36、dra写数据,一致性级别指定了必须写多少个副本成功后再返回给客户端应用。写可以使用如下一致性级别,ANY 是最低的一致性(但可用性最高 ),ALL 是最高的一致性 (但可用性最低 ),QUORUM 是中间的可确保强一致性,可以容忍一定程度的故障。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 19 页 - - - - - - - - - ANY 至少一个节点响应写操作。如果请求的row key 对应的所有的副本节点都停止了,接收到请求的节点会记录HINT 消息和请求数据
37、,然后响应写成功。在row key 对应的所有副本节点至少有一个启动之前,所有读row key 会失败。并且HINT 消息只保留一段时间,如果在这段时间内所有副本节点还不可用,则数据会丢失。ONE 集群中至少有1 个副本节点写成功。TWO 集群中至少有2 个副本节点写成功。THREE 集群中至少有3 个副本节点写成功。QUORUM 集群中至少有quorum个副本节点写成功.quorum=( 各数据中心副本因子之和 )/2 + 1,假如 2 个数据中心,1 个数据中的副本因子3,1 个数据中心的副本因子是2,quorum=(3+2)/ 2 + 1 = 3LOCAL_QUORUM 集 群中 同1
38、个数 据中心 至少 有quorum个 副本 节点 写成 功。quorum=( 本数据中心副本因子)/2 + 1, 假如接受请求的节点所在的数据中心的副本因子是2,则 quorum=(2)/ 2 + 1 = 2EACH_QUORUM 集群中每个数据中心至少有quorum 个副本节点写成功。quorum 计算同 LOCAL_QUORUM 。ALL 集群中所有副本节点写成功。读一致性如果是向 Cassandra读数据,一致性级别指定了必须多少个副本响应后再返回给客户端应用结果。ONE 返回集群最近副本(决定于 snitch)的响应。TWO 返回集群里2 个最近副本中的最新数据。THREE 返回集群里
39、3 个最近副本中的最新数据。QUORUM 返回集群里quorum 个副本中的最新数据。quorum=( 各数据中心副本因子之和 )/2 + 1,假如 2 个数据中心,1 个数据中的副本因子3,1 个数据中心的副本因子是2,quorum=(3+2)/ 2 + 1 = 3LOCAL_QUORUM 返回集群里当前数据中心quorum 个副本中的最新数据。quorum=( 本数据中心副本因子)/2 + 1,假如接受请求的节点所在的数据中心的副本因子是2,则quorum=(2)/ 2 + 1 = 2EACH_QUORUM 返回集群中每个数据中心至少有quorum个副本中的最新数据。quorum 计算同
40、LOCAL_QUORUM 。ALL 返回集群中所有副本中的最新数据。7.Redis的数据类型是怎样的是否像HBase一样是 Key-Value形式Redis并不是简单的key-value 存储,实际上他是一个数据结构服务器,支持不同类型的值。也就是说,你不必仅仅把字符串当作键所指向的值。下列这些数据类型都可作为值类型。字符串( string)、列表 (list)、集合 (set)、有序集合 (orted set) 、希表( hash) 。String 是最基本的一种数据类型,普通的key/value 存储都可以归为此类。List 类型其实就是一个每个子元素都是String 类型的双向链表。Se
41、t 是 String 类型的无序集合。Sorted set 和 set 一样也是 string 类型元素的集合, 不同的是每个元素都会关联一个double 类型的 score。Hash是一个 string 类型的 field 和 value 的映射表 .它的添加, 删除操作都是O(1) (平均) .hash 特别适合用于存储对象。8.Redis提供了哪两种分布式模型名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 19 页 - - - - - - - - - 读写分离模型
42、:传统 Master 与 Slave模式。数据分片模型:将每个节点看成都是独立的master,然后通过业务实现数据分片。结合上面两种模型,可以将每个master 设计成由一个master 和多个 slave组成的模型。9.MongoDB 的数据组织形式是怎样的它的特点与应用场景是怎样的MongoDB 组织数据的方式如下:Key-Value对 文档 集合 数据库多个 Key-Value对组织起来形成类似于JSON格式的文档,多个文档组织成为一个集合,多个集合组织起来,就形成了数据库 (database) 。单个 MongoDB 实例可以使用多个数据库,每个数据库都是独立运作的,可以有单独的权限,
43、每个数据库的数据被分开保存在不同的文件里。适用范围:适合实时的插入, 更新与查询, 并具备应用程序实时数据存储所需的复制及高度伸缩性。适合作为信息基础设施的持久化缓存层。适合由数十或数百台服务器组成的数据库。因为 Mongo 已经包含对MapReduce 引擎的内置支持。10.名词解释: PRAM、BSP 、 LogP与 MapReduce.PRAM:即并行随机存取机,也称之为SIMD-SM(共享存储的单指令流多数据流)模型 ,是一种应用于并行计算抽象模型PRAM 模型中 ,假设有一组有限或无限个独立的至少拥有简单算数计算能力和逻辑判断能力的处理机,每个处理机拥有自己的本地存储(即寄存器)。并
44、假定存在一个容量无限大的共享存储器,这个存储器被切分成特定大小的存储单元。在单位时间内,每个处理机都能够随机地访问任意存储单元。BSP :整体同步并行计算模型(Bulk Synchronous Parallel Computing Model) ,又名大同步模型或 BSP模型。 在一个超级步中,各处理器均执行局部操作,并且可以通过选路器接收和发送消息。LogP :LogP 模型是一种分布存储器点对点通信的多处理器模型这个模型说明了由互连网络连接起来的计算机集群的性能特点,但没有描述网络的结构MapReduce: MapReduce 模型是一种并行编程技术。它源自函数式编程理念,并有 Googl
45、e把它应用到在分布式计算环境上的大规模数据处理中。11.当今流行的大数据处理模型MapReduce 的数据处理过程及其优劣势。MapReduce 的输入和输出都是是一系列的key/value 对。 MapReduce 运行环境的用户通过实现两个函数 (Map 和 Reduce) 来表达自己的算法。 Map 函数, 通过读入一系列的key/value对来输出一系列的以key/value 对为形式的中间结果。MapReduce 运行环境会收集这些中间结果的 key/value 对,并根据key 的值进行聚合和排序,并将这些key/value 对有序地传递给Reduce 函数。同样由用户定义的Red
46、uce 函数接收这些中间结果的key 及与其对应的value列表,合并这些value 来生成对应key 的更小的一个value 集合。通常触发一次Reduce函数会产生一个或零个结果value。MapReduce 的优势:1、移动计算而不是移动数据,避免了额外的网络负载。2、任务之间相互独立,让局部故障可以更容易的处理,单个节点的故障的话只需要重启该节点任务即可。3、理想状态下MapReduce 模型是可线性扩展的。4、MapReduce 模型结构简单,终端用户至少只需编写Map 和 Reduce 函数。6、MapReduce 模型的扩展性曲线是平坦的。12.实际操作搭建编程环境并编写简单的调
47、用HDFS和 HBase API的程序,可参考 HDFS 、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 17 页,共 19 页 - - - - - - - - - HBase的 API文档。略13.实际操作搭建编程环境并编写简单的MapReduce 的程序,可参考Hadoop 的 API文档。略14.与 MapReduce 相比, Impala 的优势在哪里为什么有效率方面的优势Impala 的优势:1、较 MapReduce 而言, Impala 使用 HQL作为查询语言,使用
48、者学习的门槛更低。2、Impala 对于 MapReduce 而言在处理HQL查询是效率更高,官方数据时十倍以上。3、Impala 采用类似 P2P对等网的架构, 没有 Master 与 Slave之分,即使若干个Daemon故障也不会影响整个系统可用性,不会像MapReduce 架构中的JobTracker 以后存在单点故障的风险。Impala 处理 HQL查询在效率方面有优势的原因:Impala 采用了 Linux 原生 C 语言作为基础环境,更多地采用缓存机制,减少 ETL的次数,提高了执行效率。直接从本地文件系统读取HDFS中的数据,提高了数据的本地行。Impala是一个专门为HQL
49、查询处理的查询引擎,相对于MapReduce 这种通用的计算模型来说,对于查询有更多的优化。15.HadoopDB 是否是对于Hadoop 和 Hive 的修改如果是,它大体上修改了哪些地方是的。添加了一下组件:Databse Connector:作用:连接节点上的TaskTracker数据库。节点上的数据库相当于于传统Hadoop 中的 HDFS 。实现方法:扩展 Hadoop 的 InputFormat ,使 Hadoop 可以读写数据库的内容。Catalog:作用1.连接数据库用到的参数的存储,如数据库位置,驱动类和证书;2.保存了一些元数据,如数据簇中的数据集,副本的位置, 数据的划分
50、, 类似于Hadoop 的 NameNode。实现保存于 HDFS上的XML 配置文档,Data Loader作用将数据合理划分为数据块,从HDFS 转移到节点中的本地文件系统实现全局哈希函数把数据分配到不同节点。本地哈希函数将分配到本节点的数据继续划分为不同chunksSQL to MapReduce to SQL (SMS) Planner作用将 HiveQL 转化为特定执行计划,在HadoopDB 中执行。原则是尽可能的讲操作推向节点上的RDBMS 上执行,以此提高执行效率。实现名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -