大数据关键技术原理与应用林子雨版课后习题答案.doc

上传人:知****量 文档编号:49484308 上传时间:2022-10-08 格式:DOC 页数:68 大小:1.28MB
返回 下载 相关 举报
大数据关键技术原理与应用林子雨版课后习题答案.doc_第1页
第1页 / 共68页
大数据关键技术原理与应用林子雨版课后习题答案.doc_第2页
第2页 / 共68页
点击查看更多>>
资源描述

《大数据关键技术原理与应用林子雨版课后习题答案.doc》由会员分享,可在线阅读,更多相关《大数据关键技术原理与应用林子雨版课后习题答案.doc(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980年前后个人计算机信息解决Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传播雅虎、google、阿里巴巴、百度、腾讯等第三次浪潮前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆公司2. 试述数据产生方式经历的几种阶段答: 运营式系统阶段,顾客原创内容阶段,感知式系统阶段。3. 试述大数据的4个基本特性答:数据量大、数据类型繁多、解决速度快和价值密度低。4. 试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是

2、,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增长一倍。5. 数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。6. 试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,有关而非因果。7. 大数据决策与老式的基于数据仓库的决策有什么区别答:数据仓库具有批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。大数据决策可以面向类型繁多的、非构造化的海量数据进行决策分析。8. 举例阐明大

3、数据的基本应用答:领域大数据的应用金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业运用大数据和物联网技术的五人驾驶汽车,在不远的将来将走进我们的平常生活互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活,运用与每个人有关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周全的个性化服务。9. 举例阐明大数据的核心技术答:批解决计算,流计算,图计算,查询分析计算10. 大数据产业涉及哪些核心技术。答:IT基本设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。11. 定义并解释

4、如下术语:云计算、物联网答: 云计算:云计算就是实现了通过网络提供可伸缩的、便宜的分布式计算机能力,顾客只需要在具有网络接入条件的地方,就可以随时随处获得所需的多种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它运用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。12. 具体论述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储、解决与分析,海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化多种IT资源并通过网络已

5、服务的措施,便宜地提供应顾客;物联网的发展目的是实现呜呜向量,应用创新是物联网的核心从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的诸多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和解决。第二章1. 试述hadoop和google的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文献系统HDFS和MapReduce,HD

6、FS是google文献系统GFS的开源实现,MapReduces是针对googleMapReduce的开源实现。2. 试述Hadoop具有哪些特性。答:高可靠性,高效性,高可扩展性,高容错性,成本低,运营在Linux平台,支持多种编程语言3. 试述Hadoop在各个领域的应用状况。答:,雅虎在Sunnyvale总部建立了M45一种涉及了4000个解决器和1.5PB容量的Hadooop集群系统;Facebook重要将Hadoop平台用于日记解决,推荐系统和数据仓库等方面;百度重要使用Hadoop于日记的存储和记录、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4. 试述Hadoop的

7、项目构造以及每个部分的具体功能。答:PigChukwaHiveHBaseMapReduceHDFSZookeeperCommonAvroCommeon是为Hadoop其她子项目提供支持的常用工具,重要涉及文献系统、RPC和串行化库Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据构造类型、迅速可压缩的二进制数据格式、存储持续性数据的文献集、远程调用的功能和简朴的动态语言集成功能。HDFS是Hadoop项目的两个核心之一,它是针对google文献系统的开源实现。HBase是一种提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。Ma

8、pReduce是针对googleMapReduce的开源实现,用于大规模数据集的并行运算。Zoookepper是针对googleChubby的一种开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承当的协调任务。Hive是一种基于Hadoop的数据仓库工具,可以用于对Hadoop文献中的数据集进行数据整顿、特殊查询和分布存储。Pig是一种数据流语言和运营环境,适合于使用Hadoop和MapReducce平台上查询大型半构造化数据集。Sqoop可以改善数据的互操作性,重要用来在H大哦哦哦配合关系数据库之间互换数据。Chukwa是一种开源的、

9、用于监控大型分布式系统的数据收集系统,可以将多种类型的数据收集成适合Hadoop解决的文献,并保存在HDFS中供Hadoop进行多种 MapReduce操作。第三章1 试述分布式文献系统设计的需求。设计需求含义HDFS的实现状况透明性具有访问透明性、位置透明性、性能、和伸缩透明性只能提供一定限度的访问透明性,完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文献的读写不应当影响其她客户端对同一种文献的读写机制非常简朴,任何时候都只容许有一种程序写入某个文献文献复制一种文献可以拥有不同位置的多种副本HDFS采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和

10、服务端程序采用Java语言开发,具有较好的跨平台能力可伸缩性支持节点的动态加入或退出建立在大规模便宜机器上的分布式文献系统集群,具有较好的伸缩性容错保证文献服务在客户端或者服务端浮现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱2 分布式文献系统是如何实现较高水平扩展的?分布式文献系统在物理构造上是由计算机集群中的多种节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)3 试述HDFS中的块和一般文献系

11、统中的块的区别。答:在老式的文献系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。HDFS中的块,默认一种块大小为64MB,而HDFS中的文献会被拆提成多种块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要不小于一般文献系统。4 试述HDFS中的名称节点和数据节点的具体功能。答:名称节点负责管理分布式文献系统系统的命名空间,记录分布式文献系统中的每个文献中各个块所在的数据节点的位置信息;数据节点是分布式文献系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。hado

12、op fs -ls 显示指定的文献的具体信息hadoop fs -cat 将指定的文献的内容输出到原则输出hadoop fs -mkdir 创立指定的文献夹hadoop fs -get -ignorecrc -crc 复制指定的文献到本地文献系统指定的文献或文献夹。-ignorecrc选项复制CRC校验失败的文献。使用-crc选项复制文献以及CRC信息。hadoop fs -put 从本地文献系统中复制指定的单个或多种源文献到指定的目的文献系统中。也支持从原则输入(stdin)中读取输入写入目的文献系统。hadoop fs -rmr 删除指定的文献夹及其的所有文献第四章1. 试述在Hadoop

13、体系架构中HBase与其她构成部分的互相关系。答: HBase运用Hadoop MapReduce来解决HBase中的海量数据,实现高性能计算;运用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,运用便宜集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。2. 请论述HBase和BigTable的底层技术的相应关系答:项目BigTableHBase文献存储系统GFSHDFS海量数据解决MapReduceHadoop MapReduce协同服务管理C

14、hubbyZookeeper3. 请论述HBase和老式关系数据库的区别答:区别老式关系数据库HBase数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空,无法实现表与表之间关联存储模式基于行模式存储,元组或行会被持续地存储在磁盘也中基于列存储,每个列族都由几种文献保存,不同列族的文献是分离的数据索引针对不同列构建复杂的多种索引只有一种行键索引数据维护用最新的目前值去替代记录中本来的旧值更新操作不会删除数据旧的版本,而是生成一种新的版本可伸缩性很难实现横向扩展,纵向扩展的空间也比较有限容易地通过在集群中增长或者减少硬件数量来实现性能的伸缩4. HBase有哪

15、些类型的访问接口?答:HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。5. 请以实例阐明HBase数据模型。列限定符列族答:InfoNameMajorEmailLuo MinMathLiu JunMathXie YouMath行键单元格单元格有两个时间戳ts1和ts2每个时间戳相应一种数据版本6. 分别解释HBase中行键、列键和时间戳的概念(1) 行键是唯一的,在一种表里只浮现一次,否则就是在更新同一行,行键可以是任意的字节数组。(2) 列族需要在创立表的时候就定

16、义好,数量也不适宜过多。列族名必须由可打印字符构成,创立表的时候不需要定义好列。(3) 时间戳,默认由系统指定,顾客也可以显示设立。使用不同的时间戳来辨别不同的版本。7. 请举个实例来论述HBase的概念视图和物理视图的不同HBase数据概念视图行键时间戳列族contents列族anchor“n.www”T5Anchor:=”CNN”T3Anchor:my.look.ca=”CNN”“n.www”T3Content:html=”.”T2Content:html=”.”T1Content:html=”.”HBase数据物理视图行键时间戳列族anchor“n.www”T5Anchor:=”CNN”

17、T4Anchor:my.look.ca=”CNN”行键时间戳列族contents“n.www”T3Content:html=”.”T2Content:html=”.”T1Content:html=”.”在HBase的概念视图中,一种表可以视为一种稀疏、多维的映射关系。在物理视图中,一种表会按照属于同一列族的数据保存在一起8. 试述HBase各功能组建及其作用(1)库函数:链接到每个客户端;(2)一种Master主服务器:主服务器Master重要负责表和Region的管理工作;(3)许多种Region服务器:Region服务器是HBase中最核心的模块,负责维护分派给自己的Region,并响应顾

18、客的读写祈求9. 请论述HBase的数据分区机制。答: HBase采用分区存储,一种大的表会被分拆许多种Region,这些Region会被分发到不同的服务器上实现分布式存储。10. HBase中的分区是如何定位的。通过构建的映射表的每个条目涉及两项内容,一种是Regionde 标记符,另一种是Region服务器标记,这个条目就标记Region和Region服务器之间的相应关系,从而就可以懂得某个Region被保存在哪个Region服务器中。11. 试述HBase的三层构造中各层次的名称和作用。层次名称作用第一层Zookeeper文献记录了-ROOT-表的位置信息第二层-ROOT-表记录了.ME

19、TA.表的Region位置信息-ROOT-表只能有一种Region。通过-ROOT-表,就可以访问.META.表中的数据第三层.META.表记录了顾客数据表的Region位置信息,.META.表可以有多种Region,保存了HBase中所有顾客数据表的Region位置信息12. 请论述HBase的三层构造下,客户端是如何访问到数据的。答:一方面访问Zookeeper,获取-ROOT表的位置信息,然后访问-Root-表,获得.MATA.表的信息,接着访问.MATA.表,找到所需的Region具体位于哪个Region服务器,最后才会到该Region服务器读取数据。13. 试述HBase系统基本架构

20、以及每个构成部分的作用。(1)客户端客户端涉及访问HBase的接口,同步在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程(2)Zookeeper服务器Zookeeper可以协助选举出一种Master作为集群的总管,并保证在任何时刻总有唯一一种Master在运营,这就避免了Master的“单点失效”问题(3)Master主服务器Master重要负责表和Region的管理工作:管理顾客对表的增长、删除、修改、查询等操作;实现不同Region服务器之间的负载均衡;在Region分裂或合并后,负责重新调节Region的分布;对发生故障失效的Region服务器上的Region进行

21、迁移(4)Region服务器Region服务器是HBase中最核心的模块,负责维护分派给自己的Region,并响应顾客的读写祈求14. 请论述Region服务器向HDFS文献系统中读写数据的基本原理Region服务器内部管理一系列Region对象和一种HLog文献,其中,HLog是磁盘上面的记录文献,它记录着所有的更新操作。每个Region对象又是由多种Store构成的,每个Store对象了表中的一种列族的存储。每个Store又涉及了MemStore和若干个StoreFile,其中,MemStore是在内存中的缓存。15. 试述HStore的工作原理每个Store相应了表中的一种列族的存储。每

22、个Store涉及一种MenStore缓存和若干个StoreFile文献。MenStore是排序的内存缓冲区,当顾客写入数据时,系统一方面把数据放入MenStore缓存,当MemStore缓存满时,就会刷新到磁盘中的一种StoreFile文献中,当单个StoreFile文献大小超过一定阈值时,就会触发文献分裂操作。16. 试述HLog的工作原理答:HBase系统为每个Region服务器配备了一种HLog文献,它是一种预写式日记(Write Ahead Log),顾客更新数据必须一方面写入日记后,才干写入MemStore缓存,并且,直到MemStore缓存内容相应的日记已经写入磁盘,该缓存内容才干

23、被刷写到磁盘。17. 在HBase中,每个Region服务器维护一种HLog,而不是为每个Region都单独维护一种HLog。请阐明这种做法的优缺陷。长处:多种Region对象的更新操作所发生的日记修改,只需要不断把日记记录追加到单个日记文献中,不需要同步打开、写入到多种日记文献中。缺陷:如果一种Region服务器发生故障,为了恢复其上次的Region对象,需要将Region服务器上的对象,需要将Region服务器上的HLog按照其所属的Region对象进行拆分,然后分发到其她Region服务器上执行恢复操作。18. 当一台Region服务器意外终结时,Master如何发现这种意外终结状况?为

24、了恢复这台发生意外的Region服务器上的Region,Master应当做出哪些解决(涉及如何使用HLog进行恢复)? Zookeeper会实时监测每个Region服务器的状态,当某个Region服务器发生故障时,Zookeeper会告知Master。Master一方面会解决该故障Region服务器上面遗留的HLog文献,这个遗留的HLog文献中涉及了来自多种Region对象的日记记录。系统会根据每条日记记录所属的Region对象对HLog数据进行拆分,分别放到相应Region对象的目录下,然后,再将失效的Region重新分派到可用的Region服务器中,并把与该Region对象有关的HLog

25、日记记录也发送给相应的Region服务器。Region服务器领取到分派给自己的Region对象以及与之有关的HLog日记记录后来,会重新做一遍日记记录中的多种操作,把日记记录中的数据写入到MemStore缓存中,然后,刷新到磁盘的StoreFile文献中,完毕数据恢复。第五章1. 如何精确理解NoSQL的含义?NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的一类统称,它采用的数据模型并非老式关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。2. 试述关系数据库在哪些方面无法满族Web2.0应用的需求。关系数据库已经无法满足Web2.0的需求。重要表目前

26、如下几种方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求3. 请比较NoSQL数据库和关系数据库的优缺陷。比较原则RDBMSNoSQL备注数据库原理完全支持部分支持RDBMS有关系代数理论作为基本NoSQL没有统一的理论基本数据规模大超大RDBMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而减少NoSQL可以很容易通过添加更多设备来支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式,严格遵守数据定义和有关约束条件NoSQL不存在数据库模式,可以自由灵活定义并存储多种不同类型的数据查询效率快可以实

27、现高效的简朴查询,但是不具有高度构造化查询等特性,复杂查询的性能不尽人意RDBMS借助于索引机制可以实现迅速查询(涉及记录查询和范畴查询)诸多NoSQL数据库没有面向复杂查询的索引,虽然NoSQL可以使用MapReduce来加速查询,但是,在复杂查询方面的性能仍然不如RDBMS一致性强一致性弱一致性RDBMS严格遵守事务ACID模型,可以保证事务强一致性诸多NoSQL数据库放松了对事务ACID四性的规定,而是遵守BASE模型,只能保证最后一致性数据完整性容易实现很难实现任何一种RDBMS都可以很容易实现数据完整性,例如通过主键或者非空约束来实现实体完整性,通过主键、外键来实现参照完整性,通过约

28、束或者触发器来实现顾客自定义完整性但是,在NoSQL数据库却无法实现扩展性一般好RDBMS很难实现横向扩展,纵向扩展的空间也比较有限NoSQL在设计之初就充足考虑了横向扩展的需求,可以很容易通过添加便宜设备实现扩展可用性好较好RDBMS在任何时候都以保证数据一致性为优先目的,另一方面才是优化系统性能,随着数据规模的增大,RDBMS为了保证严格的一致性,只能提供相对较弱的可用性大多数NoSQL都能提供较高的可用性原则化是否RDBMS已经原则化(SQL)NoSQL还没有行业原则,不同的NoSQL数据库均有自己的查询语言,很难规范应用程序接口StoneBraker觉得:NoSQL缺少统一查询语言,将

29、会拖慢NoSQL发展技术支持高低RDBMS通过几十年的发展,已经非常成熟,Oracle等大型厂商都可以提供较好的技术支持NoSQL在技术支持方面仍然处在起步阶段,还不成熟,缺少有力的技术支持可维护性复杂复杂RDBMS需要专门的数据库管理员(DBA)维护NoSQL数据库虽然没有DBMS复杂,也难以维护5.试述NoSQL数据库的四大类型答:键值数据库、列族数据库、文档数据库和图数据库6.试述键值数据库、列族数据库、文档数据库和图数据库的合用场合和优缺陷。数据库合用场合长处缺陷键值数据库通过键而是通过值来查的业务扩展性好,灵活性好,大量写操作时性能高无法存储构造化信息,条件查询效率较低列族数据库不需

30、要ACID事务支持的情形查找速度快,可扩展性强,容易进行分布式扩展,复杂性低功能较少,大都不支持强事务一致性文档数据库只在相似的文档上添加事务性能好(高并发),灵活性高,复杂性低,数据构造灵活提供嵌入式文档功能,将常常查询的数据存储在同一种文档中既可以根据键来构建索引,也可以根据内容构建索引缺少统一的查询语法图形数据库具有高度互相关联关系的数据灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱复杂性高,只能支持一定的数据规模7.试述CAP理论的具体含义。答:所谓的CAP指的是:C(Consistency):一致性,是指任何一种读操作总是可以读到之前完毕的写操作的成果,也就是在分布式环境中,

31、多点的数据是一致的,或者说,所有节点在同一时间具有相似的数据A:(Availability):可用性,是指迅速获取数据,可以在拟定的时间内返回操作成果,保证每个祈求不管成功或者失败均有响应;P(Tolerance of Network Partition):分区容忍性,是指当浮现网络分区的状况时(即系统中的一部分节点无法和其她节点进行通信),分离的系统也可以正常运营,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。8.请举例阐明不同产品在设计时是如何运用CAP理论的。9.试述数据库的ACID四性的含义1.原子性(Atomicity)指事务必须是原子工作单元,对于其数据修改,要么全都

32、执行,要么全都不执行。2.一致性(consistency)指事务在完毕时,必须使所有的数据都保持一致状态。4. 隔离性(Isolation)指并发事务所做的修改必须与其她并发事务所做的修改隔离。5. 持久性(Durability)指事务完毕之后,它对于系统的影响是永久性的,该修改虽然浮现致命的系统故障也将始终保持。10.试述BASE的具体含义BASE的基本含义是基本可用(Basically Availble)、软状态(Soft-state)和最后一致性(Eventual consistency)11.请解释软状态、无状态、硬状态的具体含义。“软状态(soft-state)”是与“硬状态(har

33、d-state)”相相应的一种提法。数据库保存的数据是“硬状态”时,可以保证数据一致性,即保证数据始终是对的的。“软状态”是指状态可以有一段时间不同步,具有一定的滞后性。12.什么是最后一致性?最后一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以辨别为:(1) 会话一致性:它把访问存储系统的进程放到会话(session)的上下文中,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终结,就要建立新的会话,并且系统保证不会延续到新的会话;(2) 单调写一致性:系统保证来自同一种进程的写操作顺序执行。系统必须保证这种限度的一致性,否则就非常难以编程了(3) 单

34、调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值(4) 因果一致性:如果进程A告知进程B它已更新了一种数据项,那么进程B的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问,仍然遵守一般的最后一致性规则(5) “读己之所写”一致性:可以视为因果一致性的一种特例。当进程A自己执行一种更新操作之后,它自己总是可以访问到更新过的值,绝不会看到旧值13. 试述不一致性窗口的含义。所有后续的访问都可以读取到操作OP写入的最新值。从OP操作完毕到后续访问可以最后读取到OP写入的最新值,这之间的时间间隔称为“不一致性窗口”。14最后一致性根据更新数据后

35、各进程访问到数据的时间和方式的不同,又可以分为哪些不同类型的一致性?会话一致性、单调写一致性、单调写一致性、因果一致性和“读己之所写”一致性。14. 什么是NewSQL数据库?NewSQL是对多种新的可扩展、高性能数据库的简称,此类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了老式数据库支持ACID和SQL特性。第六章1.试述云数据库的概念。答:云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基本架构的措施,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的反复配备,让软、硬件升级变得更加容易,同步,也虚拟化了许多后端功能。云

36、数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。2.与老式的软件使用方式相比,云计算这种模式具有哪些明显的优势?3.云数据库有哪些特性?答:1)动态可扩展2)高可用性3)较低的使用代价4)易用性5)高性能6)免维护7)安全4.试述云数据库的影响。答:在大数据时代,每个公司几乎每天都在不断产生大量的数据。公司类型不同,对于存储的需求也千差万别,而云数据库可以较好地满足不同公司的个性化存储需求。一方面,云数据库可以满足大公司的海量数据存储需求。云数据库在目前数据爆炸的大数据时代具有广阔的应用前景。老式的关系数据库难以水平扩展,相本无法存储如此海量的数据。因此,具有高可扩展性的

37、云数据库就成为公司海量数据存储管理的较好选择。另一方面,云数据库可以满足中小公司的低成本数据存储需求。中小公司在IT基本设施方面的投人比较有限,非常渴望从第三方以便、快捷、便宜地获得数据库服务。云数据库采用多租户方式同步为多种顾客提供服务,减少了单个顾客的使用成本,并且顾客使用云数据库服务一般按需付费,不会挥霍资源导致额外支出,因此,云数据库使用成本很低,对于中小公司而言可以大大减少公司的信息化门槛,让公司在付出较低成本的同步,获得优质的专业级数据库服务,从而有效提高公司信息化水平。此外,云数据库可以满足公司动态变化的数据存储需求。公司在不同步期需要存储的数据量是不断变化的,有时增长,有时减少

38、。在小规模应用的状况下,系统负载的变化可以由系统空闲的多余资源来解决,但是,在大规模应用的状况下,老式的关系数据库由于其伸缩性较差,不仅无法满足应用需求,并且会给公司带来高昂的存储成本和管理开销。而云数据库的良好伸缩性,可以让公司在需求增长时立即获得数据库能力的提高,在需求减少时立即释放多余的数据库能力,较好地满足公司的动态数据存储需求。5.举例阐明云数据库厂商及其代表性产品。答:云数据库供应商重要分为三类。1) 老式的数据库厂商,如Teradata、Oracle、IBM DB2和Microsoft SQLServer等。2) 涉足数据库市场的云供应商,如Amazon、Google.Yahoo

39、!、阿里、百度、腾讯等。3) 新兴厂商,如IVertica.LongJump和EnterpriseDB等。7.试述UMP系统的功能。答: UMP系统是构建在一种大的集群之上的,通过多种组件的协同作业,整个系统实现了对顾客透明的 容灾、读写分离、分库分表、资源管理、资源调度、资源隔离和数据安全功能。1.容灾云数据库必须向顾客提供始终可用的数据库连接,当MySQL实例发生故障时,系统必须自动执行故障恢复,所有故障解决过程对于顾客而言是透明的,顾客不会感知到后台发生的一切。为了实现容灾,UMP系统会为每个顾客创立两个MySQL实例,一种是主库,一种是从库,并且,这两个MySQL实例之间互相把对方设立

40、为备份机,任意一种MySQL实例上面发生的更新都会复制到对方。同步,Proxy服务器可以保证只向主库写人数据。2.读写分离由于每个顾客均有两个MySQL实例,即主库和从库,因此,可以充足运用主从库实现顾客读写操作的分离,实现负载均衡。UMP系统实现了对于顾客透明的读写分离功能,当整个功能被启动时,负责向顾客提供访问MySQL数据库服务的Proxy服务器,就会对顾客发起的SQL语句进行解析,如果属于写操作,就直接发送到主库,如果是读操作,就会被均衡地发送到主库和从库上执行。3.分库分表UMP支持对顾客透明的分库分表(Shard/HorizontalPartition)。但是,顾客在创立账号的时候

41、需要指定类型为多实例,并且设立实例的个数,系统会根据顾客设立来创立多组MySQL实例。除此以外,顾客还需要自己设定分库分表规则,如需要拟定分区字段,也就是根据哪个字段进行分库分表,还要拟定分区字段里的值如何映射到不同的MySQL实例上。4.资源管理UMP系统采用资源池机制来管理数据库服务器上的CPU、内存、磁盘等计算资源,所有的计算资源都放在资源池内进行统一分派,资源池是为MySQL实例分派资源的基本单位。整个集群中的所有服务器会根据其机型、所在机房等因素被划分为多种资源池,每台服务器会被加人到相应的资源池。在资源池划分的基本上,UMP还在每台服务器内部采用Cgroup将资源进一步地细化,从而

42、可以限制每个进程组使用资源的上限,同步保证进程组之间互相隔离。5.资源调度UMP系统中有3种规格的顾客,分别是数据量和流量比较小的顾客、中档规模顾客以及需要分库分表的顾客。多种小规模顾客可以共享同一种MySQL实例。对于中档规模的顾客,每个顾客独占个MySQL实例。顾客可以根据自己的需求来调节内存空间和磁盘空间,如果顾客需要更多的资源,就可以迁移到资源有空闲或者具有更高配备的服务器上对于分库分表的顾客,会占有多种独立的MySQL实例,这些实例既可以共存在同一台物理机上,也可以每个实例独占一台物理机。UMP通过MySQL实例的迁移来实现资源调度。借助于阿里集团中间件团队开发的愚公系统,UMP可以

43、实目前不断机的状况下动态扩容、缩容和迁移。6.资源隔离当多种顾客共享同一种MySQL实例或者多种MySQL实例共存在同一种物理机上时,为了保护顾客应用和数据的安全,必须实现资源隔离,否则,某个顾客过多消耗系统资源会严重影响到其她顾客的操作性能。7.数据安全数据安全是让顾客放心使用云数据库产品的核心,特别是公司顾客,数据库中寄存了诸多业务数据,有些属于商业机密,一旦泄露,会给公司导致损失。UMP系统设计了多种机制来保证数据安全。1) SSL数据库连接。2) 数据访问IP白名单。3) 记录顾客操作日记。4) SQL拦截。13.UMP系统是如何保障数据安全的? 答:1) SSL数据库连接。SSL (

44、Secure Sockets Layer) 是为网络通信提供安全及数据完整性的一种安全合同,它在传播层对网络连接进行加密。Proxy 服务器实现了完整的MySQL 客户端服务器合同,可以与客户端之间建立SSL 数据库连接。2) 数据访问IP白名单。可以把容许访问云数据库的IP 地址放入“白名单”,只有白名单内的IP地址才干访问,其她IP地址的访问都会被回绝,从而进一步保证账户安全。3) 记录顾客操作日记。顾客的所有操作记录都会被记录到日记分析服务器,通过检查顾客操作记录,可以发现隐藏的安全漏洞。4) SQL拦截。Proxy 服务器可以根据规定拦截多种类型的SQL 语句,例如全表扫描语句select *”。15.简述RDS中实例与数据库的概念。答:RDS实例或简称“实例”,是顾客购买RDS服务的基本单位。在实例中可以创立多种数据库,可以使用常用的数据库客户端连接、管理及使用数据库。可以通过RDS管理控制台或OPENAPI来创立、修改和删除数据库。各实例之间互相独立、资源隔离,互相之间不存在CPU、内存、IOPS等抢占问题。但是,同一实例中的不同数据库之间是资源共享的。每个实例拥有其自己的特性,如数据库类型、版本等,系统有相应的参数来控制实例行为。顾客所购买RDS实例的性能,取决于购买RDS实例时所

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 产品策划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁