《大数据技术原理与应用之NoSQL数据库13727.pptx》由会员分享,可在线阅读,更多相关《大数据技术原理与应用之NoSQL数据库13727.pptx(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2015 年版第5 章 NoSQL 数据库(PPT 版本号:2015 年6 月第1.0 版)大数据技术原理与应用http:/的厦大校徽和底部文字大数据技术原理与应用 厦门大学计算机科学系 林子雨 提纲 5.1 NoSQL 简介 5.2 NoSQL 兴起的原因 5.3 NoSQL 与关系数据库的比较 5.4 NoSQL 的四大类型 5.5 NoSQL 的三大基石 5.6 从NoSQL 到NewSQL 数据库 本章小结欢迎访问大数据技术原理与应用教材官方网站:http:/是如下教材的配套讲义:21 世纪高等教育计算机规划教材
2、大数据技术原理与应用概念、存储、处理、分析与应用(2015 年6 月第1 版)厦门大学 林子雨 编著,人民邮电出版社ISBN:978-7-115-39287-9大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.1 NoSQL 简介通常,NoSQL 数据库具有以下几个特点:(1)灵活的可扩展性(2)灵活的数据模型(3)与云计算紧密融合大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.2 NoSQL 兴起的原因1、关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求2、关
3、系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0 时代却成了鸡肋,主要表现在以下几个方面:(1)Web2.0 网站系统通常不要求严格的数据库事务(2)Web2.0 并不要求严格的读写实时性(3)Web2.0 通常不包含大量复杂的SQL 查询大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.3 NoSQL 与关系数据库的比较比较标准 RDBMS NoSQL 备注数据库原理 完全支持 部分支持RDBMS 有关系代数理论作为基础NoSQL 没有统一的理论基础数据规模 大 超大RDBMS 很 难 实 现 横 向 扩 展,纵 向 扩 展
4、 的 空 间 也 比 较 有 限,性 能 会随着数据规模的增大而降低NoSQL 可以很容易通过添加更多设备来支持更大规模的数据数据库模式 固定 灵活RDBMS 需要定义数据库模式,严格遵守数据定义和相关约束条件NoSQL 不 存 在 数 据 库 模 式,可 以 自 由 灵 活 定 义 并 存 储 各 种 不 同 类型的数据查询效率 快可以实现高效的简单查询,但是不具备高度结构化查询等特性,复杂查询的性能不尽人意RDBMS 借 助 于 索 引 机 制 可 以 实 现 快 速 查 询(包 括 记 录 查 询 和 范 围查询)NoSQL 没 有 索 引,虽 然NoSQL 可 以 使 用MapRedu
5、ce 来 加 速 查 询,但是,在复杂查询方面的性能仍然不如RDBMS表5-1 NoSQL 和关系数据库的简单比较 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.3 NoSQL 与关系数据库的比较比较标准 RDBMS NoSQL 备注一致性 强一致性 弱一致性RDBMS 严格遵守事务ACID 模型,可以保证事务强一致性NoSQL 放 松 对 事 务ACID 四 性 的 要 求,而 是 遵 守BASE 模 型,只 能保证最终一致性数据完整性 容易实现 很难实现任 何 一 个RDBMS 都 可 以 很 容 易 实 现 数 据 完 整 性,比 如 通 过 主 键 或者 非 空 约 束 来
6、实 现 实 体 完 整 性,通 过 主 键、外 键 来 实 现 参 照 完 整性,通过约束或者触发器来实现用户自定义完整性但是,在NoSQL 数据库却无法实现扩展性 一般 好RDBMS 很难实现横向扩展,纵向扩展的空间也比较有限NoSQL 在 设 计 之 初 就 充 分 考 虑 了 横 向 扩 展 的 需 求,可 以 很 容 易 通过添加廉价设备实现扩展可用性 好 很好RDBMS 在 任 何 时 候 都 以 保 证 数 据 一 致 性 为 优 先 目 标,其 次 才 是 优化 系 统 性 能,随 着 数 据 规 模 的 增 大,RDBMS 为 了 保 证 严 格 的 一 致性,只能提供相对较弱
7、的可用性NoSQL 任何时候都能提供较高的可用性表5-1 NoSQL 和关系数据库的简单比较(续)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.3 NoSQL 与关系数据库的比较比较标准 RDBMS NoSQL 备注标准化 是 否RDBMS 已经标准化(SQL)NoSQL 还 没 有 行 业 标 准,不 同 的NoSQL 数 据 库 都 有 自 己 的 查 询 语言,很难规范应用程序接口技术支持 高 低RDBMS 经 过 几 十 年 的 发 展,已 经 非 常 成 熟,Oracle 等 大 型 厂 商 都可以提供很好的技术支持NoSQL 在 技 术 支 持 方 面 仍 然 处 于 起
8、 步 阶 段,还 不 成 熟,缺 乏 有 力的技术支持可维护性 复杂 复杂RDBMS 需要专门的数据库管理员(DBA)维护NoSQL 数据库虽然没有DBMS 复杂,也难以维护表5-1 NoSQL 和关系数据库的简单比较(续)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4 NoSQL 的四大类型 NoSQL 数 据 库 虽 然 数 量 众 多,但 是,归 结 起 来,典 型 的NoSQL 数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4 NoSQL 的四大类型 NoSQL 数 据 库 虽 然 数 量 众 多,但 是
9、,归 结 起 来,典 型 的NoSQL 数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4.1 键值数据库相关产品 Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached数据模型 键/值对典型应用 内容缓存,比如会话、配置文件、参数、购物车等优点 扩展性好,灵活性好,大量写操作时性能高缺点 无法存储结构化信息,条件查询效率较低使用者百度云数据库(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis 和Memcached)、StackOverFl
10、ow(Redis)、Instagram(Redis)、Youtube(Memcached)、Wikipedia(Memcached)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4.2 列族数据库相关产品 BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS数据模型 列族典型应用 分布式数据存储与管理优点 查找速度快,可扩展性强,容易进行分布式扩展,复杂性低缺点 功能较少,大都不支持强事务一致性使用者Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Twitter(Cassandra
11、 and HBase)、Facebook(HBase)、Yahoo!(HBase)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4.3 文档数据库相关产品CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit数据模型 版本化的文档典型应用 存储、索引并管理面向文档的数据或者类似的半结构化数据优点 性能好,灵活性高,复杂性低,数据结构灵活缺点 缺乏统一的查询语法使用者百度云数据库(MongoDB)、SAP(MongoDB)、Codecademy(MongoDB)、F
12、oursquare(MongoDB)、NBC News(RavenDB)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.4.4 图形数据库相关产品 Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB数据模型 图结构典型应用应用于大量复杂、互连接、低结构化的图结构场合,比如社交网络、推荐系统等优点 灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱缺点 复杂性高,只能支持一定的数据规模使用者 Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5 NoSQL
13、 的三大基石NoSQLCAPBASE最终一致性大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.1 CAP所谓的CAP 指的是:l C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的;l A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果;l P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行。大数据技术原理与应用 厦门大学计算机科学系
14、林子雨 5.5.1 CAP CAP 理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.1 CAP(a)初始状态一个牺牲一致性来换取可用性的实例 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.1 CAP(b)正常执行过程一个牺牲一致性来换取可用性的实例 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.1 CAP(c)更新传播失败时的执行过程 一个牺牲一致性来换取可用性的实例 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5
15、.5.1 CAP当处理CAP 的问题时,可以有几个明显的选择:1.CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然,这种做法会严重影响系统的可扩展性。传统的关系数据库(MySQL、SQL Server和PostgreSQL),都采用了这种设计原则,因此,扩展性都比较差2.CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A),当出现网络分区的情况时,受影响的服务需要等待数据一致,因此在等待期间就无法对外提供服务3.AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C),允许系统返回不一致的数据大
16、数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.1 CAP图5-5 不同产品在CAP 理论下的不同设计原则 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.2 BASE说起BASE(Basically Availble,Soft-state,Eventual consistency),不得不谈到ACID。一个数据库事务具有ACID 四性:lA(Atomicity):原子性,是指事务必须是原子工作单元,对于其数据修改,要么全都执行,要么全都不执行lC(Consistency):一致性,是指事务在完成时,必须使所有的数据都保持一致状态lI(Isolation):隔离性,是指由
17、并发事务所做的修改必须与任何其它并发事务所做的修改隔离lD(Durability):持久性,是指事务完成之后,它对于系统的影响是永久性的,该修改即使出现致命的系统故障也将一直保持大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.2 BASE BASE 的基本含义是基本可用(Basically Availble)、软状态(Soft-state)和最终一致性(Eventual consistency):l 基本可用 基本可用,是指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,也就是允许分区失败的情形出现l 软状态“软状态(soft-state)”是与“硬状态(ha
18、rd-state)”相对应的一种提法。数据库保存的数据是“硬状态”时,可以保证数据一致性,即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同步,具有一定的滞后性大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.2 BASE BASE 的基本含义是基本可用(Basically Availble)、软状态(Soft-state)和最终一致性(Eventual consistency):l 最终一致性 一致性的类型包括强一致性和弱一致性,二者的主要区别在于高并发的数据访问操作下,后续操作是否能够获取最新的数据。对于强一致性而言,当执行完一次更新操作后,后续的其他读操作就可以保证读
19、到更新后的最新数据;反之,如果不能保证后续访问读到的都是更新后的最新数据,那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例,允许后续的访问操作可以暂时读不到更新后的数据,但是经过一段时间之后,必须最终读到更新后的数据。大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.3 最终一致性 最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以区分为:l 因果一致性:如果进程A 通知进程B 它已更新了一个数据项,那么进程B的后续访问将获得A 写入的最新值。而与进程A 无因果关系的进程C 的访问,仍然遵守一般的最终一致性规则l“读己之所写”一致性:可以视为因果一致性的一个特
20、例。当进程A 自己执行一个更新操作之后,它自己总是可以访问到更新过的值,绝不会看到旧值l 单调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.5.3 最终一致性 最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以区分为:l 会话一致性:它把访问存储系统的进程放到会话(session)的上下文中,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会话l 单调写一致性:系统保证来自同一个进程的写操作顺序执行。系统必
21、须保证这种程度的一致性,否则就非常难以编程了大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.6 从NoSQL 到NewSQL 数据库图5-6 大数据引发数据处理架构变革 大数据技术原理与应用 厦门大学计算机科学系 林子雨 5.6 从NoSQL 到NewSQL 数据库图5-7 关系数据库、NoSQL 和NewSQL 数据库产品分类图 大数据技术原理与应用 厦门大学计算机科学系 林子雨 本章小结 本章介绍了NoSQL 数据库的相关知识NoSQL 数据库较好地满足了大数据时代的各种非结构化数据的存储需求,开始得到越来越广泛的应用。但是,需要指出的是,传统的关系数据库和NoSQL 数据库各有所
22、长,彼此都有各自的市场空间,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求NoSQL 数据库主要包括键值数据库、列族数据库、文档型数据库和图形数据库等四种类型,不同产品都有各自的应用场合。CAP、BASE 和最终一致性是NoSQL 数据库的三大理论基石,是理解NoSQL 数据库的基础 本章最后介绍了融合传统关系数据库和NoSQL 优点的NewSQL 数据库大数据技术原理与应用 厦门大学计算机科学系 林子雨 主讲教师和助教主讲教师:林子雨单位:厦门大学计算机科学系数据库实验室2013 级硕士研究生(导师:林子雨)E-mail:助教:蔡珉星欢迎访问大数据技术原理与应用教材官方网站:http:/大数据技术原理与应用 厦门大学计算机科学系 林子雨 Department of Computer Science,Xiamen University,June,2015