《云时代的大数据.docx》由会员分享,可在线阅读,更多相关《云时代的大数据.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、简介本书以云计算为基石,从概念、研究、应用角度出发,系统地介绍了数据爆炸时代下的大数据。首先介绍了云计算及大数据的基础知识,让读者对云计算及大数据有 概要认识;然后根据需要介绍了Hadoop软件下的MapReduce、HDFS及HBase这几个组件;接着全面、系统地介绍了云时代下的大数据,主要 包括大数据的链接、聚类、项集、系统、相似项挖掘及数据量化等内容,让读者挖掘云时代大数据体系下的效益、价值及研究方向。序言几年之内,云计算已从新兴技术发展成为当今的热点技术。从2003年谷歌公开发布的核心文件到2006年 AmazonEC2(亚马逊弹性计算云)的商业化应用,再到美国电信巨头ATT(美国电话
2、电报公司)推出的SynapticHosting(动态托管) 服务,云计算从节约成本的工具到盈利的推动器,从ISP(网络服务提供商)到电信企业,已经成功地从内置的IT系统演变成公共的服务。随着云 时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系数 据库中用于分析时会花费过多的时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百 甚至数千台计算机分配工作。“大数据”这个术语最早期的引用可追溯到Apache的开源项目Nu
3、tch。当时,大数据用来描述为更新网络搜索 索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFile System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。在当今的IT行业中都需要对数据进行分析,而数据 分析都需要数据源,大数据尤甚。互联网公司通过搜索引擎、访问记录、App追踪等技术手段可以获得大量的用户浏览信息,但这些信息的收集、存储、提取、访 问等环节都不可能向大众公开,相关数据的使用规则目前还缺乏法律规范。对普通人而言,获得公开、免费、准确的数据来源似乎成为一种奢望,但企业和政府的数 据公开的步伐已经迈出。各行各业都需要
4、大数据,如医疗上的各种疾病数据,农业上的作物、天气、病虫害、土壤资料等数据,工业制造上的原材料、加工流程、设 备信息、产品规格等数据,金融行业的客户资料、金融产品等数据,教育领域的学生、学校、教师、教材等数据,国防领域的卫星、海域等数据,环境保护中的空气 污染物、水源质量分析等实时数据不论政府、企业还是个人,对大数据的需求也涉及经济社会的各个方面。互联网和移动互联网已经给电信、零 售、媒体等行业带来了深刻变革,如果进入大数据时代,那么还有更多行业会迎接洗礼。目前智能制造、互联网金融、数字化诊疗已经崭露头角。个人用户对大数据 的需求可能带来数据接收方式的变化,各类智能终端将再次迎来发展机遇。除了
5、功能越来越强大的智能手机之外,眼镜、汽车、手表,甚至自行车都有可能成为接收 数据的新型智能终端。根据云时代的大数据发展趋势,笔者编著了本教材,让读者认识到什么是云,什么是大数据,以及云与大数据的关系,在各企业领域中怎样应用云时代的大数据。本书主要内容有:第1章:介绍了云时代概述,主要包括“云”基本介绍、云产生的背景、云计算特点及云计算的关键性技术等内容。第2章:介绍了大数据概述,主要包括大数据基本概念、大数据的发展趋势、大数据的挑战、现状与展望及大数据行业应用和未来热点等内容。第3章:介绍了数据挖掘,主要包括数据挖掘的定义、起源、功能、实现方法、应用及哈希函数等内容。第4章:介绍了数据量化,主
6、要包括量化分析元素、量化质量分析规划及高级量化分析等内容。第5章:介绍了大规模文件系统MapReduce,主要包括分布式文件系统、MapReduce模型、MapReduce使用算法及MapReduce实现机制等内容。第6章:介绍了相似项挖掘,主要包括近邻搜索的应用、最小哈希及距离测试等内容。第7章:介绍了HDFS存储海量数据,主要包括HDFS简介、HDFS存取机制及HDFS管理操作等内容。第8章:介绍了HBase存储百科数据,主要包括HBase基本特征、系统框架、HBase的基本接口及HBase数据模型等内容。第9章:介绍了大数据链接分析,主要包括链接分析中的数据采集研究、PageRank及搜
7、索引擎研究等内容。第10章:介绍了聚类,主要包括聚类概述、聚类技术、层次聚类用CURE算法等内容。第11章:介绍了项集与系统,主要包括项集规则、单调性、二元组计数及推荐模型系统等内容。本书适用于云计算及大数据初、中、高级读者使用,也可作为研究大数据相关专业研究人员的参考资料。由于时间仓促,加之作者水平有限,所以错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评指正。目录第1章 云时代概述 (1)1.1 “云”概述 (1)1.1.1 什么是云计算 (2)1.1.2 给云计算一个说法 (3)1.1.3 云计算的使用范围 (3)1.1.4 云计算与一般托管环境的差别 (4)1.
8、2 云产生的背景 (4)1.2.1 经济方面 (4)1.2.2 社会层面 (5)1.2.3 政治层面 (6)1.2.4 技术方面 (6)1.3 云计算特点 (7)1.4 云时代的七大益处 (8)1.5 云计算与其他超级计算的区别 (11)1.5.1 云计算与网格计算的区别 (11)1.5.2 云计算系统与传统超级计算机的区别 (12)1.6 云计算的关键性技术 (12)1.6.1 虚拟化 (12)1.6.2 分布式文件系统 (14)1.6.3 分布式数据库 (15)1.6.4 资源管理技术 (15)1.6.5 能耗管理技术 (16)1.7 云计算基础 (18)1.7.1 云计算的定义 (18)
9、1.7.2 云计算的特征 (19)1.7.3 交付模式 (19)1.7.4 部署模式 (21)1.7.5 新的应用机遇 (23)1.8 从传统IT到云 (23)1.9 云计算的研究进展 (27)1.10 云计算的生成系统 (28)1.11 云计算时代对就业的影响 (29)1.12 大数据中的云 (30)第2章 大数据概述 (33)2.1 大数据概念 (33)2.1.1 大数据的应用 (33)2.1.2 大数据的战略意义 (34)2.1.3 大数据的作用 (34)2.1.4 大数据与传统数据库 (34)2.1.5 大数据与Web (34)2.2 大数据的理解与实践 (35)2.2.1 理解大数据
10、 (35)2.2.2 实践大数据 (36)2.3 大数据的发展趋势 (36)2.3.1 大数据对社会的影响 (36)2.3.2 云平台数据更加完善 (38)2.4 大数据的挑战、现状与展望 (38)2.4.1 概述 (38)2.4.2 期望特性 (40)2.4.3 并行数据库 (42)2.4.4 MapReduce (43)2.4.5 并行数据库和MapReduce的混合架构 (47)2.4.6 研究现状 (49)2.4.7 MapReduce与关系数据库技术的融合 (50)2.4.8 展望研究 (52)2.5 大数据行业应用及未来热点 (53)2.5.1 分析大数据市场 (53)2.5.2
11、分析大数据应用需求 (53)2.6 大数据2012年回顾 (54)2.6.1 2012年大数据新特征 (54)2.6.2 进军大数据 (55)2.6.3 新兴企业不断涌现 (56)2.7 大数据引导IT支出 (56)2.8 数据将变得更加重要 (57)2.9 盘点全球13个大数据公司 (59)第3章 数据挖掘 (65)3.1 数据挖掘的定义 (65)3.1.1 技术上的定义及含义 (65)3.1.2 商业角度的定义 (66)3.2 数据挖掘概述 (66)3.2.1 数据挖掘的起源 (66)3.2.2 数据挖掘方法论 (67)3.2.3 数据挖掘常用方法 (69)3.2.4 数据挖掘的实现步骤
12、(71)3.2.5 数据挖掘的功能 (71)3.2.6 数据挖掘常用技术 (72)3.2.7 数据挖掘与传统分析方法的异同 (78)3.2.8 数据挖掘和数据仓库 (78)3.2.9 数据挖掘的应用 (79)3.3 数据挖掘相关知识 (80)3.3.1 词语的重要性 (81)3.3.2 哈希函数 (82)3.3.3 索引 (84)3.3.4 二维存储器 (85)3.3.5 自然对数的底e (85)3.3.6 幂定律 (86)第4章 数据量化 (87)4.1 量化分析简介 (87)4.2 规划优质量化分析 (91)4.2.1 量化分析开发规划的构成 (91)4.2.2 文档 (95)4.3 答案
13、纲要 (96)4.4 三角交叉法 (103)4.5 高级量化分析 (105)4.5.1 其他象限 (106)4.5.2 量化分析未成熟组织的益处 (106)4.5.3 重复业务流程 (107)4.5.4 其他象限的量化分析 (107)4.6 创建服务目录 (110)4.7 构建标准和基准 (113)4.8 量化数据谈投资 (114)第5章 大规模文件系统MapReduce (115)5.1 分布式文件系统 (115)5.1.1 NFS和AFS的区别 (118)5.1.2 计算节点的物理结构 (118)5.2 MapReduce模型 (119)5.2.1 Map任务 (120)5.2.2 分组与
14、聚合 (120)5.2.3 Reduce任务 (120)5.3 MapReduce使用算法 (123)5.3.1 向量乘法实现 (123)5.3.2 内存处理 (123)5.3.3 关系运算 (124)5.3.4 分布文件系统实例 (128)5.4 MapReduce复合键值对的使用 (138)5.4.1 合并键值 (138)5.4.2 用复合键排序 (139)5.5 链接MapReduce作业 (142)5.5.1 顺序链接MapReduce作业 (142)5.5.2 复杂的MapReduce链接 (143)5.5.3 前后处理的链接 (143)5.5.4 链接不同的数据 (145)5.6
15、MapReduce递归扩展 (152)5.7 集群计算算法的效率问题 (154)5.7.1 集群计算的通信开销模型 (154)5.7.2 多路连接 (155)第6章 相似项挖掘 (157)6.1 近邻搜索的应用 (157)6.1.1 Jaccard相似度 (157)6.1.2 文档相似度 (157)6.2 文档的shingling算法 (162)6.2.1 k-shingle (162)6.2.2 大小选择 (163)6.2.3 对shingle进行哈希 (163)6.3 最小哈希 (164)6.3.1 矩阵表示集合 (164)6.3.2 最小哈希概述 (164)6.3.3 Jaccard相似
16、度 (165)6.3.4 最小哈希签名 (165)6.3.5 签名计算 (166)6.4 语音文档局部敏感哈希算法 (168)6.4.1 局部敏感哈希概述 (168)6.4.2 行条化策略的分析 (172)6.5 距离测试 (174)6.5.1 距离测度的定义 (174)6.5.2 欧氏距离 (174)6.5.3 Jaccard距离 (175)6.5.4 余弦距离 (175)6.5.5 编辑距离 (176)6.5.6 海明距离 (177)6.6 其他距离测度的LSH函数族 (178)6.6.1 海明距离的LSH函数族 (178)6.6.2 随机超平面与余弦距离 (179)6.6.3 欧氏距离的
17、LSH函数族 (180)6.7 LSH函数的应用 (181)6.7.1 实体关联 (181)6.7.2 指纹匹配 (183)6.7.3 论文相似性检测服务 (185)6.8 高相似度方法 (186)6.8.1 相等项发现 (186)6.8.2 集合字串表示法 (187)6.8.3 长度过滤 (187)6.8.4 前缀索引 (188)6.8.5 位置信息使用 (188)6.8.6 使用位置和长度信息的索引 (190)第7章 HDFS存储海量数据 (192)7.1 HDFS简介 (192)7.1.1 HDFS的特点 (192)7.1.2 HDFS的设计需求 (193)7.1.3 HDFS体系结构
18、(195)7.1.4 HDFS的可靠性措施 (196)7.1.5 数据均衡 (200)7.2 HDFS存取机制 (200)7.3 图像存储 (202)7.3.1 图像存储基本思想 (202)7.3.2 图像存储设计目标 (202)7.3.3 图像存储体系结构 (203)7.3.4 系统功能结构 (204)7.4 HDFS管理操作 (205)7.4.1 权限管理 (205)7.4.2 配额管理 (207)7.4.3 文件归档 (207)7.5 FS Shell使用指南 (208)7.6 API使用 (214)7.7 HDFS的缺点 (216)7.8 HDFS存储海量数据 (217)第8章 HBa
19、se存储百科数据 (219)8.1 HBase的系统框架 (219)8.2 HBase基本特征 (222)8.2.1 RDBMS与HBase (222)8.2.2 NoSQL数据库 (223)8.2.3 HBase的特点 (225)8.3 HBase的基本接口 (226)8.3.1 HBase访问接口 (226)8.3.2 HBase的存储格式 (227)8.3.3 HBase的读写流程 (227)8.4 模块总体设计 (228)8.4.1 数据库模块总体设计 (228)8.4.2 模块详细设计 (229)8.4.3 数据库模块交互设计 (233)8.5 HBase数据模型 (234)8.6
20、HBase的安装与配置 (238)8.7 HBase实例分析 (240)8.7.1 HBase的HFileOutputFormat (240)8.7.2 HBase的TableOutputFormat (243)第9章 大数据链接分析 (247)9.1 链接分析中的数据采集研究 (247)9.1.1 链接分析概述 (247)9.1.2 相关研究 (248)9.1.3 系统功能设计 (249)9.1.4 实验 (251)9.1.5 结论 (252)9.2 PageRank工具 (252)9.2.1 PageRank概述 (253)9.2.2 PageRank定义 (253)9.2.3 相关算法
21、(255)9.2.4 避免终止点 (256)9.2.5 采集器陷阱及“抽税”法 (258)9.2.6 影响PageRank的因素 (259)9.3 PageRank算法 (259)9.4 搜索引擎研究 (262)9.4.1 搜索引擎未来的发展方向 (262)9.4.2 通用型搜索引擎 (264)9.4.3 主题型搜索引擎 (268)9.4.4 性能指标 (270)9.5 链接作弊 (270)9.5.1 垃圾农场的架构 (270)9.5.2 垃圾农场的分析 (271)9.5.3 TrustRank (272)9.5.4 垃圾质量 (273)9.6 导航页和权威页 (273)第10章 聚类 (27
22、6)10.1 聚类概述 (276)10.1.1 聚类的典型应用 (276)10.1.2 聚类的典型要求 (276)10.1.3 聚类的计算方法 (277)10.1.4 聚类分析的特征 (278)10.2 聚类技术 (279)10.2.1 点、空间和距离 (279)10.2.2 维数灾难 (279)10.3 层次聚类 (280)10.3.1 欧氏空间下的层次聚类 (281)10.3.2 控制层次聚类的其他规则 (284)10.3.3 非欧空间下的层次聚类 (284)10.4 K-均值算法 (285)10.4.1 K-均值算法的簇初始化 (285)10.4.2 K值的选择 (286)10.4.3
23、BFR算法 (287)10.4.4 BFR算法中的数据处理 (288)10.5 CURE算法 (290)10.5.1 CURE算法流程 (290)10.5.2 CURE算法设计 (290)10.5.3 数据取样算法 (293)10.6 流聚类及并行化 (293)10.6.1 流计算模型 (294)10.6.2 二次聚类算法 (294)10.7 非欧空间下的聚类 (297)10.7.1 GRGPF算法的簇表示 (297)10.7.2 簇树的初始化 (297)10.7.3 算法中加入点 (298)10.7.4 分裂与合并 (299)第11章 项集与系统 (301)11.1 项集与系统概述 (301
24、)11.2 项集 (302)11.2.1 规则 (303)11.2.2 内存使用 (304)11.2.3 单调性 (305)11.2.4 二元组计数 (305)11.2.5 A-Priori算法 (306)11.2.6 频繁项集上的A-Priori算法 (307)11.3 更大数据集处理 (308)11.3.1 PCY算法 (309)11.3.2 多阶段算法 (310)11.3.3 多哈希算法 (311)11.4 有限扫描算法 (312)11.4.1 随机算法 (312)11.4.2 SON算法 (313)11.4.3 MapReduce算法 (313)11.4.4 Toivonen算法 (3
25、14)11.5 流中的频繁项 (315)11.5.1 抽样法 (315)11.5.2 衰减窗口的频繁项集 (316)11.5.3 混合方法 (316)11.6 推荐模型系统 (317)11.6.1 效用矩阵 (317)11.6.2 长尾现象 (317)11.6.3 效用矩阵的填充 (318)11.7 内容的推荐 (318)11.7.1 项模型 (319)11.7.2 项模型的表示 (319)11.7.3 分类算法 (320)11.8 协同过滤 (321)11.8.1 协同过滤的优缺点 (321)11.8.2 协同过滤案例 (321)11.9 降维处理 (322)11.9.1 基于中心流形理论的降维方法 (322)11.9.2 Lyapunov-Schmidt(L-S)方法 (323)11.9.3 Galerkin方法 (324)11.9.4 正交分解技术的降维方法 (327)11.9.5 其他降维方法 (328)11.10 Netflix大奖赛与推荐系统 (331)参考文献 (336)