《大数据分析的案例、方法与挑战.pdf》由会员分享,可在线阅读,更多相关《大数据分析的案例、方法与挑战.pdf(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中山大学海量数据与云计算研究中心 黄志洪 2012.4 大数据分析的案例、方法与挑战 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 传统技能无法应对大数据:R、SAS、SQL 2 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 场景介绍 信令监测是做什么的?DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4
2、 体系架构 数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入库,另外一个节点用于查询 存储:HP虚拟化存储,1000个盘 入库节点 入库方式常规路径sqlldr 大量使用表分区设计 数据量:每小时写入200G左右数据磁盘物理写大约 为450G每小时 问题:1 入库瓶颈 2 查询瓶颈 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 数据库设计 物理上采用ASM 大表全部按时间分区,开始时按小时分区,但由于数据量庞大,后来改成15分钟分区,最后变成每分钟切换1个分区 采用sqlldr方式入库 5 DTCC2012DTCC
3、2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 入库故障描述 由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点 当入库节点分别增加到2节点和4节点以后,sqlldr出现停顿现象 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 AWR报告 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 AWR报告 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 AWR报告 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 关于B
4、uffer Cache DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 Latch DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 寻找Buffer busy wait的根源 Sqlldr和OCI方式同时insert 多个节点同时insert 解决办法 1 放弃使用OCI 2 对sqlldr进行垂直切分,尽量避免同时多进程插入同一张表 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 再看AWR DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012
5、.4 新的故障现象 Sqlldr依然有停顿,次数较为频密而持续时间较短 HWM冲突问题 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 关于HWM DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 针对HWM冲突的优化措施 对于无法垂直切分的特大表,按照入库节点号作子分区 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 再看AWR HWM冲突已经被消除 Sqlldr频密周期性短暂停顿的问题依旧 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.
6、4 最终问题根源 AWR报告的提示文件头部竞争 表空间大小与自动扩展是问题根源 修正表空间设置后问题消失 18 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 备选方案牺牲实时性换取直接路径插入 直接路径插入有什么好处?为什么没有采用直接路径插入?19 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 备选方案交换分区 20 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 备选方案外部表 21 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.
7、4 使用传统关系型数据库遇到的困难 All in one,并非专门针对数据分析设计和优化 设计复杂,调优复杂,数据分析师兼任DBA 当数据规模增加时,需要扩展硬件,边际成本指数级上升,存在无法突破的物理瓶颈 22 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 解决方案 列式数据库,实时数据库等新的数据库技术 分布式集群:Hadoop,NoSQL及其它分布式数据库技术 混合使用各种专业分析产品 23 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 场景:行为指纹识别 25 当 为 时,AC两个矢量完全不相关,即两个
8、号码的交往圈相似度最低 当 为0 时,AC两个矢量完全相关,即两个号码的交往圈相似度最高 当 越接近0,说明两个号码的交往圈越相似 90DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 基于分布式平台运行海量数据 移动客户数据量达到TB级 Oracle数据库中sql语句可以得到结果,但希望进一步提高效率 希望尝试多个相似度计算结果 云化 MapReduce方法 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 云计算云计算网络发展的必然结果网络发展的必然结果 DTCC2012DTCC2012中山大学海量数据与云计算研究
9、中心 黄志洪 2012.4 Hadoop Hadoop的主要功能:HDFS和Map-Reduce HDFS实现数据的分布式存储,并且实现冗余备份 Map-Reduce实现计算任务的分布化,尽量使到某个节点的计算任务主要面对存储在本地的数据,以减少跨节点的网络数据传送 28 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 HDFS结构示意图 29 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 Map-Reduce示意图 30 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 H
10、DFS与Map-Reduce一起工作 31 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 Hive 基于Hadoop的常用数据分析工具 可以看成是SQL到Map-Reduce的转换器 HiveQL尚未能完全支持SQL 92 外部应用可以通过hive客户端、JDBC、ODBC等方式访问Hive 32 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 HBase 列式数据库,特别适合作为数据分析的场景,可以减少I/O 无真正索引 自动分区 增加新节点时自动线性扩展 使用Hbase命令而非SQL 可以通过Java,RES
11、T,thrift等接口访问HBase 33 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 Hadoop体系图 34 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 NoSQL NoSQL=Not Only SQL High performance,Huge Storage,High Scalability&High Availability NoSQL面向的场景:事务性要求不高,实时性要求不高,查询较为简单,数据海量 可分布化,运行在廉价的PC集群上 典型的NoSQL产品,通常某种产品只适合某种特定场景,常要配搭
12、使用 35 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 基于Hadoop的用户指纹识别算法 求某个客户最相似客户的MapReduce化(以相关系数为例):Map()Input:某客户数值、所有客户数值 将所有客户随机平分到 k台机器 Output:k 个最大相关系数(local)Emit the k 个跟某客户最相似的客户 Reduce()Input:Key:null;values:k 个最大相关系数(local)Output:最大相关系数(global)Emit the 最大相关系数、与某客户最相似客户 36 DTCC2012DTCC2012中山大
13、学海量数据与云计算研究中心 黄志洪 2012.4 数据分析者期待的解决方案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本 37 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 一种新的普适性关联挖掘方法 海量,不一定是指数据记录多,有时可能是变量很多 观察变量之间是否具有联系的传统回归方法 38 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 传统回归模型的困难 为什么一定是线性?或某种非线性模
14、型?过分依赖于分析者的经验 对于非连续的离散数据难以处理 39 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 网格方法 Science上的文章Detecting Novel Associations in Large Data Sets 方法概要:用网格判断数据的集中程度,集中程度意味着是否有关联关系 方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方法都是有效 方法具有等效性,计算的熵值和噪音的程度有关,跟关联的类型无关 MIC:the Maximal Information Coefficient MINE:Maximal
15、Information-based Nonparametric Exploration 40 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC值计算 坐标平面被划分为(x,y)网格G(未必等宽),其中xyn0.6 在G上可以诱导出“自然概率密度函数”p(x,y),任何一个方格(box)内的概率密度函数值为这个方格所 包含的样本点数量占全体样本点的比例 计算网格划分G下的 mutual information值 IG 41 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC值计算 构造特征矩阵mxy,矩阵的
16、元素mxy=maxIG/log minx,y。max取遍所有可能的(x,y)网格G MIC=max mxy。Max取遍所有可能的(x,y)对 42 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC值计算 Mxy的计算是个难点,数据科学家构造了一个近似的逼近算法以提高效率 http:/www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1 在作者的网站上,可以下载MINE计算MIC的程序(Java和R)以及测试用数据集 http:/ 实验:WHO数据集,垒球数据集 43 DTCC20
17、12DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC的性质 如果变量对x,y存在函数关系,则当样本数增加时,MIC必然趋向于1 如果变量对x,y可以由参数方程c(t)=x(t),y(t)所表达的曲线描画,则当样本数增加时,MIC必然趋于1 如果变量对x,y在统计意义下互相独立,则当样本数增加时,MIC趋于0 44 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC观察 45 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 MIC与线性回归模型对比 46 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 黄志洪 2012.4 对基因数据集spellman的探索 数据集包含6223组基因数据 MINE对关联关系的辨认力明显强于以往的方法,例如双方都发现了HTB1,但MINE方法挖出了过去未被发现的HSP12 47 DTCC2012DTCC2012中山大学海量数据与云计算研究中心 欢迎交流: QQ:1829118 微博:http:/ 48 DTCC2012DTCC2012