大数据分析的案例方法与挑战16135.docx

上传人:you****now 文档编号:48271962 上传时间:2022-10-05 格式:DOCX 页数:93 大小:3.93MB
返回 下载 相关 举报
大数据分析的案例方法与挑战16135.docx_第1页
第1页 / 共93页
大数据分析的案例方法与挑战16135.docx_第2页
第2页 / 共93页
点击查看更多>>
资源描述

《大数据分析的案例方法与挑战16135.docx》由会员分享,可在线阅读,更多相关《大数据分析的案例方法与挑战16135.docx(93页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据分析的案案例、方法与与挑战中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据分析者面临临的问题n 数据日趋庞大大,无论是入入库和查询,都都出现性能瓶瓶颈n 用户的应用和和分析结果呈呈整合趋势,对对实时性和响响应时间要求求越来越高n 使用的模型越越来越复杂,计计算量指数级级上升n 传统技能无法法应对大数据据:R、SAAS、SQLL中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC201122场景介绍n 信令监测是做做什么的?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112体系架构n 数据库服务器器:HP小型型机,1288G

2、内存,448颗CPUU,2节点RRAC,其中中一个节点用用于入库,另外一个节节点用于查询询n 存储:HP虚虚拟化存储,1000个个盘n 入库节点n 入库方式常规路径ssqlldrrn 大量使用表分分区设计n 数据量:每小小时写入2000G左右数数据磁盘物理理写大约为450G每小小时问题:1 入库库瓶颈 2 查询瓶瓶颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据库设计n 物理上采用AASMn 大表全部按时时间分区,开开始时按小时时分区,但由由于数据量庞庞大,后来改改成15分钟钟分区,最后变成每分分钟切换1个个分区n 采用sqllldr方式入入库中山大学海量数数据

3、与云计算算研究中心 黄志洪2012.4DTCC201125入库故障描述n 由于数据量太太大,不得不不同时启用多多个处理机,产产生了多个入入库节点n 当入库节点分分别增加到22节点和4节节点以后,ssqlldrr出现停顿现现象中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于Buffeer Cacche中山大学海量

4、数数据与云计算算研究中心 黄志洪2012.4DTCC20112Latch中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112寻找Buffeer bussy waiit的根源n Sqlldrr和OCI方方式同时innsertn 多个节点同时时inserrtn 解决办法1 放弃使用OOCI2 对sqllldr进行垂垂直切分,尽尽量避免同时时多进程插入入同一张表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWR中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112新的故障现象n Sqlldrr依然有停顿顿,次数较为为频密而持

5、续续时间较短n HWM冲突问问题中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于HWM中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112针对HWM冲突突的优化措施施n 对于无法垂直直切分的特大大表,按照入入库节点号作作子分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWRn HWM冲突已已经被消除n Sqlldrr频密周期性性短暂停顿的的问题依旧中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112最终问题根源n AWR报告的的提示文文件头部竞争争n 表空间大小与与自动扩展是是问题根源

6、n 修正表空间设设置后问题消消失中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011218备选方案牺牺牲实时性换换取直接路径径插入n直接路径插入有有什么好处?n 为什么没有采采用直接路径径插入?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011219备选方案交交换分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011220备选方案外外部表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011221使用传统关系型型数据库遇到到的困难n All in one,并并非专门针对对数据分析设设计和优化n 设计复杂,调调优复

7、杂,数数据分析师兼兼任DBAn 当数据规模增增加时,需要要扩展硬件,边边际成本指数数级上升,存存在无法突破破的物理瓶颈颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011222解决方案n 列式数据库,实实时数据库等等新的数据库库技术n 分布式集群:Hadooop,NoSSQL及其它它分布式数据据库技术n 混合使用各种种专业分析产产品中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011223场景:行为指纹纹识别n当q当 q为0 时,ACC两个矢量完完全相关,即即两个号码的的交往圈相似似度最高当 q越接近0,说明明两个号码的的交往圈越相相似2012.4DT

8、CC20112中山大学海量数数据与云计算算研究中心 黄志洪25为 90 时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台台运行海量数数据移动客户数据量量达到TB级云化Oracle数数据库中sqql语句可以以得到结果,但希望进一步提提高效率MapReduuce方法希望尝试多个相相似度计算结结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112云计算网络络发展的必然然结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112Hadoopn Hadoopp的主要功能能:HDFSS和Map-Reduccen HDFS实现现数据的分布布式

9、存储,并并且实现冗余余备份n Map-Reeduce实实现计算任务务的分布化,尽尽量使到某个个节点的计算算任务主要面面对存储在本地的数据,以以减少跨节点点的网络数据据传送中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011228HDFS结构示示意图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011229Map-Redduce示意意图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011230HDFS与Maap-Redduce一起起工作中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011231Hiven 基于Hado

10、oop的常用用数据分析工工具n 可以看成是SSQL到Maap-Redduce的转转换器n HiveQLL尚未能完全全支持SQLL 92n 外部应用可以以通过hivve客户端、JJDBC、OODBC等方方式访问Hiive中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011232HBasen 列式数据库,特特别适合作为为数据分析的的场景,可以以减少I/OOn 无真正索引n 自动分区n 增加新节点时时自动线性扩扩展n 使用Hbasse命令而非非SQLn 可以通过Jaava,REEST,thhrift等等接口访问HHBase中山大学海量数数据与云计算算研究中心 黄志洪2012.4D

11、TCC2011233Hadoop体体系图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011234NoSQLn NoSQL = Nott Onlyy SQLn High pperforrmancee, Hugge Stoorage, Highh Scallabiliity & Highh Avaiilabillityn NoSQL面面向的场景:事务性要求求不高,实时时性要求不高高,查询较为为简单,数据据海量n 可分布化,运运行在廉价的的PC集群上上n 典型的NoSSQL产品,通通常某种产品品只适合某种种特定场景,常常要配搭使用用中山大学海量数数据与云计算算研究中心 黄志洪2

12、012.4DTCC2011235基于Hadooop的用户指指纹识别算法法n 求某个客户最最相似客户的的MapReeduce化化(以相关系系数为例):n Map() Inputt: 某客户户数值、所有有客户数值 将所有客户户随机平分到到 k台机器器 Outpuut: k 个最大相关关系数(loocal) Emit the kk 个跟某客客户最相似的的客户n Reducee( ) Inputt: Keyy: nulll; vaalues: k 个最最大相关系数数(locaal) Outpuut: 最大大相关系数(globaal) Emit the 最最大相关系数数、与某客户户最相似客户户中山大学海

13、量数数据与云计算算研究中心 黄志洪2012.4DTCC2011236数据分析者期待待的解决方案案n 完美解决性能能瓶颈,在可可见未来不容容易出现新瓶瓶颈n 过去所拥有的的技能可以平平稳过渡。比比如SQL、RRn 转移平台的成成本有多高?平台软硬件件成本,再开开发成本,技技能再培养成成本,维护成成本中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011237一种新的普适性性关联挖掘方方法n 海量,不一定定是指数据记记录多,有时时可能是变量量很多n 观察变量之间间是否具有联联系的传统回回归方法中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011238传统回归模

14、型的的困难n 为什么一定是是线性?或某某种非线性模模型?n 过分依赖于分分析者的经验验n 对于非连续的的离散数据难难以处理中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011239网格方法n Sciennce上的的文章Deetectiing Noovel AAssociiationns in Largee Dataa Setssn 方法概要:用用网格判断数数据的集中程程度,集中程程度意味着是是否有关联关关系n 方法具有一般般性,即无论论数据是怎样样分布的,不不限于特定的的关联函数类类型,此判断断方法都是有效n 方法具有等效效性,计算的的熵值和噪音音的程度有关关,跟关联的的类

15、型无关n MIC:thhe Maxximal Inforrmatioon Coeefficiientn MINE:MMaximaal Infformattion-bbased Nonpaaramettric EExplorrationn中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011240MIC值计算n 坐标平面被划划分为(x,y)网格GG(未必等宽宽),其中xxyn0.6n 在G上可以诱诱导出“自然然概率密度函函数”p(xx,y),任任何一个方格格(box)内内的概率密度度函数值为这个方方格所 包含含的样本点数数量占全体样样本点的比例例n 计算网格划分分G下的 mmu

16、tuall infoormatiion值 IIG中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011241MIC值计算n 构造特征矩阵阵mxy,矩阵阵的元素mxy=maxxIG/logg minx,y。mmax取遍所有可能的(xx,y)网格格Gn MIC=maax mxxy。Maax取遍所有有可能的(x,y)对对中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011242MIC值计算n Mxy的计算算是个难点,数数据科学家构构造了一个近近似的逼近算算法以提高效效率在作者的网站上上,可以下载载MINE计计算MIC的的程序(Jaava和R)以以及测试用数数据集实验:WHO数数据集,垒球球数据集中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011243MIC的性质n 如果变量对xx,y存在函函数关系,则则当样本数增增加时,MIIC必然趋向向于1n 如果变量对xx,y可以由由参数方程cc(t)=x(t),y(t)所表达的曲曲线描画,则则当样本数增增加时,MIC必然趋于于1n 如果变量对xx,y在统计计意义下互相相独立,则当当样本数增加加时,MICC趋于0中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011244MIC观察中山大学海量数数据与云计算算研究中心 黄志洪2012.4

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 电力管理

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁