MapReduce排序ppt.ppt

上传人:创****公 文档编号:3027172 上传时间:2020-06-22 格式:PPT 页数:6 大小:716KB
返回 下载 相关 举报
MapReduce排序ppt.ppt_第1页
第1页 / 共6页
MapReduce排序ppt.ppt_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《MapReduce排序ppt.ppt》由会员分享,可在线阅读,更多相关《MapReduce排序ppt.ppt(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、厦门大学数据库实验室MapReduce排序,报告人:李雨倩导师:林子雨2014.07.19,在如下示例中,用户数据中有用户姓名,年龄和所在州$cattest-data/ch4/users.txtanne22NYjoe39COalison35NYmike69VAmarie27ORjim21ORbob71CAmary53NYdave36VAdude50CA用户活动日志中有用户姓名,进行的动作,来源IP。这个文件一般都要比用户数据要大得多。$cattest-data/ch4/user-logs.txtjimlogout93.24.237.12mikenew_tweet87.124.79.252bob

2、new_tweet58.133.120.100mikelogout55.237.104.36jimnew_tweet93.24.237.12marieview_user122.158.130.90,$hadoopfs-puttest-data/ch4/user-logs.txtuser-logs.txt$bin/run.shcom.manning.hip.ch4.joins.improved.SampleMainusers.txt,user-logs.txtoutput$hadoopfs-catoutput/part*bob71CAnew_tweet58.133.120.100jim21ORl

3、ogout93.24.237.12jim21ORnew_tweet93.24.237.12jim21ORlogin198.184.237.49marie27ORlogin58.133.120.100marie27ORview_user122.158.130.90mike69VAnew_tweet87.124.79.252mike69VAlogout55.237.104.36,优化重分区连接,传统重分区方法的实现空间效率低下。它需要将连接的所有的输出值都读取到内存中,然后进行多路连接。事实上,如果仅仅将小数据集读取到内存中,然后用小数据集来遍历大数据集,进行连接,这样将更加高效。下图是优化后的重

4、分区连接的流程图。,Map输出的组合键和组合值,(key,value)=(name+smaller,smaller+age+state/smaller+action+IP)jim21OR(jim0,021OR)jimnew_tweet93.24.237.12(jim1,1new_tweet93.24.237.12)bob71CA(bob0,071CA)bobnew_tweet58.133.120.100(bob1,1new_tweet58.133.120.100)另一块:jimlogout93.24.237.12(jim1,1logout93.24.237.12),根据value标记排序,(b

5、ob0,071CA)(jim0,021OR)(bob1,1new_tweet58.133.120.100)(jim1,1logout93.24.237.12)(jim1,1new_tweet93.24.237.12),(jim1,1logout93.24.237.12),一个map,另一个map,分组,(bob0,071CA)(bob1,1new_tweet58.133.120.100)(jim0,021OR)(jim1,1logout93.24.237.12)(jim1,1new_tweet93.24.237.12),影响数据整理和数据流三元素,在map输出收集阶段,由分区器选择哪个reduce应该接收map的输出。map输出的各个分区的数据,由RawComparator进行排序。Reduce端也用RawComparator进行排序。然后,由RawComparator对排序好的数据进行分组。,Thankyou!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁