hadoop入门实例教程(1).ppt

上传人:赵** 文档编号:68611761 上传时间:2022-12-29 格式:PPT 页数:13 大小:1.71MB
返回 下载 相关 举报
hadoop入门实例教程(1).ppt_第1页
第1页 / 共13页
hadoop入门实例教程(1).ppt_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《hadoop入门实例教程(1).ppt》由会员分享,可在线阅读,更多相关《hadoop入门实例教程(1).ppt(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Hadoop大数据解决方案大数据解决方案进阶应用用Hadoop讲师:迪伦(北风网版权所有)MapReduce高阶实现高阶实现(13)q 复制连接代码实现q 半连接课程目标课程目标setupsetup方法方法mapmap方法方法mapmap方法方法cleanupcleanup方法方法将文件或目录装载到分布式缓存将文件或目录装载到分布式缓存半连接半连接q半连接用来处理两个大数据集的连接,其中一个数据集可以被过滤成小到可以放在内存中q当所有的输入数据集都不能够小到可以放到缓存中,半连接可以用来优化map端连接q实现半连接的三个步骤:从一个数据集中提取连接键,生成唯一的集合通过复制连接实现移除另一个大

2、数据集中不需要连接的数据,生成另一个小数据集将第一步的原始数据集和第二步产生的结果集进行连接实例:半连接实例:半连接q问题:需要连接两个很大的数据集:用户日志和OLTP的用户数据任何一个数据集都不是足够小到可以缓存在map作业的内存中q解决方案:通过三个MapReduce作业来连接两个数据集,以此来减少reduce端连接的消耗作业1:从日志文件中提取出用户名,用这些用户名生成一个用户名唯一的集合(Set)实例代码:半连接实例代码:半连接-作业作业1 1实例:半连接实例:半连接作业2:从全体用户的用户数据集中移除不存在于日志文件中的用户实例:半连接实例:半连接作业3:需要将作业2生成的已过滤的用户集和原始的用户日志合并了欢迎访问我们的官方网站

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁