《hadoop入门实例教程(1).ppt》由会员分享,可在线阅读,更多相关《hadoop入门实例教程(1).ppt(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Hadoop大数据解决方案大数据解决方案进阶应用用Hadoop讲师:迪伦(北风网版权所有)MapReduce高阶实现高阶实现(13)q 复制连接代码实现q 半连接课程目标课程目标setupsetup方法方法mapmap方法方法mapmap方法方法cleanupcleanup方法方法将文件或目录装载到分布式缓存将文件或目录装载到分布式缓存半连接半连接q半连接用来处理两个大数据集的连接,其中一个数据集可以被过滤成小到可以放在内存中q当所有的输入数据集都不能够小到可以放到缓存中,半连接可以用来优化map端连接q实现半连接的三个步骤:从一个数据集中提取连接键,生成唯一的集合通过复制连接实现移除另一个大
2、数据集中不需要连接的数据,生成另一个小数据集将第一步的原始数据集和第二步产生的结果集进行连接实例:半连接实例:半连接q问题:需要连接两个很大的数据集:用户日志和OLTP的用户数据任何一个数据集都不是足够小到可以缓存在map作业的内存中q解决方案:通过三个MapReduce作业来连接两个数据集,以此来减少reduce端连接的消耗作业1:从日志文件中提取出用户名,用这些用户名生成一个用户名唯一的集合(Set)实例代码:半连接实例代码:半连接-作业作业1 1实例:半连接实例:半连接作业2:从全体用户的用户数据集中移除不存在于日志文件中的用户实例:半连接实例:半连接作业3:需要将作业2生成的已过滤的用户集和原始的用户日志合并了欢迎访问我们的官方网站