博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MapReducer中的多次归约处理
阅读量:6604 次
发布时间:2019-06-24

本文共 817 字,大约阅读时间需要 2 分钟。

我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。

在Reducer任务中,通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出,那么是否可以在Mapper端对数据进行归约处理,业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了网络传输的数量。

可能有人疑惑几个问题:

为什么需要在Mapper端进行归约处理?

为什么可以在Mapper端进行归约处理?

既然在Mapper端可以进行归约处理,为什么在Reducer端还要处理?

回答第一个问题:因为在Mapper进行归约后,数据量变小了,这样再通过网络传输时,传输时间就变短了,减少了整个作业的运行时间。

回答第二个问题:因为Reducer端接收的数据就是来自于Mapper端。我们在Mapper进行归约处理,无非就是把归约操作提前到Mapper端做而已。

回答第三个问题:因为Mapper端的数据仅仅是本节点处理的数据,而Reducer端处理的数据是来自于多个Mapper任务的输出。因此在Mapper不能归约的数据,在Reducer端有可能归约处理。

在Mapper进行归约的类称为Combiner。那么,怎么写Combiner哪?非常简单,就是我们自定义的Reducer类。那么,怎么用哪?更简单,见如下代码

job.setCombineClass(Mapper.class)

要注意的是,Combiner只在Mapper任务所在的节点运行,不会跨Mapper任务运行。Reduce端接收所有Mapper端的输出来作为输入。虽然两边的归约类是同一个,但是执行的位置完全不一样。

并不是所有的归约工作都可以使用Combiner来做。比如求平均值就不能使用Combiner。因为对于平均数的归约算法不能多次调用。

转载地址:http://jhwso.baihongyu.com/

你可能感兴趣的文章
如何使用腾讯云开发一款 AR 应用介绍
查看>>
OpenStack CEPH Liberty 统一存储 bug解决
查看>>
深入分析免流(非小白教程)
查看>>
wait_event()函数集合详解
查看>>
sublime正则全局替换字符串
查看>>
golang emoji表情处理
查看>>
arduino
查看>>
OSPF高级配置与相关概念
查看>>
vCenter 6.0安装部署
查看>>
first的使用
查看>>
2015.10.23 信息系统项目管理师作业
查看>>
concurrentHashmap实现原理
查看>>
Asp.Net MVC4入门指南(9):查询详细信息和删除记录
查看>>
如何通过预加载器提升网页加载速度
查看>>
相对传统桌面设计器,在线报表设计器价值何在?
查看>>
Jquery基础整理
查看>>
命令:sudo
查看>>
数据库设计-范式
查看>>
oracle 授权
查看>>
EF 示例
查看>>