关于 mapreduce框架中一个作业的 reduce 任务的数目, 下列说法正确的是()A、由自定义的 Partiti
关于 mapreduce框架中一个作业的 reduce 任务的数目, 下列说法正确的是()
A、由自定义的 Partitioner 来确定
B、是分块的总数目一半
C、可以由用户来自定义,通过 JobConf.setNumReducetTask(int) 来设定一个作业中 reduce 的任务数目
D、由 MapReduce随机确定其数目
关于 mapreduce框架中一个作业的 reduce 任务的数目, 下列说法正确的是()
A、由自定义的 Partitioner 来确定
B、是分块的总数目一半
C、可以由用户来自定义,通过 JobConf.setNumReducetTask(int) 来设定一个作业中 reduce 的任务数目
D、由 MapReduce随机确定其数目
A.Job是个静态的概念,被提交到系统开始执行时,该Job就拥有一个Instance
B.工作流描述了Job中各个Instance之间的依赖关系和运行约束,本质是个DAG(有向无环图)
C.单个SQLquery、命令或者MapReduce程序统称为一个Task
D.Instance是个动态概念,每个Instance只能运行一次
A.MapReduce是一种分布式计算框架
B.MapReduce来源于学术论文
C.MapReduce程序只能用java语言编写
D.MapReduce隐藏了计算细节
A.MapReduce程序只能用Java写
B.MapReduce是一种计算框架
C.MapReduce来源于google的学术论文
D.MapReduce隐藏了并行计算的细节,方便使用
A.主要分为 shuffle 和 sort 这 2 个阶段
B.这个阶段过程中, key 的分组规则是不可更改的
C.其中的 shuffle 和 sort 是同时进行的
D.Reduce 数目的增加不会增加系统的开销
A.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C.前者相比后者学习起来更难
D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型