A.map
B.filter
C.group By
D.count
A.Spark引进了弹性分布式数据集RDD(ResilientDistributedDataset)的抽象,容错性高
B.Spark提供的数据集操作类型不仅限于Map和Reduce,大致分为:Transformations和Actions两大类
C.Spark程序由Python语言进行编写,不支持Java语言进行的程序编写
D.Spark把中间数据放到内存中,迭代运算效率高
关于 mapreduce框架中一个作业的 reduce 任务的数目, 下列说法正确的是()
A、由自定义的 Partitioner 来确定
B、是分块的总数目一半
C、可以由用户来自定义,通过 JobConf.setNumReducetTask(int) 来设定一个作业中 reduce 的任务数目
D、由 MapReduce随机确定其数目