A.RDD具有血统机制(Lineage)
B.RDD默认存储在磁盘
C.RDD是一个只读的,可分区的分布式数据集
D.RDD是Spark对基础数据的抽象
A.RDD Object->ADGScheduler->TaskScheduler->Worker
B.ADGScheduler->RDD Object->TaskScheduler->Worker
C.RDD Object->TaskScheduler->ADGScheduler->Worker
D.Worker->ADGScheduler->TaskScheduler->RDD Object
A.对各种数据计算模型的统一抽象
B.RDD是一个读、写、分区记录的集合
C.Spark的计算过程主要是RDD的迭代计算过程
D.一个存储数据的数据结构
A.Spark引进了弹性分布式数据集RDD(ResilientDistributedDataset)的抽象,容错性高
B.Spark提供的数据集操作类型不仅限于Map和Reduce,大致分为:Transformations和Actions两大类
C.Spark程序由Python语言进行编写,不支持Java语言进行的程序编写
D.Spark把中间数据放到内存中,迭代运算效率高
A.Spark是一个基于内存迭代的框架
B.Spark是一个数据分析技术栈,包含了大数据的多种计算模式
C.Spark可以采用多种编程语言进行开发,比如Scal
D.Java
E.Spark计算过程中,数据不会落地到磁盘