A.Spark是一个基于内存迭代的框架
B.Spark是一个数据分析技术栈,包含了大数据的多种计算模式
C.Spark可以采用多种编程语言进行开发,比如Scal
D.Java
E.Spark计算过程中,数据不会落地到磁盘
A.MR框架过多的磁盘操作,缺乏对分布式内存的支持
B.MR框架无法高效地支持迭代式计算
C.MR框架无法高效地支持交互式数据挖掘任务
D.MR框架无法进行分析性计算任务
A.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C.前者相比后者学习起来更难
D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
A.1/8,3
B.1/10,3
C.1/10,4
D.1/8,4
A.Spark Streaming的基本原理是事件驱动的,即来一份数据就立刻进行处理,是一种纯的流式处理的组件,可达到毫秒级时延
B.Spark SQL是Spark中用于结构化数据处理的模块在Spark应用中,可以无缝的使用SQL语句亦或是DataFrame API对结构化数据进行查询
C.Structured Streaming的核心是将流式的数据看成一张数据不断增加的数据库表,这种流式的数据处理模型类似于数据块处理模型,可以把静态数据库表的一些查询操作应用在流式计算中,Spark执行标准的SQL查询,从无边界表中获取数据
D.Spark内置MLlib和GraphX算法库,尤其是MLlib在海量数据的分布式机器场景中有广泛的应用