A.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中
B.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析
C.利用网页爬虫程序到互联网网站中爬取数据
D.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
A.没有任何切分
B.OSS的object
C.OSS的endpoint
D.OSS的Bucket
A.DataX是离线数据同步工具
B.DataX是在线数据同步工具
C.DataX支持异构数据源
D.ataX只支持同构数据源
E.DataX支持增量数据回放
Describe techniques for extracting from heterogeneous data sources.
简述异构数据源中的数据抽取技术。
A.flume是cloud开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点
B.flume将数据从产生、传输、处理,并写入目标路径的过程抽象为数据流
C.在具体的数据流中,数据源在支持flume中定制数据发送方,从而支持收集各种不同的协议数据
D.为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据
A.数据集成是将数据由多个数据源合并成一个一致的数据存储(如数据仓库)
B.数据变换可以通过如聚集、删除冗余特征或聚类等方法来降低数据的规模
C.数据归约可以用来把数据压缩到较小的区间(如0.0-1.0),提高了涉及距离度量挖掘算法的准确率和效率
D.数据清理可以用来清除数据中的噪声,纠正不一致
A.将数据从原始业务中抽取出来是所有工作的前提,必须在业务系统运行时对数据进行实时或者准实时的提取
B.数据转换是为了能将原来异构的数据格式统一而按照一定的规则将其转换
C.数据装载是将转换完的数据按照计划增量或全部导入到数据仓库中
D.如果数据仓库中的数据来自多个相互关联的系统,应当保证在这些系统同步工作时移动数据