大学MOOC 大数据开发基础(魏永波)(河北地质大学)1451417163 最新慕课完整章节测试答案
第1章 Spark的设计与运行原理 (复习)
文章目录
第3章 Spark的设计与运行原理单元测验
1、单选题:
以下哪个不是Spark的组件?
选项:
A: Spark Streaming
B: MLlib
C: GraphX
D: Flink
答案: 【 Flink】
2、单选题:
下面哪个不是 RDD 的特点 ?
选项:
A: 可分区
B: 可序列化
C: 可修改
D: 可持久化
答案: 【 可修改】
3、单选题:
Task是Executor上的工作单元,运行于下面哪个组件上?
选项:
A: Driver Program
B: Spark Master
C: Worker Node
D: Cluster Manager
答案: 【 Worker Node】
4、单选题:
下面哪个操作肯定是宽依赖?
选项:
A: map
B: filter
C: reduceByKey
D: union
答案: 【 reduceByKey】
5、多选题:
以下是Spark的主要特点的有?
选项:
A: 运行速度快
B: 容易使用,简洁的API设计有助于用户轻松构建并行程序
C: 通用性,Spark提供了完整而强大的技术栈
D: 运行模式多样
答案: 【 运行速度快;
容易使用,简洁的API设计有助于用户轻松构建并行程序;
通用性,Spark提供了完整而强大的技术栈;
运行模式多样】
6、多选题:
Spark的运行架构包括哪些?
选项:
A: 集群资源管理器(Cluster Manager)
B: 执行进程(Executor)
C: Worker Node
D: 任务控制节点Driver Program
答案: 【 集群资源管理器(Cluster Manager);
执行进程(Executor);
Worker Node;
任务控制节点Driver Program】
7、多选题:
关于RDD之间的依赖分为窄依赖和宽依赖,以下说法正确的是?
选项:
A: 存在一个父RDD的一个分区对应一个子RDD的多个分区,则为宽依赖
B: 存在一个父RDD的多个分区对应一个子RDD的一个分区,则为宽依赖
C: 存在一个父RDD的一个分区只被一个子RDD的一个分区所使用,则为窄依赖
D: 存在一个父RDD的一个分区被一个子RDD的多个分区所使用,则为窄依赖
答案: 【 存在一个父RDD的一个分区对应一个子RDD的多个分区,则为宽依赖;
存在一个父RDD的一个分区只被一个子RDD的一个分区所使用,则为窄依赖】
8、多选题:
Spark可以采用几种不同的部署方式,以下正确的部署方式有?
选项:
A: Local
B: Standalone
C: Spark on Mesos
D: Spark on YARN
答案: 【 Local;
Standalone;
Spark on Mesos;
Spark on YARN】
9、多选题:
目前的大数据处理典型应用场景可分为哪几个类型?
选项:
A: 复杂的批量数据处理
B: 基于历史数据的交互式查询
C: 大数据的分布式计算
D: 基于实时数据流的数据处理
答案: 【 复杂的批量数据处理;
基于历史数据的交互式查询;
基于实时数据流的数据处理】
10、多选题:
以下选项中哪些是Spark的优点?
选项:
A: 具有高效的容错性
B: 利用进程模型
C: 可以将中间结果持久化到内存
D: 表达能力有限
答案: 【 具有高效的容错性;
可以将中间结果持久化到内存】
第2章 Spark环境搭建和使用方法
第4章Spark环境搭建和使用方法单元测验
1、单选题:
判断HDFS是否启动成功,可以通过哪个命令?
选项:
A: hdfs
B: spark
C: jps
D: start-dfs
答案: 【 jps】
2、单选题:
spark-shell在启动时,<master-url>采用local[*]时,它的含义是?
选项:
A: 使用任意个线程来本地化运行Spark
B: 使用与逻辑CPU个数相同数量的线程来本地化运行Spark
C: 使用与逻辑CPU个数相同数量的进程来本地化运行Spark
D: 使用单个线程来本地化运行Spark
答案: 【 使用与逻辑CPU个数相同数量的线程来本地化运行Spark】
3、单选题:
下面描述正确的是:
选项:
A: Hadoop和Spark不能部署在同一个集群中
B: Hadoop只包含了存储组件,不包含计算组件
C: Spark是一个分布式计算框架,可以和Hadoop组合使用
D: Spark和Hadoop是竞争关系,二者不能组合使用
答案: 【 Spark是一个分布式计算框架,可以和Hadoop组合使用】
4、多选题:
Spark部署模式有哪几种?
选项:
A: Local模式(单机模式)
B: Standalone模式
C: YARN模式
D: Mesos模式
答案: 【 Local模式(单机模式);
Standalone模式 ;
YARN模式;
Mesos模式】
5、多选题:
关于Hadoop和Spark的相互关系,以下说法正确的是?
选项:
A: Hadoop和Spark可以相互协作
B: Hadoop负责数据的存储和管理
C: Spark负责数据的计算
D: Spark要操作Hadoop中的数据,需要先启动HDFS
答案: 【 Hadoop和Spark可以相互协作;
Hadoop负责数据的存储和管理;
Spark负责数据的计算;
Spark要操作Hadoop中的数据,需要先启动HDFS】
6、多选题:
HDFS若启动成功,系统会列出以下哪些进程?
选项:
A: NameNode
B: HDFS
C: DataNode
D: SecondaryNameNode
答案: 【 NameNode;
DataNode;
SecondaryNameNode】
7、多选题:
spark-shell在启动时,采用yarn-client模式时,以下说法正确的是?
选项:
A: 当用户提交了作业之后,不能关掉Client
B: 当用户提交了作业之后,就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【 当用户提交了作业之后,不能关掉Client;
该模式适合运行交互类型的作业】
8、多选题:
spark-shell在启动时,采用yarn-cluster模式时,以下说法正确的是?
选项:
A: 当用户提交了作业之后,不能关掉Client
B: 当用户提交了作业之后,就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【 当用户提交了作业之后,就可以关掉Client;
该模式不适合运行交互类型的作业】
9、多选题:
开发Spark独立应用程序的基本步骤通常有哪些?
选项:
A: 安装编译打包工具,如sbt,Maven
B: 编写Spark应用程序代码
C: 编译打包
D: 通过spark-submit运行程序
答案: 【 安装编译打包工具,如sbt,Maven;
编写Spark应用程序代码;
编译打包;
通过spark-submit运行程序】
10、多选题:
集群上运行Spark应用程序的方法步骤有哪些?
选项:
A: 启动Hadoop集群
B: 启动Spark的Master节点和所有Slave节点
C: 在集群中运行应用程序JAR包
D: 查看集群信息以获得应用程序运行的相关信息
答案: 【 启动Hadoop集群;
启动Spark的Master节点和所有Slave节点;
在集群中运行应用程序JAR包;
查看集群信息以获得应用程序运行的相关信息】
第3章 RDD编程
第3章 RDD编程单元测验
1、单选题:
下面哪个方法是用来从文件系统中加载数据创建RDD的
选项:
A: txtFile()
B: textfile()
C: textFile()
D: parallelize()
答案: 【 textFile()】
2、单选题:
以下操作中,哪个不是Spark RDD编程中的操作
选项:
A: filter()
B: reduceByKey(func)
C: reduce()
D: getLastOne()
答案: 【 getLastOne()】
3、单选题:
data=Array(1,2,3,4,5)rdd1=sc.parallelize(data)rdd2=rdd1.map(x=>x+10)上述语句执行以后,rdd2中的元素是
选项:
A: 1,2,3,4,5
B: 3,4,5,6,7
C: 11,12,13,14,15
D: 10,11,12,13,14
答案: 【 11,12,13,14,15】
4、单选题:
array=Array(“Hadoop is good”,”Spark is fast”,”Spark is better”)lines=sc.papallelize(array)words=lines.flatMap(line=>line.split(“ ”))上述语句执行以后,words中的元素是
选项:
A: “Hadoop is good”,”Spark is fast”,”Spark is better”
B: ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”
C: ”Hadoop”,”Spark”,”fast”
D: ”Spark”,”is”,”fast”
答案: 【 ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】
5、单选题:
假设有一个RDD的名称为words,包含9个元素,分别是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。则语句words.groupBy
