大学MOOC 大数据开发基础（魏永波）(河北地质大学)1451417163 最新慕课完整章节测试答案

第1章 Spark的设计与运行原理（复习）

文章目录

第1章 Spark的设计与运行原理（复习）
第2章 Spark环境搭建和使用方法
第3章 RDD编程
第4章 Spark SQL
第5章 Spark Streaming
第6章 Structured Streaming
第7章 Spark MLlib
第8章推荐系统
第9章图计算

第3章 Spark的设计与运行原理单元测验

1、单选题：
‎以下哪个不是Spark的组件?‍
选项：
A: Spark Streaming
B: MLlib
C: GraphX
D: Flink
答案: 【 Flink】

2、单选题：
下面哪个不是 RDD 的特点 ? ‎
选项：
A: 可分区
B: 可序列化
C: 可修改
D: 可持久化
答案: 【可修改】

3、单选题：
‌Task是Executor上的工作单元，运行于下面哪个组件上？‍
选项：
A: Driver Program
B: Spark Master
C: Worker Node
D: Cluster Manager
答案: 【 Worker Node】

4、单选题：
‎下面哪个操作肯定是宽依赖？
选项：
A: map
B: filter
C: reduceByKey
D: union
答案: 【 reduceByKey】

5、多选题：
以下是Spark的主要特点的有? ‏
选项：
A: 运行速度快
B: 容易使用，简洁的API设计有助于用户轻松构建并行程序
C: 通用性，Spark提供了完整而强大的技术栈
D: 运行模式多样
答案: 【运行速度快;
容易使用，简洁的API设计有助于用户轻松构建并行程序;
通用性，Spark提供了完整而强大的技术栈;
运行模式多样】

6、多选题：
‍Spark的运行架构包括哪些？‌
选项：
A: 集群资源管理器（Cluster Manager）
B: 执行进程（Executor）
C: Worker Node
D: 任务控制节点Driver Program
答案: 【集群资源管理器（Cluster Manager）;
执行进程（Executor）;
Worker Node;
任务控制节点Driver Program】

7、多选题：
‎关于RDD之间的依赖分为窄依赖和宽依赖，以下说法正确的是？‌
选项：
A: 存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖
B: 存在一个父RDD的多个分区对应一个子RDD的一个分区，则为宽依赖
C: 存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖
D: 存在一个父RDD的一个分区被一个子RDD的多个分区所使用，则为窄依赖
答案: 【存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖;
存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖】

8、多选题：
‏Spark可以采用几种不同的部署方式，以下正确的部署方式有？‌
选项：
A: Local
B: Standalone
C: Spark on Mesos
D: Spark on YARN
答案: 【 Local;
Standalone;
Spark on Mesos;
Spark on YARN】

9、多选题：
‍目前的大数据处理典型应用场景可分为哪几个类型?‍
选项：
A: 复杂的批量数据处理
B: 基于历史数据的交互式查询
C: 大数据的分布式计算
D: 基于实时数据流的数据处理
答案: 【复杂的批量数据处理;
基于历史数据的交互式查询;
基于实时数据流的数据处理】

10、多选题：
‍以下选项中哪些是Spark的优点？‎
选项：
A: 具有高效的容错性
B: 利用进程模型
C: 可以将中间结果持久化到内存
D: 表达能力有限
答案: 【具有高效的容错性;
可以将中间结果持久化到内存】

第2章 Spark环境搭建和使用方法

第4章Spark环境搭建和使用方法单元测验

1、单选题：
判断HDFS是否启动成功，可以通过哪个命令？‍
选项：
A: hdfs
B: spark
C: jps
D: start-dfs
答案: 【 jps】

2、单选题：
‎spark-shell在启动时，<master-url>采用local[*]时，它的含义是？
选项：
A: 使用任意个线程来本地化运行Spark
B: 使用与逻辑CPU个数相同数量的线程来本地化运行Spark
C: 使用与逻辑CPU个数相同数量的进程来本地化运行Spark
D: 使用单个线程来本地化运行Spark
答案: 【使用与逻辑CPU个数相同数量的线程来本地化运行Spark】

3、单选题：
‏下面描述正确的是：
选项：
A: Hadoop和Spark不能部署在同一个集群中
B: Hadoop只包含了存储组件，不包含计算组件
C: Spark是一个分布式计算框架，可以和Hadoop组合使用
D: Spark和Hadoop是竞争关系，二者不能组合使用
答案: 【 Spark是一个分布式计算框架，可以和Hadoop组合使用】

4、多选题：
Spark部署模式有哪几种?‎
选项：
A: Local模式（单机模式）
B: Standalone模式
C: YARN模式
D: Mesos模式
答案: 【 Local模式（单机模式）;
Standalone模式 ;
YARN模式;
Mesos模式】

5、多选题：
关于Hadoop和Spark的相互关系，以下说法正确的是？
选项：
A: Hadoop和Spark可以相互协作
B: Hadoop负责数据的存储和管理
C: Spark负责数据的计算
D: Spark要操作Hadoop中的数据，需要先启动HDFS
答案: 【 Hadoop和Spark可以相互协作;
Hadoop负责数据的存储和管理;
Spark负责数据的计算;
Spark要操作Hadoop中的数据，需要先启动HDFS】

6、多选题：
‌HDFS若启动成功，系统会列出以下哪些进程？‏
选项：
A: NameNode
B: HDFS
C: DataNode
D: SecondaryNameNode
答案: 【 NameNode;
DataNode;
SecondaryNameNode】

7、多选题：
‏spark-shell在启动时，采用yarn-client模式时，以下说法正确的是？
选项：
A: 当用户提交了作业之后，不能关掉Client
B: 当用户提交了作业之后，就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【当用户提交了作业之后，不能关掉Client;
该模式适合运行交互类型的作业】

8、多选题：
‍ spark-shell在启动时，采用yarn-cluster模式时，以下说法正确的是？
选项：
A: 当用户提交了作业之后，不能关掉Client
B: 当用户提交了作业之后，就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【当用户提交了作业之后，就可以关掉Client;
该模式不适合运行交互类型的作业】

9、多选题：
‍开发Spark独立应用程序的基本步骤通常有哪些? ‌
选项：
A: 安装编译打包工具，如sbt，Maven
B: 编写Spark应用程序代码
C: 编译打包
D: 通过spark-submit运行程序
答案: 【安装编译打包工具，如sbt，Maven;
编写Spark应用程序代码;
编译打包;
通过spark-submit运行程序】

10、多选题：
‏集群上运行Spark应用程序的方法步骤有哪些?‎
选项：
A: 启动Hadoop集群
B: 启动Spark的Master节点和所有Slave节点
C: 在集群中运行应用程序JAR包
D: 查看集群信息以获得应用程序运行的相关信息
答案: 【启动Hadoop集群;
启动Spark的Master节点和所有Slave节点;
在集群中运行应用程序JAR包;
查看集群信息以获得应用程序运行的相关信息】

第3章 RDD编程

第3章 RDD编程单元测验

1、单选题：
‌下面哪个方法是用来从文件系统中加载数据创建RDD的‌
选项：
A: txtFile()
B: textfile()
C: textFile()
D: parallelize()
答案: 【 textFile()】

2、单选题：
‍以下操作中，哪个不是Spark RDD编程中的操作‌
选项：
A: filter()
B: reduceByKey(func)
C: reduce()
D: getLastOne()
答案: 【 getLastOne()】

3、单选题：
data=Array(1,2,3,4,5)‍rdd1=sc.parallelize(data)‍rdd2=rdd1.map(x=>x+10)‍上述语句执行以后，rdd2中的元素是‍
选项：
A: 1,2,3,4,5
B: 3,4,5,6,7
C: 11,12,13,14,15
D: 10,11,12,13,14
答案: 【 11,12,13,14,15】

4、单选题：
‌array=Array(“Hadoop is good”,”Spark is fast”,”Spark is better”)‌‌lines=sc.papallelize(array)‌‌words=lines.flatMap(line=>line.split(“ ”))‌‌上述语句执行以后，words中的元素是‌
选项：
A: “Hadoop is good”,”Spark is fast”,”Spark is better”
B: ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”
C: ”Hadoop”,”Spark”,”fast”
D: ”Spark”,”is”,”fast”
答案: 【 ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】

5、单选题：
‏假设有一个RDD的名称为words，包含9个元素，分别是：(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。则语句words.groupBy

剩余75%内容付费后可查看

第1章 Spark的设计与运行原理 （复习）