第1章 Spark的设计与运行原理 (复习)

第3章 Spark的设计与运行原理单元测验

1、单选题:
‎以下哪个不是Spark的组件?‍
选项:
A: Spark Streaming
B: MLlib
C: GraphX
D: Flink
答案: 【 Flink

2、单选题:
​下面哪个不是 RDD 的特点 ? ‎
选项:
A: 可分区
B: 可序列化
C: 可修改
D: 可持久化
答案: 【 可修改

3、单选题:
‌Task是Executor上的工作单元,运行于下面哪个组件上?‍
选项:
A: Driver Program
B: Spark Master
C: Worker Node
D: Cluster Manager
答案: 【 Worker Node

4、单选题:
‎下面哪个操作肯定是宽依赖?​
选项:
A: map
B: filter
C: reduceByKey
D: union
答案: 【 reduceByKey

5、多选题:
​以下是Spark的主要特点的有? ‏
选项:
A: 运行速度快
B: 容易使用,简洁的API设计有助于用户轻松构建并行程序
C: 通用性,Spark提供了完整而强大的技术栈
D: 运行模式多样
答案: 【 运行速度快;
容易使用,简洁的API设计有助于用户轻松构建并行程序;
通用性,Spark提供了完整而强大的技术栈;
运行模式多样

6、多选题:
‍Spark的运行架构包括哪些?‌
选项:
A: 集群资源管理器(Cluster Manager)
B: 执行进程(Executor)
C: Worker Node
D: 任务控制节点Driver Program
答案: 【 集群资源管理器(Cluster Manager);
执行进程(Executor);
Worker Node;
任务控制节点Driver Program

7、多选题:
‎关于RDD之间的依赖分为窄依赖和宽依赖,以下说法正确的是?‌
选项:
A: 存在一个父RDD的一个分区对应一个子RDD的多个分区,则为宽依赖
B: 存在一个父RDD的多个分区对应一个子RDD的一个分区,则为宽依赖
C: 存在一个父RDD的一个分区只被一个子RDD的一个分区所使用,则为窄依赖
D: 存在一个父RDD的一个分区被一个子RDD的多个分区所使用,则为窄依赖
答案: 【 存在一个父RDD的一个分区对应一个子RDD的多个分区,则为宽依赖;
存在一个父RDD的一个分区只被一个子RDD的一个分区所使用,则为窄依赖

8、多选题:
‏Spark可以采用几种不同的部署方式,以下正确的部署方式有?‌
选项:
A: Local
B: Standalone
C: Spark on Mesos
D: Spark on YARN
答案: 【 Local;
Standalone;
Spark on Mesos;
Spark on YARN

9、多选题:
‍目前的大数据处理典型应用场景可分为哪几个类型?‍
选项:
A: 复杂的批量数据处理
B: 基于历史数据的交互式查询
C: 大数据的分布式计算
D: 基于实时数据流的数据处理
答案: 【 复杂的批量数据处理;
基于历史数据的交互式查询;
基于实时数据流的数据处理

10、多选题:
‍以下选项中哪些是Spark的优点?‎
选项:
A: 具有高效的容错性
B: 利用进程模型
C: 可以将中间结果持久化到内存
D: 表达能力有限
答案: 【 具有高效的容错性;
可以将中间结果持久化到内存

第2章 Spark环境搭建和使用方法

第4章Spark环境搭建和使用方法单元测验

1、单选题:
​判断HDFS是否启动成功,可以通过哪个命令?‍
选项:
A: hdfs
B: spark
C: jps
D: start-dfs
答案: 【 jps

2、单选题:
‎spark-shell在启动时,<master-url>采用local[*]时,它的含义是?​
选项:
A: 使用任意个线程来本地化运行Spark
B: 使用与逻辑CPU个数相同数量的线程来本地化运行Spark
C: 使用与逻辑CPU个数相同数量的进程来本地化运行Spark
D: 使用单个线程来本地化运行Spark
答案: 【 使用与逻辑CPU个数相同数量的线程来本地化运行Spark

3、单选题:
‏下面描述正确的是:​
选项:
A: Hadoop和Spark不能部署在同一个集群中
B: Hadoop只包含了存储组件,不包含计算组件
C: Spark是一个分布式计算框架,可以和Hadoop组合使用
D: Spark和Hadoop是竞争关系,二者不能组合使用
答案: 【 Spark是一个分布式计算框架,可以和Hadoop组合使用

4、多选题:
​Spark部署模式有哪几种?‎
选项:
A: Local模式(单机模式)
B: Standalone模式 
C: YARN模式
D: Mesos模式
答案: 【 Local模式(单机模式);
Standalone模式 ;
YARN模式;
Mesos模式

5、多选题:
​关于Hadoop和Spark的相互关系,以下说法正确的是?​
选项:
A: Hadoop和Spark可以相互协作
B: Hadoop负责数据的存储和管理
C: Spark负责数据的计算
D: Spark要操作Hadoop中的数据,需要先启动HDFS
答案: 【 Hadoop和Spark可以相互协作;
Hadoop负责数据的存储和管理;
Spark负责数据的计算;
Spark要操作Hadoop中的数据,需要先启动HDFS

6、多选题:
‌HDFS若启动成功,系统会列出以下哪些进程?‏
选项:
A: NameNode
B: HDFS
C: DataNode
D: SecondaryNameNode
答案: 【 NameNode;
DataNode;
SecondaryNameNode

7、多选题:
‏spark-shell在启动时,采用yarn-client模式时,以下说法正确的是?​
选项:
A: 当用户提交了作业之后,不能关掉Client
B: 当用户提交了作业之后,就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【 当用户提交了作业之后,不能关掉Client;
该模式适合运行交互类型的作业

8、多选题:
‍ spark-shell在启动时,采用yarn-cluster模式时,以下说法正确的是?​
选项:
A: 当用户提交了作业之后,不能关掉Client
B: 当用户提交了作业之后,就可以关掉Client
C: 该模式适合运行交互类型的作业
D: 该模式不适合运行交互类型的作业
答案: 【 当用户提交了作业之后,就可以关掉Client;
该模式不适合运行交互类型的作业

9、多选题:
‍开发Spark独立应用程序的基本步骤通常有哪些? ‌
选项:
A: 安装编译打包工具,如sbt,Maven
B: 编写Spark应用程序代码
C: 编译打包
D: 通过spark-submit运行程序
答案: 【 安装编译打包工具,如sbt,Maven;
编写Spark应用程序代码;
编译打包;
通过spark-submit运行程序

10、多选题:
‏集群上运行Spark应用程序的方法步骤有哪些?‎
选项:
A: 启动Hadoop集群
B: 启动Spark的Master节点和所有Slave节点
C: 在集群中运行应用程序JAR包
D: 查看集群信息以获得应用程序运行的相关信息
答案: 【 启动Hadoop集群;
启动Spark的Master节点和所有Slave节点;
在集群中运行应用程序JAR包;
查看集群信息以获得应用程序运行的相关信息

第3章 RDD编程

第3章 RDD编程单元测验

1、单选题:
‌下面哪个方法是用来从文件系统中加载数据创建RDD的‌
选项:
A: txtFile()
B: textfile()
C: textFile()
D: parallelize()
答案: 【 textFile()

2、单选题:
‍以下操作中,哪个不是Spark RDD编程中的操作‌
选项:
A: filter()
B: reduceByKey(func)
C: reduce()
D: getLastOne()
答案: 【 getLastOne()

3、单选题:
​data=Array(1,2,3,4,5)‍​rdd1=sc.parallelize(data)‍​rdd2=rdd1.map(x=>x+10)‍​上述语句执行以后,rdd2中的元素是‍
选项:
A: 1,2,3,4,5
B: 3,4,5,6,7
C: 11,12,13,14,15
D: 10,11,12,13,14
答案: 【 11,12,13,14,15

4、单选题:
‌array=Array(“Hadoop is good”,”Spark is fast”,”Spark is better”)‌‌lines=sc.papallelize(array)‌‌words=lines.flatMap(line=>line.split(“ ”))‌‌上述语句执行以后,words中的元素是‌
选项:
A: “Hadoop is good”,”Spark is fast”,”Spark is better”
B: ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”
C: ”Hadoop”,”Spark”,”fast”
D: ”Spark”,”is”,”fast”
答案: 【 ”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”

5、单选题:
‏假设有一个RDD的名称为words,包含9个元素,分别是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。则语句words.groupBy

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注