大学MOOC 数据挖掘与python实践(中央财经大学)1207262801 最新慕课完整章节测试答案

第一单元导言

文章目录

第一单元导言
第二单元认识数据
第三单元数据预处理
第四单元关联规则挖掘
第五单元分类
第六单元数值预测
第七单元聚类分析
第八单元复杂数据的挖掘

第一单元测验

1、单选题：
‌数据挖掘又称从数据中发现知识，后者英文简称为（）。‍
选项：
A: KPP
B: KDP
C: KDD
D: KPD
答案: 【 KDD 】

2、单选题：
数据挖掘又称从数据中发现知识，前者英文简称为（）。‍
选项：
A: KPP
B: DM
C: KDD
D: DD
答案: 【 DM】

3、单选题：
一般数据挖掘的流程顺序，下列正确的是（）。‎①选择数据挖掘的技术、功能和合适的算法‎②选择数据，数据清洗和预处理‎③了解应用领域，了解相关的知识和应用目标‎④寻找感兴趣的模式、模式评估、知识表示‎⑤创建目标数据集‎
选项：
A: ③④①⑤②
B: ⑤④②①③
C: ③②⑤①④
D: ③⑤②①④
答案: 【 ③⑤②①④】

4、单选题：
结构化的数据是指一些数据通过统一的（）的形式存储的，这类数据我们称为结构化的数据。‎
选项：
A: 文档
B: 二维表格
C: 图像
D: 声音
答案: 【二维表格】

5、单选题：
数值预测用于连续变量的取值，常用的预测方法是（）。‎
选项：
A: 回归分析
B: 聚类
C: 关联
D: 分类
答案: 【回归分析】

6、单选题：
‏下列应用场景不属于分类的是（）。‌
选项：
A: 对信用卡申请者判断其信誉高低
B: 医生根据患者的症状判断所患疾病类型
C: 推广新产品时预测已有客户是否对新产品感兴趣
D: 为了解用户特点，公司将客户分群
答案: 【为了解用户特点，公司将客户分群】

7、单选题：
‏Python语言的创始人是( ）。‏
选项：
A: Guido van Rossum
B: Bill Gates
C: Sergey Brin
D: Larry Page
答案: 【 Guido van Rossum】

8、单选题：
‌Python科学计算的基本包是（）。‌‌‌
选项：
A: Numpy
B: Pandas
C: Scikit-learn
D: Matplotlib
答案: 【 Numpy】

9、单选题：
‌以下Python包中，绘图功能最强大的是（）。‌
选项：
A: Matplotlib
B: Pandas
C: Scikit-learn
D: Numpy
答案: 【 Matplotlib】

10、单选题：
‏以下Python包中，最适合用于机器学习的是（）。‍‏‍
选项：
A: Scikit-learn
B: Pandas
C: Numpy
D: Matplotlib
答案: 【 Scikit-learn】

11、单选题：
‎以下Python包中，提供了DataFrame数据类型的是（）。‎
选项：
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Pandas】

12、单选题：
‍为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python安装方式为（）。‍‍‍
选项：
A: 通过Anaconda安装
B: 直接下载Python安装
C: 通过浏览器查找处理过的Python安装包
D: 直接安装Pycharm
答案: 【通过Anaconda安装】

13、多选题：
‏数据挖掘包括下面哪些方法（）。‏
选项：
A: 分类
B: 聚类
C: 关联
D: 异常发现
答案: 【分类;
聚类;
关联;
异常发现】

14、多选题：
‏数据挖掘和哪些学科领域有关系（）。‎
选项：
A: 统计
B: 机器学习
C: 数据库
D: 优化
答案: 【统计;
机器学习;
数据库;
优化】

15、判断题：
‌聚类针对有标签的数据。‎
选项：
A: 正确
B: 错误
答案: 【错误】

16、判断题：
分类和回归都可用于预测，分类的输出是离散的类别值。‍
选项：
A: 正确
B: 错误
答案: 【正确】

17、判断题：
‎分类就是根据物以类聚的原理，将没有类别的对象根据对象的特征自动聚成不同簇的过程。
选项：
A: 正确
B: 错误
答案: 【错误】

18、判断题：
‎序列分析经常会用在购物篮分析中。‍
选项：
A: 正确
B: 错误
答案: 【错误】

19、判断题：
‎关联分析是数据分析中常用的分析方法。
选项：
A: 正确
B: 错误
答案: 【正确】

20、填空题：
‏在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是数据仓库技术和技术。‏
答案: 【数据挖掘】

21、填空题：
‏在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是技术和数据挖掘技术。‏
答案: 【数据仓库】

22、填空题：
‌从存储方式对数据类型进行分类，可分为数据和数据。（输入两个位置的答案时，以一个空格作为分隔符）‏
答案: 【结构化非结构化】

23、填空题：
‌预测的模型构建需要来进行分析。‌
答案: 【历史数据】

24、填空题：
‌ 就是根据有类别的数据提供的信息，来概括类别的主要特征，构建模型或者规则，根据该模型或者规则预测对象的类别。
答案: 【分类】

第二单元认识数据

第二章单元测验

1、单选题：
‎下列对学生相关属性描述中，不是标称属性的是（）。‎
选项：
A: 头发颜色
B: 婚姻状况
C: 身高
D: 学号
答案: 【身高】

2、单选题：
‏下列哪些选项能表示序数属性的数据集中趋势度量（）。‎
选项：
A: 众数
B: 均值
C: 四分位数
D: 标准差
答案: 【众数】

3、单选题：
（）可以观察从一个分布到另一分布是否有漂移。‎
选项：
A: 直方图
B: 散点图
C: 盒图
D: 分位数-分位数图
答案: 【分位数-分位数图】

4、单选题：
‍4人喜欢服饰的颜色如下，属性是标称属性。李四和孙六的相似性是（）。‍姓名‍帽子颜色‍上衣颜色‍裤子颜色‍鞋子颜色‍围巾颜色‍张三‍红‍蓝‍蓝‍绿‍红‍李四‍红‍蓝‍蓝‍红‍粉‍王五‍黄‍绿‍蓝‍绿‍红‍孙六‍蓝‍蓝‍蓝‍红‍粉‍‍‍
选项：
A: 1/5
B: 2/5
C: 3/5
D: 4/5
答案: 【 4/5】

5、单选题：
‏度量作为一种测度，满足以下哪些条件：
选项：
A: 同一性
B: 对称性
C: 三角不等式
D: 以上均是
答案: 【以上均是】

6、单选题：
Python语言在创始人是（）。
选项：
A: Bill Gates
B: Sergey Brin
C: Larry Page
D: Guido van Rossum
答案: 【 Guido van Rossum】

7、单选题：
‏Python科学计算的基本包是（）。‌
选项：
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Numpy】

8、单选题：
‍以下Python包中，绘图功能最强大的是（）。‏
选项：
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Matplotlib】

9、单选题：
以下Python包中，最适合用于机器学习的是（）。
选项：
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Scikit-learn】

10、单选题：
‍以下Python包中，提供了DataFrame数据类型的是（）。‎
选项：
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Pandas】

11、单选题：
‎为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python安装方式为（）。‏
选项：
A: 直接下载Python安装
B: 通过Anaconda安装
C: 通过浏览器查找处理过的Python安装包
D: 直接安装Pycharm
答案: 【通过Anaconda安装】

12、多选题：
‎下列对学生的描述属性中，标称属性的属性是：‍
选项：
A: 头发颜色
B: 婚姻状况
C: 身高
D: 学号
答案: 【头发颜色;
婚姻状况;
学号】

13、多选题：
‏下列哪些指标可以度量数据的离散趋势度量：‍
选项：
A: 极差
B: 四分位数
C: 四分位数极差
D: 五数概括
答案: 【极差;
四分位数;
四分位数极差;
五数概括】

14、多选题：
‍在探索性数据分析中，认为最有代表性，最能反映数据重要特征的五数概括,包括：‎
选项：
A: 中位数Q2
B: 四分位数Q1
C: 四分位数Q3
D: 最小值
E: 最大值
答案: 【中位数Q2;
四分位数Q1;
四分位数Q3;
最小值;
最大值】

15、判断题：
‏在文献中，属性、维、特征和变量通常可以互换地使用。‍
选项：
A: 正确
B: 错误
答案: 【正确】

16、判断题：
二元属性是一种特殊的标称属性，分为对称和不对称两种。‏
选项：
A: 正确
B: 错误
答案: 【正确】

17、判断题：
‌序数属性的值存在有意义的序。相邻两者之间的差是已知的。‍
选项：
A: 正确
B: 错误
答案: 【错误】

18、判断题：
‌如果属性不是离散的，则它是连续的。
选项：
A: 正确
B: 错误
答案: 【正确】

19、判断题：
‎四分位数极差（IQR）是第1个和第2个四分位数之间的距离。‏
选项：
A: 正确
B: 错误
答案: 【错误】

20、判断题：
‌盒图用来考察两个属性之间是否存在正相关和负相关。
选项：
A: 正确
B: 错误
答案: 【错误】

21、判断题：
‎对于非对称的二元属性，两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义，其中负匹配数t被认为是不重要的，因此在计算时可以忽略。‏
选项：
A: 正确
B: 错误
答案: 【正确】

22、判断题：
‍一般来说数据库中行对应于数据对象，而列对应于属性。‎
选项：
A: 正确
B: 错误
答案: 【正确】

23、判断题：
‌相异性矩阵又称对象-对象结构，存放n个对象两两之间的邻近度。‍
选项：
A: 正确
B: 错误
答案: 【正确】

24、判断题：
在计算混合类型属性的相异性时，一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上，实现在单个相异性矩阵中进行计算。‏
选项：
A: 正确
B: 错误
答案: 【正确】

25、填空题：
‏为了抵消少数极端值对均值计算的影响，我们可以使用。‏
答案: 【截尾均值】

26、填空题：
‍中列数是数据集的最大值和的平均值。
答案: 【最小值】

27、填空题：
‎给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的欧氏距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】‌
答案: 【 4.1】

28、填空题：
‍给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的曼哈顿距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】‏
答案: 【 7】

29、填空题：
‌给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的上确界距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】‎
答案: 【 3】

30、填空题：
‍x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1)，使用余弦相似度公式计算这两个向量之间的相似性等于。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】‌
答案: 【 0.9】

第三单元数据预处理

第三单元测验

1、单选题：
运行以下代码‏from sklearn.datasets import load_iris‏iris_data = load_iris()‏iris_data.data.shape‏输出结果为(150, 4)。则表示iris数据集包括样本个数为（）。‏
选项：
A: 150
B: 4
C: 600
D: 154
答案: 【 150】

2、单选题：
运行以下代码‌from sklearn.datasets import load_iris‌iris_data = load_iris()‌iris_data.data.shape‌输出结果为(150, 4)。则表示iris数据集包括样本特征数为（）。‌
选项：
A: 150
B: 4
C: 600
D: 154
答案: 【 4】

3、单选题：
在Numpy包中，计算中位数的函数为（）。‍
选项：
A: numpy.mean()
B: numpy.median()
C: numpy.std()
D: numpy.var()
答案: 【 numpy.median() 】

4、单选题：
‏在Numpy包中，计算标准差的函数为（）。‍
选项：
A: numpy.mean()
B: numpy.median()
C: numpy.std()
D: numpy.var()
答案: 【 numpy.std() 】

5、单选题：
给定df是一个DataFrame对象，对df所有字段进行描述性统计，可以利用的方法为（）。‌
选项：
A: df.summary()
B: df.statistics()
C: df.mean()
D: df.describe()
答案: 【 df.describe() 】

6、单选题：
‍运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制饼状图，需要利用的函数为（）。‍
选项：
A: plt.bar()
B: plt.pie()
C: plt.plot()
D: plt.hist()
答案: 【 plt.pie()】

7、单选题：
‏运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制折线图，需要利用的函数为（）。‎

剩余75%内容付费后可查看