第一单元 导言

第一单元测验

1、单选题:
‎数据挖掘又称从数据中发现知识,后者英文简称为(  )。‌
选项:
A: KPP
B: KDP
C: KDD 
D: KPD
答案: 【 KDD 

2、单选题:
‍数据挖掘又称从数据中发现知识,前者英文简称为(  )。‍
选项:
A: KPP
B: DM
C: KDD
D: DD
答案: 【 DM

3、单选题:
‍一般数据挖掘的流程顺序,下列正确的是( )。‌‍①选择数据挖掘的技术、功能和合适的算法‌‍②选择数据,数据清洗和预处理‌‍③了解应用领域,了解相关的知识和应用目标‌‍④寻找感兴趣的模式、模式评估、知识表示‌‍⑤创建目标数据集‌
选项:
A: ③④①⑤②
B: ⑤④②①③
C: ③②⑤①④
D: ③⑤②①④
答案: 【 ③⑤②①④

4、单选题:
​结构化的数据是指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。‏
选项:
A: 文档 
B: 二维表格
C: 图像 
D: 声音
答案: 【 二维表格

5、单选题:
​数值预测用于连续变量的取值,常用的预测方法是( )。‎
选项:
A: 回归分析 
B: 聚类
C: 关联 
D: 分类
答案: 【 回归分析 

6、单选题:
‌下列应用场景不属于分类的是( )。‏
选项:
A: 对信用卡申请者判断其信誉高低
B: 医生根据患者的症状判断所患疾病类型
C: 推广新产品时预测已有客户是否对新产品感兴趣
D: 为了解用户特点,公司将客户分群
答案: 【 为了解用户特点,公司将客户分群

7、多选题:
​数据挖掘包括下面哪些方法( )。​
选项:
A: 分类
B:  聚类
C: 关联
D:  异常发现 
答案: 【 分类;
 聚类;
关联;
 异常发现 

8、多选题:
‍数据挖掘和哪些学科领域有关系( )。​
选项:
A: 统计
B: 机器学习
C: 数据库
D: 优化 
答案: 【 统计;
机器学习;
数据库;
优化 

9、判断题:
‌聚类针对有标签的数据。‌
选项:
A: 正确
B: 错误
答案: 【 错误

10、判断题:
‌分类和回归都可用于预测,分类的输出是离散的类别值。​
选项:
A: 正确
B: 错误
答案: 【 正确

11、判断题:
‍分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。‌
选项:
A: 正确
B: 错误
答案: 【 错误

12、判断题:
‍序列分析经常会用在购物篮分析中。‌
选项:
A: 正确
B: 错误
答案: 【 错误

13、判断题:
‏关联分析是数据分析中常用的分析方法。‍
选项:
A: 正确
B: 错误
答案: 【 正确

14、填空题:
‎在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和         技术。‏
答案: 【 数据挖掘

15、填空题:
‌在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是       技术和数据挖掘技术。‏
答案: 【 数据仓库

16、填空题:
‏从存储方式对数据类型进行分类,可分为          数据和          数据。(输入两个位置的答案时,以一个空格作为分隔符)‍
答案: 【 结构化 非结构化

17、填空题:
‌预测的模型构建需要          来进行分析。‎
答案: 【 历史数据

18、填空题:
​        就是根据有类别的数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。‎
答案: 【 分类

第二单元 认识数据

第二章单元测验

1、单选题:
‏下列对学生相关属性描述中,不是标称属性的是( )。‎
选项:
A: 头发颜色
B: 婚姻状况
C: 身高
D: 学号
答案: 【 身高

2、单选题:
‎下列哪些选项能表示序数属性的数据集中趋势度量( )。‌
选项:
A: 众数
B: 均值
C: 四分位数
D: 标准差
答案: 【 众数

3、单选题:
​(    )可以观察从一个分布到另一分布是否有漂移。‌
选项:
A: 直方图
B: 散点图
C: 盒图
D: 分位数-分位数图
答案: 【 分位数-分位数图

4、单选题:
‎4人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是( )。‍姓名‍帽子颜色‍上衣颜色‍裤子颜色‍鞋子颜色‍围巾颜色‍张三‍红‍蓝‍蓝‍绿‍红‍李四‍红‍蓝‍蓝‍红‍粉‍王五‍黄‍绿‍蓝‍绿‍红‍孙六‍蓝‍蓝‍蓝‍红‍粉‍‎‍
选项:
A: 1/5
B: 2/5
C: 3/5
D: 4/5
答案: 【 4/5

5、单选题:
‌度量作为一种测度,满足以下哪些条件:‎
选项:
A: 同一性
B: 对称性
C: 三角不等式
D: 以上均是
答案: 【 以上均是

6、单选题:
‌Python语言在创始人是( )。‎
选项:
A: Bill Gates
B: Sergey Brin
C: Larry Page
D: Guido van Rossum
答案: 【 Guido van Rossum

7、单选题:
​Python科学计算的基本包是( )。‎
选项:
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Numpy

8、单选题:
‎以下Python包中,绘图功能最强大的是( )。‌
选项:
A: Pandas 
B: Scikit-learn 
C: Numpy
D: Matplotlib
答案: 【 Matplotlib

9、单选题:
‌以下Python包中,最适合用于机器学习的是( )。‏
选项:
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Scikit-learn

10、单选题:
‎以下Python包中,提供了DataFrame数据类型的是( )。‏
选项:
A: Pandas
B: Scikit-learn
C: Numpy
D: Matplotlib
答案: 【 Pandas

11、单选题:
‎为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为( )。‌
选项:
A: 直接下载Python安装
B: 通过Anaconda安装
C: 通过浏览器查找处理过的Python安装包
D: 直接安装Pycharm
答案: 【 通过Anaconda安装

12、多选题:
​下列对学生的描述属性中,标称属性的属性是:​
选项:
A: 头发颜色
B: 婚姻状况
C: 身高
D: 学号
答案: 【 头发颜色;
婚姻状况;
学号

13、多选题:
‌下列哪些指标可以度量数据的离散趋势度量:‎
选项:
A: 极差
B: 四分位数
C: 四分位数极差
D: 五数概括
答案: 【 极差;
四分位数;
四分位数极差;
五数概括

14、多选题:
​在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:‏
选项:
A: 中位数Q2
B: 四分位数Q1
C: 四分位数Q3
D: 最小值
E: 最大值
答案: 【 中位数Q2;
四分位数Q1;
四分位数Q3;
最小值;
最大值

15、判断题:
‌在文献中,属性、维、特征和变量通常可以互换地使用。‎
选项:
A: 正确
B: 错误
答案: 【 正确

16、判断题:
‍二元属性是一种特殊的标称属性,分为对称和不对称两种。​
选项:
A: 正确
B: 错误
答案: 【 正确

17、判断题:
‍序数属性的值存在有意义的序。相邻两者之间的差是已知的。‍
选项:
A: 正确
B: 错误
答案: 【 错误

18、判断题:
‎如果属性不是离散的,则它是连续的。‎
选项:
A: 正确
B: 错误
答案: 【 正确

19、判断题:
‍四分位数极差(IQR)是第1个和第2个四分位数之间的距离。‏
选项:
A: 正确
B: 错误
答案: 【 错误

20、判断题:
‏盒图用来考察两个属性之间是否存在正相关和负相关。‏
选项:
A: 正确
B: 错误
答案: 【 错误

21、判断题:
‎对于非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义,其中负匹配数t被认为是不重要的,因此在计算时可以忽略。​
选项:
A: 正确
B: 错误
答案: 【 正确

22、判断题:
‍一般来说数据库中行对应于数据对象,而列对应于属性。​
选项:
A: 正确
B: 错误
答案: 【 正确

23、判断题:
‏相异性矩阵又称对象-对象结构,存放n个对象两两之间的邻近度。‌
选项:
A: 正确
B: 错误
答案: 【 正确

24、判断题:
‍在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。‍
选项:
A: 正确
B: 错误
答案: 【 正确

25、填空题:
‏为了抵消少数极端值对均值计算的影响,我们可以使用       。‍
答案: 【 截尾均值

26、填空题:
‏中列数是数据集的 最大值 和       的平均值。‏
答案: 【 最小值

27、填空题:
‍给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的欧氏距离          。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】‎
答案: 【 4.1

28、填空题:
‌给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的曼哈顿距离          。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】‍
答案: 【 7

29、填空题:
‏给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的上确界距离          。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】‏
答案: 【 3

30、填空题:
‌x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式计算这两个向量之间的相似性等于         。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】‍
答案: 【 0.9

第三单元 数据预处理

第三单元测验

1、单选题:
‎运行以下代码‎‎from sklearn.datasets import load_iris‎‎iris_data = load_iris()‎‎iris_data.data.shape‎‎输出结果为(150, 4)。则表示iris数据集包括样本个数为(  )。‎
选项:
A: 150
B: 4
C: 600
D: 154
答案: 【 150

2、单选题:
‌运行以下代码‎‌from sklearn.datasets import load_iris‎‌iris_data = load_iris()‎‌iris_data.data.shape‎‌输出结果为(150, 4)。则表示iris数据集包括样本特征数为(  )。‎
选项:
A: 150
B: 4
C: 600
D: 154
答案: 【 4

3、单选题:
‌在Numpy包中,计算中位数的函数为( )。‏
选项:
A: numpy.mean()
B: numpy.median() 
C: numpy.std()
D: numpy.var()
答案: 【 numpy.median() 

4、单选题:
‍在Numpy包中,计算标准差的函数为( )。‌
选项:
A: numpy.mean() 
B: numpy.median() 
C: numpy.std() 
D: numpy.var()
答案: 【 numpy.std() 

5、单选题:
‍给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为( )。‎
选项:
A: df.summary() 
B: df.statistics() 
C: df.mean() 
D: df.describe() 
答案: 【 df.describe() 

6、单选题:
​运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制饼状图,需要利用的函数为( )。‌
选项:
A: plt.bar() 
B: plt.pie()
C: plt.plot()
D: plt.hist()
答案: 【 plt.pie()

7、单选题:
‍运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制折线图,需要利用的函数为( )。‎
选项:
A: plt.bar()
B: plt.pie()
C: plt.plot() 
D: plt.hist()
答案: 【 plt.plot() 

8、单选题:
‌运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制直方图,需要利用的函数为( )。​
选项:
A: plt.bar()
B: plt.pie() 
C: plt.plot()
D: plt.hist()
答案: 【 plt.hist()

9、单选题:
‌运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制散点图,需要利用的函数为( )。‌
选项:
A: plt.bar() 
B: plt.scatter() 
C: plt.plot()
D: plt.hist()
答案: 【 plt.scatter() 

10、单选题:
‎使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是( )。‎
选项:
A: 80
B: 85
C: 90
D: 95
答案: 【 90

11、单选题:
‎使用零均值规范化方法,年收入属性的均值为65,标准差为12,则年收入59万元规范化后为( )。‏
选项:
A: -0.5
B: -0.2
C: 0.3

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注