第一章 单元测试

1、单选题:
下列哪一项最准确地描述了数据挖掘的核心目标?( )。
选项:
A:从大规模数据中提取隐含的、新颖的、潜在有用的信息和模式。
B:设计高效的数据库存储结构以优化查询速度。
C:将原始数据转换为可视化图表,以便人工分析。
D:通过人工标注数据,训练高精度机器学习模型。
答案: 【从大规模数据中提取隐含的、新颖的、潜在有用的信息和模式。

2、单选题:
主成分分析法是解决原始数据中存在的哪个问题的常用方法( )。
选项:
A:数据高维
B:数据不一致
C:数据异常
D:数据不平衡
答案: 【数据高维

3、多选题:
CRISP-DM过程模型中,以下哪几项属于数据准备环节?( )
选项:
A:构造数据
B:集成数据
C:清洗数据
D:描述数据
E:选择数据
答案: 【构造数据;
集成数据;
清洗数据;
选择数据

4、多选题:
关于数据挖掘的主要功能,以下哪些说法是正确的?( )
选项:
A:偏差检测用于识别数据中的离群点或异常行为。
B:关联规则可以发现数据中的频繁项集,如购物篮分析中的“啤酒与尿布”。
C:分类用于预测离散的目标变量,如判断邮件是否为垃圾邮件。
D:数据可视化是数据挖掘的核心功能之一,用于直接生成预测模型。
E:聚类是一种无监督学习方法,用于发现数据中的自然分组。
答案: 【偏差检测用于识别数据中的离群点或异常行为。;
关联规则可以发现数据中的频繁项集,如购物篮分析中的“啤酒与尿布”。;
分类用于预测离散的目标变量,如判断邮件是否为垃圾邮件。;
聚类是一种无监督学习方法,用于发现数据中的自然分组。

5、判断题:
Fayyad过程模型从数据入手,到知识结束,是一个非闭环不可逆的过程。( )
选项:
A:对
B:错
答案: 【

第二章 单元测试

1、单选题:
在关联规则挖掘中,"置信度"衡量的是( )。
选项:
A:在前项出现的情况下后项出现的概率
B:前项和后项之间的相关性强度
C:规则中后项单独出现的概率
D:规则中前项和后项同时出现的概率
答案: 【在前项出现的情况下后项出现的概率

2、单选题:
如果{{麦片,酸奶,柚子},{酸奶,西瓜,柚子},{麦片,酸奶,西瓜},{麦片,酸奶,樱桃},{麦片,西瓜,柚子}}为频繁三项集,则通过自连接并剪枝后的候选四项集有( )个。
选项:
A:1
B:3
C:2
D:4
答案: 【1

3、多选题:
关于Apriori算法,以下哪些说法是正确的?( )
选项:
A:算法通过逐层搜索的迭代方法找出所有的频繁项集
B:Apriori算法基于"频繁项集的所有子集也必须是频繁的"这一先验性质
C:提高最小支持度阈值会减少生成的频繁项集数量
D:在候选项集生成时,需要对所有可能的项集组合进行支持度计算
答案: 【算法通过逐层搜索的迭代方法找出所有的频繁项集;
Apriori算法基于"频繁项集的所有子集也必须是频繁的"这一先验性质;
提高最小支持度阈值会减少生成的频繁项集数量

4、多选题:
关于关联规则挖掘,以下哪些说法是正确的?( )
选项:
A:关联规则挖掘只能应用于购物篮分析,不能用于其他领域
B:提升度大于1表示前项和后项正相关
C:在超市购物分析中,"啤酒→尿布"和"尿布→啤酒"是两条不同的关联规则
D:置信度为1的规则一定是强关联规则
答案: 【提升度大于1表示前项和后项正相关;
在超市购物分析中,"啤酒→尿布"和"尿布→啤酒"是两条不同的关联规则

5、判断题:
如果{打印机、水笔、U盘}是频繁项集,则{打印机、U盘}一定是频繁项集。( )
选项:
A:对
B:错
答案: 【

发表评论

电子邮件地址不会被公开。 必填项已用*标注