第一单元机器学习概论

分类分析

1、单选题:
‍建立一个模型,根据已知的多个变量值来预测其他某个变量值属于数据挖掘的哪一类任务?‎‍‎
选项:
A: 分类规则
B: 回归分析
C: 聚类 
D: 信息检索
答案: 【 回归分析

分类预测

1、多选题:
‍机器学习的预测建模任务主要包括哪几大类问题? ​‍​
选项:
A: 关联分析
B: 回归 
C: 模式发现
D: 分类
答案: 【 关联分析;
回归 ;
分类

数据分析人员的认识

1、单选题:
‍有关数据分析人员下面说法错误的是?​‍​‍​
选项:
A: 需要了解一定的相关业务知识
B: 需要熟悉机器学习的流程、方法和工具
C: 需要一定的数据分析实际项目训练
D: 只要进行相关的培训就能胜任实际机器学习工作
答案: 【 只要进行相关的培训就能胜任实际机器学习工作

数据分析师的要求

1、多选题:
‍机器学习工程师需要掌握下面哪些知识和技能?‎‍‎
选项:
A: 了解机器学习每个阶段需要完成的工作
B: 对数据常见的质量问题进行预处理
C: 必须是精通业务的专家
D: 熟悉常用的机器学习算法
答案: 【 了解机器学习每个阶段需要完成的工作;
对数据常见的质量问题进行预处理;
熟悉常用的机器学习算法

数据质量

1、单选题:
‍有关数据质量不正确的说法是?​‍​‍​
选项:
A: 错误的数据将可能产生有害于决策的结果
B: 因为数据量很大,所以数据质量差一些也对机器学习没多大影响
C: 数据预处理的重要目的是提高机器学习结果的质量
D: 从业务系统提取的脏数据需要预处理才能进行建模工作
答案: 【 因为数据量很大,所以数据质量差一些也对机器学习没多大影响

数据质量问题

1、多选题:
‌对于机器学习中的原始数据,存在的问题可能有 ?​‌​‌​
选项:
A: 错误值
B: 重复 
C: 异常值
D: 不完整 
答案: 【 错误值;
重复 ;
异常值 ;
不完整 

数据问题的理解

1、单选题:
‌有关数据质量正确的说法是?‏‌‏‌‏
选项:
A: 错误的数据也可能产生有用的结果
B: 数据预处理的重要目的之一是提高机器学习结果的质量
C: 因为分析的数据量很大,有些噪声即使不去除也对机器学习没多大影响
D: 数据质量不需要对业务理解
答案: 【 数据预处理的重要目的之一是提高机器学习结果的质量

数据预处理

1、单选题:
‌数据预处理对机器学习是很重要的,下面说法正确的是?‎‌‎‌‎
选项:
A: 数据预处理的效果直接决定了机器学习的结果质量
B: 数据噪声对神经网络的训练没什么影响
C: 对于有问题的数据都直接删除即可
D: 预处理不需要花费大量的时间
答案: 【 数据预处理的效果直接决定了机器学习的结果质量

机器学习分析师的能力要求

1、多选题:
​一个机器学习工程师需要掌握下面哪些知识和技能?‏​‏
选项:
A: 需要有一定的编程能力并熟悉某种机器学习的工具
B: 熟悉常用的机器学习算法
C: 了解数据常见的数据质量问题
D: 需要了解一定的业务知识
答案: 【 需要有一定的编程能力并熟悉某种机器学习的工具;
熟悉常用的机器学习算法;
了解数据常见的数据质量问题;
需要了解一定的业务知识

机器学习工程师的要求

1、单选题:
‎有关机器学习工程师下面说法正确的是?‎‎‎‎‎
选项:
A: 不需要了解一定的相关业务知识
B: 不需要熟悉数据的提取和预处理
C: 需要一定的数据分析实际项目训练
D: 培训后就能胜任实际数据分析
答案: 【 需要一定的数据分析实际项目训练

机器学习概述

1、单选题:
‎下面有关机器学习的认识是错误的?‌
选项:
A: 机器学习可以在一定程度上模仿人的学习,并能增强人的决策能力。
B: 机器学习算法很多,后期出现的算法比早期出现的算法性能好。
C: 深度学习是机器学习的一类高级算法,可以处理图像、声音和文本等复杂的数据。
D: 高质量的数据、算力和算法对一个机器学习项目是必不可少的。
答案: 【 机器学习算法很多,后期出现的算法比早期出现的算法性能好。

2、单选题:
​下面哪种结果不是利用机器学习算法从数据中得到的?​
选项:
A: 规则
B: 神经网络
C: 回归模型
D: 常识
答案: 【 常识

3、单选题:
‍有关机器学习的过程认识正确的是?‌
选项:
A: 机器学习的问题一般都是用户给定的,因此不需要与用户交流和调研。
B: A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
C: 机器学习得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
D: 机器学习一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
答案: 【 机器学习得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。

4、单选题:
‏有关数据质量的认识正确的是?‍
选项:
A: 各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
B: 有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
C: 数据预处理就是删除有问题的数据。
D: 数据质量一般可以由机器自动完成,不需要数据分析人员参与。
答案: 【 各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。

5、单选题:
‎下面哪个方面不是机器学习的应用领域?‍
选项:
A: 通过智能音箱打开电视节目
B: 银行的风控模型
C: 为一幅画配一幅标题
D: 到数据库查询满足条件的文章
答案: 【 到数据库查询满足条件的文章

6、多选题:
‎以下哪些情景可以使用机器学习技术?​
选项:
A: 保险公司的骗保分析
B: 为携程在线旅游公司的客户推荐度假产品
C: 预测电商网站某商品未来的销售量
D: 统计某零售超市一个月内哪类牛奶的销量最大
E: 预测某移动运营商客户转移到竞争对手的可能性
答案: 【 保险公司的骗保分析;
为携程在线旅游公司的客户推荐度假产品;
预测电商网站某商品未来的销售量;
预测某移动运营商客户转移到竞争对手的可能性

7、多选题:
‍下面有关机器学习正确的说法是?​
选项:
A: 与数据挖掘不同,机器学习的数据都是来自于真实的业务系统。
B: 机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
C: 每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。
D: 在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。
E: 机器学习就是简单的统计分析。
答案: 【 机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。;
每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。;
在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。

8、多选题:
‌有关机器学习的流派以下说法正确的是?​
选项:
A: 早期的一些流派算法基本没什么用了。
B: 不同的流派各有优势,可能处理不同的问题和数据。
C: 现实中一个复杂的问题可以要综合几个流派的算法。
D: 机器学习的流派使用不同的方法,共同促进机器学习的发展。
答案: 【 不同的流派各有优势,可能处理不同的问题和数据。;
现实中一个复杂的问题可以要综合几个流派的算法。;
机器学习的流派使用不同的方法,共同促进机器学习的发展。

9、判断题:
​卷积深度学习算法在图像识别领域一定优于支持向量机等传统分类算法的性能。‏
选项:
A: 正确
B: 错误
答案: 【 错误

10、判断题:
​目前的机器学习算法只是对人的学习一定程度的模拟,并非人的真正学习机理。‎
选项:
A: 正确
B: 错误
答案: 【 正确

11、填空题:
‏机器学习的算法除了监督学习算法外,还包括哪些类型的算法(答案之间用一个空格隔开)‌
答案: 【 非监督学习##%_YZPRLFH_%##加强学习

12、填空题:
​贝叶斯网络属于监督学习、无监督学习和加强学习的哪一种?‏
答案: 【 监督学习

13、填空题:
‎根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要使用监督学习、无监督学习中的哪一种方法?‍
答案: 【 监督学习

14、填空题:
‏监督学习包括分类等,还有哪些机器学习方法属于监督学习?至少再列出1个​
答案: 【 回归

15、填空题:
‎请从左到右列出深度学习、人工智能、机器学习、神经网络等概念的包含关系(不同概念用空格隔开,概念范围从小到大)‎
答案: 【 深度学习 神经网络 机器学习 人工智能

机器学习的多学科性

1、多选题:
‍以下哪些学科和机器学习有密切联系?‍‍ ‍
选项:
A:  人机交互技术
B:  可视化技术
C:  高等数学
D:  统计理论
答案: 【  可视化技术;
 高等数学;
 统计理论

2、多选题:
​下列哪些分析不需要机器学习?​​​​ ​
选项:
A:  SQL查询
B:  预测移动运营商用户未来使用的网络流量
C:  比较不同移动运营商用户对漫游业务的使用量
D:  统计移动运营商的用户在某段时间对短信的使用数量
答案: 【  SQL查询;
 比较不同移动运营商用户对漫游业务的使用量;
 统计移动运营商的用户在某段时间对短信的使用数量

机器学习的概念

1、单选题:
​以下说法正确的是?‌​‌​‌
选项:
A: 机器学习的目的在于从数据中发现有用的信息。
B: 机器学习的主要任务是从数据中发现潜在的规律,从而能更好地辅助决策或实现机器自动行动。
C: 机器学习只是对计算机仿真方法产生的数据进行模式的发掘
D: 机器学习就是用可视化方法展示数据中的多维度信息
答案: 【 机器学习的主要任务是从数据中发现潜在的规律,从而能更好地辅助决策或实现机器自动行动。

机器学习的正确认识

1、单选题:
​有关机器学习预处理不正确的说法是?​​​​ ​
选项:
A:  预处理是机器学习一个不可少的环节
B:  预处理只要做一次就可以
C:  预处理涉及数据的清洗、格式转换、空值的填补等很多工作
D:  预处理的过程可能本身就是一个机器学习过程
答案: 【  预处理只要做一次就可以

机器学习的理解

1、单选题:
‍以下有关机器学习理解不正确的是 ?‌‍‌‍‌
选项:
A: 查询大量的操作数据去发现新的信息
B: 从大量的业务数据中分析有兴趣的新颖知识辅助决策的过程
C: 机器学习的结果不一定是能辅助决策
D: 需要借助统计学或机器学习的一些算法
答案: 【 查询大量的操作数据去发现新的信息

机器学习的认识

1、单选题:
​有关机器学习过程正确的说法是?‏​‏​‏
选项:
A: 机器学习是一个顺序的过程
B: 机器学习的结果只要正确就可以使用
C: 机器学习就是根据用户的需求从业务数据库提取数据后直接输入到机器算法得到结果
D: 机器学习最终的结果需要经过实验或业务专家的认可才可投入使用
答案: 【 机器学习最终的结果需要经过实验或业务专家的认可才可投入使用

机器学习的适用场合

1、多选题:
‌下列哪些分析需要机器学习?‌‌‌
选项:
A: 预测移动运营商用户未来使用的网络流量
B: 比较不同移动运营商用户对漫游业务的使用量
C: 寻找移动运营商用户对某类套餐使用的潜在客户
D: 统计移动运营商的用户在某段时间对短信的使用数量
答案: 【 预测移动运营商用户未来使用的网络流量;
寻找移动运营商用户对某类套餐使用的潜在客户

机器学习的项目问题

1、多选题:
有关机器学习技术实用化下面正确的说法?‍‎
选项:
A: 数据分析人员不需要懂业务
B: 需要参与实际的项目才能深刻理解数据分析的思路和方法
C: 到大学读个学位就可以了
D: 机器学习技术的学习不是简单掌握一些算法和工具,还需要在实践中摸索分析思路
答案: 【 需要参与实际的项目才能深刻理解数据分析的思路和方法;
机器学习技术的学习不是简单掌握一些算法和工具,还需要在实践中摸索分析思路

机器学习算法的选择

1、单选题:
‌移动运营商对客户进行细分,以设计套餐和营销活动可以使用下面哪种机器学习方法?‎‌‎
选项:
A: 贝叶斯分类器
B: 关联方法
C: 聚类算法
D: 多层前馈网络
答案: 【 聚类算法

机器学习过程的理解

1、单选题:
​机器学习项目实施的过程中错误的说法是?‏​‏​ ‏
选项:
A:  机器学习合适算法的选择在分析前一般很难确定
B:  机器学习项目实施是数据分析师的工作,不需要用户参加
C:  很多机器学习工具遵循一定的机器学习步骤
D:  机器学习的过程不是简单的
答案: 【  机器学习项目实施是数据分析师的工作,不需要用户参加

机器学习项目的实施问题

1、多选题:
‏实施机器学习项目下面说法错误的是?‏‏‏‏‏
选项:
A: 数据是有时效性的,因此机器学习得到的规律也有时效性的
B: 做机器学习项目一劳永逸,不必考虑数据的更新
C: 可以直接使用同类公司机器学习的结果
D: 机器学习的过程需要不断调优才可能达到理想的结果
答案: 【 做机器学习项目一劳永逸,不必考虑数据的更新;
可以直接使用同类公司机器学习的结果

机器学习预处理

1、单选题:
‎以下哪个步骤不是机器学习所需的预处理工作?‌‎‌
选项:
A: 数值属性的标准化
B: 变量相关性分析
C: 异常值分析
D: 与用户讨论分析需求
答案: 【 与用户讨论分析需求

神经网络的应用

1、单选题:
‌移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适?​‌​
选项:
A: 一元线性回归分析
B: 关联方法
C: 聚类算法
D: 多层前馈网络
答案: 【 多层前馈网络

算法的基本理解

1、单选题:
​某运营商分析客户话务行为数据后发现,使用短信比较多的客户月上网时间也比较长,这种属于数据挖掘的哪类问题?‎
选项:
A:  关联规则发现
B:  聚类
C:  分类
D: 决策树
答案: 【  关联规则发现

算法选择

1、单选题:
‏分析某网上客户的购买数据后发现,购买数据挖掘书籍的用户在同一次购物还会买大数据方面的书籍,这个问题可用哪种机器学习方法?‏
选项:
A:  关联分析
B:  聚类
C:  文本处理
D: 贝叶斯分类
答案: 【  关联分析

第二单元分类算法

主分量分析的理解

1、单选题:
​下面关于主分量分析PCA的描述中错误的是?‍​‍
选项:
A: PCA是从原空间中顺序找一组相互正交的坐标轴
B: 原始数据中方差最大的方向是第一个坐标轴
C: 基于特征值分解协方差矩阵实现PCA算法
D: 奇异值分解只能适用于指定维数的矩阵分解
答案: 【 奇异值分解只能适用于指定维数的矩阵分解

决策树剪枝

1、单选题:
‎下面有关决策树剪枝的说法错误的是?‎
选项:
A: 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性。
B: 决策树剪枝可以放在决策树的构造过程(预剪枝),也可以等决策树模型全部建立后再做(后剪枝)。
C: 决策树剪枝的依据是看某层某个非叶节点转换成叶节点后,训练样本集的检验准确度是否提升。
D: 决策树剪枝符合Occam剃刀原理(即机器学习模型越简单越好)。
答案: 【 决策树剪枝的依据是看某层某个非叶节点转换成叶节点后,训练样本集的检验准确度是否提升。

决策树和分类

1、单选题:
​使用Gini指数作为决策树分支标准的决策树算法是?‎
选项:
A: ID3算法
B: C4.5算法
C: CART算法
D: CHAID算法
答案: 【 CART算法

2、单选题:
​有关决策树过拟合的说法,错误的是?‌
选项:
A: 决策树的训练样本拟合误差小,但检验样本的泛化误差比较大。
B: 可能是决策树的深度变大了
C: 可以使用剪枝的方法减少决策树的复杂度
D: 当出现过拟合时,因为对训练样本的拟合比较好,因此对新样本的预测效果好。
答案: 【 当出现过拟合时,因为对训练样本的拟合比较好,因此对新样本的预测效果好。

3、单选题:
‎以下哪个指标不能用于决策树的性能评价指标?​
选项:
A: 召回率
B: 准确率
C: 决策树规则的数目
D: ROC曲线下的面积AUC
答案: 【 决策树规则的数目

4、单选题:
‌下面有关随机森林的说法哪个是错误的?‎
选项:
A: 随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
B: 类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
C: 每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
D: 随机森林训练后只需选择性能最好的树最为预测模型。
答案: 【 随机森林训练后只需选择性能最好的树最为预测模型。

5、单选题:
​下面哪种情景更适合使用决策树进行预测?​
选项:
A: 分析客户性别与购物偏好的关系
B: 预测银行客户的流失
C: 股票未来价格的预测
D: 研究微博用户的情感与电影票房的关系
答案: 【 预测银行客户的流失

6、多选题:
​决策树连续属性非监督离散化的常用方法有以下哪些方法?‌
选项:
A: 等宽离散化
B: 等频离散化
C: 最大信息增益率离散化
D: 聚类离散化
答案: 【 等宽离散化;
等频离散化;
聚类离散化

7、多选题:
​下面有关决策树的说法正确的是?‌
选项:
A: 决策树是一种确定分类特征的方法,通过多种不同的分支方法确定属性的重要性。
B: 决策树可以转化为规则的形式,这样利于计算机处理。
C: 决策树一般越复杂性能越好
D: 过拟合可能导致决策树训练失败,难以达到使用要求。
答案: 【 决策树是一种确定分类特征的方法,通过多种不同的分支方法确定属性的重要性。;
决策树可以转化为规则的形式,这样利于计算机处理。;
过拟合可能导致决策树训练失败,难以达到使用要求。

8、多选题:
‌提升法之所以能提高样本分类的正确率,是因为以下哪些原因?‏
选项:
A: 通过多轮分类获得多个分类模型。
B: 每轮生成的模型都会减少错误样本的权重,使得分错的样本能在下一次重点学习。
C: 对新样本预测时采用多轮训练得到的分类模型的预测结果的加权平均值。
D: 通过提高每轮训练得到的分类模型的准确率。
答案: 【 通过多轮分类获得多个分类模型。;
对新样本预测时采用多轮训练得到的分类模型的预测结果的加权平均值。;
通过提高每轮训练得到的分类模型的准确率。

9、多选题:
‎分类算法中下面那些说法是正确的?‏
选项:
A: 作为决策树分支属性的选择方法,信息增益的效果不如Gini指数。
B: 一般而言,分类算法准确率提高,召回率就会下降,因此可以使用F1值作为评价分类算法的综合评价指标。
C: k折交叉校验中的k可以通过实验确定合理的值,常用取10。
D: 对于同一个训练样本集,不同的决策树算法可能得到不同的决策树模型,模型的好坏可以比较检验样本的评价指标确定。
答案: 【 一般而言,分类算法准确率提高,召回率就会下降,因此可以使用F1值作为评价分类算法的综合评价指标。;
k折交叉校验中的k可以通过实验确定合理的值,常用取10。;
对于同一个训练样本集,不同的决策树算法可能得到不同的决策树模型,模型的好坏可以比较检验样本的评价指标确定。

10、多选题:
​如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?‍
选项:
A: 补充或调整样本的选择,并加强样本的预处理。
B: 修改用户的需求。
C: 对算法的选择以及参数的调整进行优化。
D: 采用多种算法组合。
答案: 【 补充或调整样本的选择,并加强样本的预处理。;
对算法的选择以及参数的调整进行优化。;
采用多种算法组合。

11、判断题:
‏欠拟合是对训练样本的拟合程度不够,因此测试样本的准确率也不会高。‍
选项:
A: 正确
B: 错误
答案: 【 正确

12、判断题:
‌判断决策树剪枝的合理性主要看剪枝是否能减少训练的误差。‍
选项:
A: 正确
B: 错误
答案: 【 错误

13、判断题:
‏k折交叉校验增加了分类算法的抗噪能力,也增加了样本的覆盖度,因此可以提高分类的准确度。‏
选项:
A: 正确
B: 错误
答案: 【 正确

14、判断题:
‌不平衡的样本(各类样本的数量明显有差别)的训练结果往往倾向(有利)于类别少的样本,因此需要对不平衡的样本进行预处理,使得各类样本的数量尽量差不多。‌
选项:
A: 正确
B: 错误
答案: 【 错误

15、填空题:
‏度量决策树属性重要性的指标除了信息增益、信息增益率,还有哪些指标?请至少再列1种‍
答案: 【 Gini指数##%_YZPRLFH_%##卡方

16、填空题:
‎C4.5算法针对取值较多的属性,使用了信息增益率作为分支标准减少其影响。那么对于取值比较多的属性,如何减少其取值?​
答案: 【 聚集##%_YZPRLFH_%##上钻##%_YZPRLFH_%##聚类

17、填空题:
‍疾病诊断时,精确率和召回率哪个评价指标需要优先考虑?‍
答案: 【 召回率

18、填空题:
‎对于k折交叉校验,最终模型的评价标准是k轮检验结果的最佳值还是平均值?‏
答案: 【 平均值

19、填空题:
​AdaBoost算法是一种代表性的提升法,其中样本的权重调整考虑了每一轮模型的错误率,还考虑了多轮训练分类模型的什么操作?‌
答案: 【 加权平均

决策树常用算法

1、单选题:
‌以下哪个算法不是基于规则的分类器 ?‌‍‍
选项:
A: ID3
B: C4.5
C: 贝叶斯分类器
D: C5.0
答案: 【 贝叶斯分类器

决策树的结构

1、单选题:
‌决策树中不包含以下哪种结点 ?‏‌‏
选项:
A: 根结点
B: 内部结点
C: 叶结点
D: 主结点
答案: 【 主结点

决策树的认识

1、单选题:
‌有关决策树的分类方法正确的是?‍‌‍‌‍
选项:
A: 决策树不能确定对决策属性起重要影响的变量
B: 决策树可以用于发现多种样本的特征
C: 决策树可用于确定相似的样本
D: 决策树结构越复杂越有效
答案: 【 决策树可以用于发现多种样本的特征

分类的应用

1、单选题:
‏如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?‎‏‎
选项:
A: 关联分析
B: 线性回归分析
C: 聚类分析
D: 决策树 类算法
答案: 【 决策树 类算法

分类算法的认识

1、单选题:
‎从历史的样本分析中分析某个应聘者是否能适合某个岗位,以指导招聘人员选拨新员工,需要以下哪种分析?‏‎‏
选项:
A: 分类分析
B: 回归分析
C: 聚类
D: 内容检索
答案: 【 分类分析

奇异值分解的理解

1、单选题:
‌下面关于奇异值分解(SVD)的描述中错误的是?​‌​
选项:
A: 奇异值分解就是把一个线性变换分解成两个线性变换
B: 奇异值往往对应着矩阵中隐含的重要信息,且重要性

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注