大学MOOC 探索数据的奥秘(南京大学)1449346162 最新慕课完整章节测试答案

第三讲数据搜集与准备

1-3单元测验

1、单选题：
人类探索世界的第四科学范式是指‏
选项：
A: 实验
B: 理论
C: 计算
D: 数据科学
答案: 【数据科学】

2、单选题：
‏以下关于大数据的特点描述，错误的是
选项：
A: 大数据是指体量非常大的结构化数据
B: 大数据具有种类繁多、速度快时效高的特点
C: 大数据的价值密度相对较低
D: 数据量大到常常需要并行计算处理
答案: 【大数据是指体量非常大的结构化数据】

3、单选题：
‎以下关于数据科学的说法，你认为正确的是‎
选项：
A: 数据科学其实就是统计学
B: 数据科学就是机器学习
C: 数据科学就是传统意义的“科学”，不必过多考虑工程应用
D: 数据科学涉及多学科与工程应用的融合与交叉
答案: 【数据科学涉及多学科与工程应用的融合与交叉】

4、单选题：
‏一个完整的数据科学项目，应起始于‏
选项：
A: 问题的确定
B: 数据搜集
C: 建立高大上的模型
D: 目标制定
答案: 【问题的确定】

5、单选题：
关于模型的评价，以下说法中不正确的是：‌
选项：
A: 模型采用什么样的评价指标和具体的模型类型密切相关
B: 对于一个有效的数据科学模型，其评价指标需优于以往实现同类任务的模型所实现的指标
C: 在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可
D: 分类模型的性能评价常规采用混淆矩阵
答案: 【在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可】

6、单选题：
‍又到了大学新生入学的时间。你作为学生会中的老干部，很荣幸领到了一项为新生匹配舍友的任务，每四个新生同住一间宿舍。有无穷活力的你，决定利用你所了解的数据科学来实现自动匹配，让个性、爱好相似的人成为舍友。请问，从数据科学的观点，这是一个什么问题？‍
选项：
A: 分类
B: 聚类
C: 关联化
D: 特征提取
答案: 【聚类】

7、单选题：
一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？‍
选项：
A: 分类
B: 关联化
C: 特征提取
D: 预测
答案: 【关联化】

8、多选题：
‏以下哪些技术支撑了现今的数据时代？‌
选项：
A: 传感技术
B: 互联网与通信技术
C: 存储技术
D: 航天技术
答案: 【传感技术;
互联网与通信技术;
存储技术】

9、多选题：
‎以下哪些是数据？‏
选项：
A: 你听讲座时的录音文件
B: 十字路口的监控视频
C: 传感器采集到的你的生命体征信息
D: 你在朋友圈里发布的动态
答案: 【你听讲座时的录音文件;
十字路口的监控视频;
传感器采集到的你的生命体征信息;
你在朋友圈里发布的动态】

10、多选题：
以下说法正确的是：‎
选项：
A: 问题和目标，都涉及两个层面：用户层面和数据科学层面。
B: 用户层面我们面临的一般是一个现实世界中的具体问题。
C: 用户层面的问题与目标涉及到最后项目的验收，因此一旦明确，也就指出了我们努力的方向和路径。
D: 数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。
答案: 【问题和目标，都涉及两个层面：用户层面和数据科学层面。;
用户层面我们面临的一般是一个现实世界中的具体问题。;
数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。】

11、多选题：
‎“张大妈服用我们的产品治好了多年的老寒腿”，为什么不能作为产品有效的科学依据？‍
选项：
A: 样本容量太小
B: 存在抽样偏差
C: 未考虑混杂因素
D: 单个个体不能代表总体
答案: 【样本容量太小;
存在抽样偏差;
未考虑混杂因素;
单个个体不能代表总体】

12、判断题：
‌一个数据科学项目，可能涉及的人员包括项目出资方、客户（或用户）、数据科学家、数据架构师和运营工程师，不同的角色有不同任务，大家各有其专业领域，各司其职即可，不要相互影响。‎
选项：
A: 正确
B: 错误
答案: 【错误】

13、判断题：
现在的模型功能非常强大，所以拿到数据以后，可以直接建模，让模型自动化分析。
选项：
A: 正确
B: 错误
答案: 【错误】

14、判断题：
明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设。‍
选项：
A: 正确
B: 错误
答案: 【正确】

15、判断题：
根据前提假设，只要能设计出对应的数据构成，我们就可以进入数据收集。
选项：
A: 正确
B: 错误
答案: 【错误】

16、判断题：
不同的假设很可能会涉及不同的数据，最终导致不同的研究内容。‏
选项：
A: 正确
B: 错误
答案: 【正确】

17、判断题：
‌确定数据的构成，一般是指建立一张不可再分的二维表。表中一行代表一个样本，一列代表样本的一个特征或属性。‍
选项：
A: 正确
B: 错误
答案: 【正确】

18、判断题：
传统统计学认为样本容量大于30就具备统计学意义了，所以大数据时代的数据，哪怕不是全部数据，也可以有效代表总体。‌
选项：
A: 正确
B: 错误
答案: 【错误】

19、判断题：
‎抽样偏差（Sampling bias）是指从总体中非随机性抽样带来的系统性错误。‌
选项：
A: 正确
B: 错误
答案: 【正确】

20、判断题：
‏产生“辛普森悖论”的主要原因是没有排除混杂因素的影响。‏
选项：
A: 正确
B: 错误
答案: 【正确】

21、判断题：
‏所谓混杂因素，是指那些不是我们的考察对象，但却可能对结果造成影响的因素。‍
选项：
A: 正确
B: 错误
答案: 【正确】

22、填空题：
‌在一个数据科学项目中，最核心的人员是（）‏
答案: 【数据科学家】

23、填空题：
‌明确问题与目标，都包含两个层面：现实层面和（）层面‎
答案: 【数据科学】

24、填空题：
样本真实反映总体的两个前提条件是：1.样本容量足够大；2.（）‏
答案: 【无偏】

25、填空题：
样本真实反映总体的两个前提条件是：1.（）；2.无偏抽样
答案: 【样本容量足够大##%_YZPRLFH_%##样本足够多##%_YZPRLFH_%##样本够多】

剩余75%内容付费后可查看

第三讲 数据搜集与准备

1-3单元测验

发表评论 取消回复

第三讲数据搜集与准备

发表评论取消回复