01房价预测与回归问题

房价预测与回归问题单元测验

1、单选题:
‍以下哪个软件包用于矩阵和向量的科学计算?‏
选项:
A: Pandas
B: Matplotlib
C: Seaborn
D: Numpy
答案: 【 Numpy

2、单选题:
​直方图是数值数据分布的精确图形表示。与条形图的区别是:‌
选项:
A: 没有区别
B: 直方图条形的高度等同与条形图长条的长度
C: 条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度宽度均有意义. 
D: 直方图与条形图均可以用于观察数据的正态分布情况
答案: 【 条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度宽度均有意义. 

3、单选题:
​Pandas的read_csv()函数可以读取下列哪种文件:‎​‎
选项:
A:  csv文件
B:  xls或xlsx文件
C: txt文件
D:  data文件
答案: 【  csv文件

4、单选题:
‍语句df_train['SalePrice'].describe()可以描述某个数据列的统计特征,不包括以下哪一项:​
选项:
A: (1) 均值
B: (2) 最大值
C: (3) 标准差
D: (4) 方差
答案: 【 (4) 方差

5、单选题:
‍语句sns.distplot(df_train['SalePrice'])可以绘制房价的直方图,直方图不能观察以下哪个特征:‍
选项:
A: (1) 偏度值
B: (2) 右偏分布
C: (3) 左偏分布
D: (4) 正态分布
答案: 【 (1) 偏度值

6、单选题:
​关于相关矩阵的描述,不正确的是:‌
选项:
A: 相关矩阵是对称矩阵
B: 相关矩阵对角线的值均为1
C: 相关矩阵不能显示相关系数
D:  相关矩阵可以用Seaborn的heatmap函数绘制
答案: 【 相关矩阵不能显示相关系数

7、单选题:
‌语句df_train['SalePrice'] = np.log1p(df_train['SalePrice'])完成随机变量的对数变换,关于函数numpy.log1p(),描述正确的是:‍
选项:
A: (1) 完成log(1 + x)的计算,目的是防止参数x为0的情况
B: (2) 与numpy.log()函数没有区别
C: (3) 与numpy.log10()函数没有区别
D: (4) 与numpy.log2()函数没有区别
答案: 【 (1) 完成log(1 + x)的计算,目的是防止参数x为0的情况

8、单选题:
‎语句combined.drop(['SalePrice'], axis=1, inplace=True)中的drop()函数表示从数据集中删除数据,下面描述不正确的是:‎
选项:
A: (1) drop()函数只能删除列
B: (2) drop()函数可以删除行
C: (3) drop()函数可以一次删除多列或多行
D: (4)参数inplace=True,表示直接在数据集combined上删除
答案: 【 (1) drop()函数只能删除列

9、单选题:
‍关于数据集的标准化,正确的描述是:‏
选项:
A: 标准化有助于加快模型的收敛速度
B: 标准化一定是归一化,即数据集的取值分布在[0,1]区间上
C: 数据集的标准化一定是让标准差变为1
D:  所有的模型建模之前,必须进行数据集标准化
答案: 【 标准化有助于加快模型的收敛速度

10、单选题:
​语句train_test_split(x,y,test_size=.33,random_state=0)将数据集x,y划分为训练集与验证集两部分,描述不正确的是:‍
选项:
A: (1) 参数test_size的含义是验证集的比例大小
B: (2) 参数test_size的含义是训练集的比例大小
C: (3) 参数random_state表示随机划分数据集的随机数种子
D: (4) 特征及x和标签集y同步划分
答案: 【 (2) 参数test_size的含义是训练集的比例大小

11、单选题:
​语句pd.concat([df_train['SalePrice'], df_train['OverallQual']], axis=1)可以将数据合并,不正确的是:​
选项:
A: (1) axis=1表示横向合并
B: (2) axis=0表示纵向合并
C: (3) axis参数可以省略
D: (4) axis参数不可以省略
答案: 【 (4) axis参数不可以省略

12、多选题:
‏缺失数据一般有三种处理方法:‍
选项:
A: (1)删除缺失数据所在的列。
B: (2)删除缺失数据所在的行。
C: (3)对缺失数据补全。
D: (4)置之不理
答案: 【 (1)删除缺失数据所在的列。;
(2)删除缺失数据所在的行。;
(3)对缺失数据补全。

13、多选题:
‌下列哪些语句会返回模型的训练结果:‌
选项:
A: LinearRegression().fit(x_train,y_train)
B: lr_mod.predict(x_train)
C: lasso_mod.fit(x_train,y_train)
D: vote_mod.predict(x_train)
答案: 【 LinearRegression().fit(x_train,y_train);
lasso_mod.fit(x_train,y_train)

14、多选题:
‌下列属于集成学习方法的是:‍
选项:
A: (1) Lasso回归
B: (2) Voting回归
C: (3) Stacking回归
D: (4) ElasticNet回归
答案: 【 (2) Voting回归;
(3) Stacking回归

15、多选题:
‏下列哪些函数语句可以设置坐标轴的刻度:​
选项:
A: (1)plt.xticks()
B: (2)plt.yticks()
C: (3)plt.xlabel()
D: (4)plt.ylabel()
答案: 【 (1)plt.xticks();
(2)plt.yticks()

16、多选题:
‎某种回归模型在训练集上的决定系数为0.96,在验证集上的决定系数为0.80,则说明:‏
选项:
A:  该模型存在过拟合现象
B:  该模型的方差较大
C:  该模型的偏差过大,方差过小
D:  该模型泛化能力较差
答案: 【  该模型存在过拟合现象;
 该模型的方差较大;
 该模型泛化能力较差

17、多选题:
‌离群值的处理方法包括:‍
选项:
A: 对数转换
B: 缩尾
C: 截尾
D: 插值
答案: 【 对数转换;
缩尾;
截尾;
插值

18、判断题:
​相关系数是由统计学家卡尔·皮尔逊提出的统计指标,是研究变量之间线性相关程度的量‎
选项:
A: 正确
B: 错误
答案: 【 正确

19、判断题:
​偏度值为3,峰度值为0,说明随机变量满足标准正态分布。‎
选项:
A: 正确
B: 错误
答案: 【 错误

20、判断题:
‌变量之间的线性关系可以通过散点图观察与分析‎
选项:
A: 正确
B: 错误
答案: 【 正确

21、判断题:
‌岭回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L2正则项,目的是降低方差,提高模型泛化能力。‏
选项:
A: 正确
B: 错误
答案: 【 正确

22、判断题:
‎XGBoost是一种关于梯度增强树的集成学习算法,因此决策树是其底层算法基础,可用于解决回归问题或分类问题。​
选项:
A: 正确
B: 错误
答案: 【 正确

23、判断题:
‎Stacking回归,即堆叠回归。堆叠回归是一种集成学习技术,采用两级回归模型,第一级采用多种回归模型进行独立训练和预测,然后基于各个回归模型的输出(元特征),用第二级的元回归模型进行新的拟合‎
选项:
A: 正确
B: 错误
答案: 【 正确

24、判断题:
‌数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限,这句话表明模型算法不如数据重要‍
选项:
A: 正确
B: 错误
答案: 【 错误

25、判断题:
‎对于回归的含义,一种通俗的解释是数据的分布回归到某种趋势上,回归方法一般用于预测连续型的数据‌
选项:
A: 正确
B: 错误
答案: 【 正确

26、判断题:
‌多重共线性是指线性回归模型的自变量之间存在精确相关关系或高度相关关系导致模型估计失真或者不准确。‎
选项:
A: 正确
B: 错误
答案: 【 正确

27、判断题:
‎训练集与验证集的样本是不同的‍
选项:
A: 正确
B: 错误
答案: 【 正确

28、判断题:
‌Voting回归,即投票回归,是一种集成学习算法,基本原理是集合多种基础回归模型,先由这些基础回归模型各自做出独立预测,再对这些预测结果取平均以形成最终预测。‌
选项:
A: 正确
B: 错误
答案: 【 正确

02人体蛋白图谱与卷积神经网络

第2章单元测验

1、单选题:
‏假定你有一幅300x300的RGB图像,不使用卷积网络,而是采用全连接网络,网络第一层包含100个神经元,每个神经元与输入层是全连接关系,那么网络的第一层将有多少个需要学习训练的参数(包括偏差参数)?‌
选项:
A: 9,000,001
B: 9,000,100
C: 27,000,001
D: 27,000,100
答案: 【 27,000,100

2、单选题:
​假定你有一幅300x300的RGB图像做为输入,卷积网络第一层为卷积层,使用100个5x5的过滤器,则该卷积层包含多少个参数(包括偏差参数)?‌
选项:
A: 2501
B: 2600
C: 7500
D: 7600
答案: 【 7600

3、单选题:
假定输入图像的尺寸为63´63´16,卷积层包含32个7´7的过滤器,stride=2,padding=0,则输出图像的尺寸为:​​‌​
选项:
A: 29´29´32
B: 29´29´16
C: 16´16´32
D: 16´16´16
答案: 【 29´29´32

4、单选题:
输入图像的尺寸为15´15´8, padding=2,则图像在完成padding之后的尺寸为:‏‏‌‏
选项:
A: 17´17´10
B: 17´17´8
C: 19´19´8
D: 19´19´12
答案: 【 19´19´8

5、单选题:
假定输入图像的尺寸为63´63´16,卷积层包含32个7´7的过滤器,stride=1,如果希望采用“same卷积模式”,则padding为:‍‍​‍
选项:
A: 1
B: 2
C: 3
D: 7
答案: 【 3

6、单选题:
输入图像的尺寸为32x32x16, 做最大池化,stride=2,过滤器尺寸为2x2,则输出为:‎‏‎
选项:
A: 32x32x8
B: 15x15x16
C: 16x16x16
D: 16x16x8
答案: 【 16x16x16

7、单选题:
‌随着卷积网络层数的增加,以下描述正确的是:‌
选项:
A: 图像的高度与宽度减少,通道数量增加
B: 图像的高度与宽度减少,通道数量减少
C: 图像的高度与宽度增加,通道数量增加
D: 图像的高度与宽度增加,通道数量减少
答案: 【 图像的高度与宽度减少,通道数量增加

8、单选题:
输入层图像尺寸为32´32´3,用6个5´5´3的过滤器对输入层做卷积,步长为1,无边缘扩充,得到特征图为28´28´6。该卷积层参数数量为:‏‏‏‏
选项:
A: 456
B: 450
C: 156
D: 150
答案: 【 456

9、单选题:
‏以下关于卷积神经网络描述正确的是:​
选项:
A: 多个卷积层后面可以跟一个池化层
B: 多个池化层后面跟一个卷积层
C: 全连接层不能出现在网络的最后几层
D: 全连接层一般出现在网络的开始几层
答案: 【 多个卷积层后面可以跟一个池化层

10、判断题:
‌因为池化层没有需要学习训练的参数,所以不影响神经网络的梯度计算。​
选项:
A: 正确
B: 错误
答案: 【 正确

11、判断题:
‌卷积运算具有平移不变性和稀疏连接特性。‎
选项:
A: 正确
B: 错误
答案: 【 正确

12、判断题:
‏为了创建更深层的卷积网络,避免图像的尺寸下降过快,一般只通过池化层降维,并且padding采用“valid模式”。‌
选项:
A: 正确
B: 错误
答案: 【 错误

13、判断题:
‍Keras框架可以使用2( )函数定义卷积层。‍
选项:
A: 正确
B: 错误
答案: 【 正确

14、判断题:
​为了保证单次卷积运算的区域有中心点,过滤器f的取值一般为奇数。‌
选项:
A: 正确
B: 错误
答案: 【 正确

15、判断题:
‏卷积运算在水平和垂直方向单次滑动的像素距离称为卷积步长。‏
选项:
A: 正确
B: 错误
答案: 【 正确

16、判断题:
‌卷积运算时,过滤器的通道数必须与输入图像的通道数相同‎
选项:
A: 正确
B: 错误
答案: 【 正确

17、判断题:
‍为了提取原图像不同类型的特征,需要不同类型的过滤器。‏
选项:
A: 正确
B: 错误
答案: 【 正确

18、判断题:
‍卷积运算不限于图像数据,声音等序列数据也可以做卷积运算。‎
选项:
A: 正确
B: 错误
答案: 【 正确

19、判断题:
​卷积层中包含激励函数,目的是对卷积层做非线性变换。‌
选项:
A: 正确
B: 错误
答案: 【 正确

20、判断题:
‌假定卷积层采用了10个3x3x3的过滤器,则卷积层将有280个参数需要学习训练(包括权重参数和偏差参数)。‌
选项:
A: 正确
B: 错误
答案: 【 正确

21、判断题:
‌CNN网络一般总是由若干卷积层、池化层和全连接层组成。‌
选项:
A: 正确
B: 错误
答案: 【 正确

22、判断题:
‎实践证明最大池化总是比平均池化更为有效。‎
选项:
A: 正确
B: 错误
答案: 【 错误

23、判断

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注