【模块1】爬虫基础

单元测验-爬虫基础

1、单选题:
‍下列第三方库中,哪个库可以用于实现模拟浏览器发送请求的(   )‏
选项:
A: jieba 
B: BeautifulSoup  
C:  wordcloud
D:  requests
答案: 【  requests

2、单选题:
‎requests库中用哪个方法可以模拟浏览器发送请求(   )‍
选项:
A: get
B: find
C: find_all 
D: print
答案: 【 get

3、单选题:
‎下列说法正确的是:​
选项:
A: 爬虫可以随意爬取个人隐私数据
B: 可以爬取用户进行加密了的内容。
C: 使用爬虫时要注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。
D: 使用爬虫时可以不管版权相关问题,爬取后也可以随意转载或用于商业用途。
答案: 【 使用爬虫时要注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。

4、单选题:
‍关于HTTP状态码,下列说法正确错误的是:‍
选项:
A: 1xx  表示请求已被接受,需接后续处理。
B: 2xx  表示请求已成功被服务器接收、理解并接受
C: 4xx  表示客户端可能发生了错误,妨碍了服务器的处理
D: 5xx 表示服务器在处理请求的过程中没有错误或者没有异常状态发生,
答案: 【 5xx 表示服务器在处理请求的过程中没有错误或者没有异常状态发生,

5、单选题:
‎HTML 是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并 且标签都是成对出现的。下列说法中,错误的是:‌
选项:
A: 有的标记附标签是可以带有属性参数,表示为<标记 属性="参数值"> 
B:  <html>..</html> 表示标记中间的元素是网页 
C: <img>..</img>表示该标签是标题

D: <a href="">..</a>表示超链接标签
答案: 【 <img>..</img>表示该标签是标题

【模块2】 网页静态数据爬取与词云制作

单元测验-静态数据爬取与词云制作

1、单选题:
‏Python 内置的HTTP请求库是(      )。‏‏‏
选项:
A: urllib
B: os
C: time
D: requests
答案: 【 urllib

2、单选题:
‍学习爬虫,就需要分析网页的HTML元素,就要学会使用浏览器的开发者工具,打开一些主流浏览器(如Google Chrome 或360浏览器)开发者工具的快捷键是(     )。‌
选项:
A: F12
B: F10
C: F2
D: F5
答案: 【 F12

3、单选题:
‎以下哪一个第三方库不是用来解析HTML/XML 文件的?‍‎‍
选项:
A: requests
B: bs4(BeautifulSoup 4 )
C: xpath
D:  正则表达式re
答案: 【 requests

4、单选题:
‎使用以下哪一种方法,可以将字符串默认按照空格进行切片操作?‍
选项:
A: split( )
B: lower( )
C: upper( )
D: replace( ) 
答案: 【 split( )

5、单选题:
‍以下关于lambda 函数的描述中,错误的是(     )。​
选项:
A: Python允许我们不以标准方式声明函数,也就是说,不使用def关键字,而是使用lambda来声明匿名函数,连名字都不用取。
B: 任何能够使用它们的地方,都可以定义一个单独的普通函数来进行替换。
C: 一般将lambda函数用在封装一些简单的、又不需要重用的代码上,这样可以让程序代码简洁美观。
D: lambda 必须要自己先定义,才能使用lambda
答案: 【 lambda 必须要自己先定义,才能使用lambda

6、单选题:
‍以下关于Python中导入模块的几种方式描述中,错误的是(       )。‍
选项:
A: from 模块名 import 功能名from 语句让你从模块中导入一个指定的部分到当前程序中,例如from wordcloud import WordCloud,那么程序中可以直接使用函数名WordCloud()即可
B: improt 模块名使用import 导入模块,例如,import wordcloud,那么每次使用模块中的函数时,就必须要先指定模块名,再指定函数,例如:wordcloud.WordCloud()
C: from 模块名 import * 这里用*号来一次性导入了模块中全部函数。每次要使用模块中的函数,则直接使用函数名就可以了,这是因为已经知道这个函数是在那个模块中了。
D: from 模块名 import 功能名 as 别名例如,import matplotlib.pyplot as plt 这里给matplotlib库中的pyplot这个模块取了一个别名plt,在使用的时候,直接用pyplot.plt即可。
答案: 【 from 模块名 import 功能名 as 别名例如,import matplotlib.pyplot as plt 这里给matplotlib库中的pyplot这个模块取了一个别名plt,在使用的时候,直接用pyplot.plt即可。

7、判断题:
​“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤大量无意义信息,突出文章或者网页内容的主旨。‎
选项:
A: 正确
B: 错误
答案: 【 正确

8、判断题:
‍urllib库中的request模块是最基本的http请求模块,用来模拟发送请求的。‌‍‌
选项:
A: 正确
B: 错误
答案: 【 正确

9、判断题:
‌urllib库中的error模块是异常处理模块,可以捕获由request模块产生的异常,避免了程序因报错而终止的问题。‎‌‎
选项:
A: 正确
B: 错误
答案: 【 正确

10、判断题:
‎直接用import 导入urllib.request这个模块后,就可以使用request模块中的 urlopen()这个方法来获取页面。‌
选项:
A: 正确
B: 错误
答案: 【 正确

11、判断题:
​clo

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注