【第一周】网络爬虫之规则

第一周测验:网络爬虫之规则

1、单选题:
‏下面哪个不是Python Requests库提供的方法?‏
选项:
A: head()
B: post()
C: get()
D: push()
答案: 【 push()

2、单选题:
‎Requests库中,下面哪个是检查Response对象返回是否成功的状态属性?‏
选项:
A: raise_for_status
B: status
C: status_code
D: headers
答案: 【 status_code

3、单选题:
‍Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式?‎
选项:
A: headers
B: apparent_encoding
C: text
D: encoding
答案: 【 encoding

4、单选题:
‏Requests库中,下面哪个是由于DNS查询失败造成的获取URL异常?‍
选项:
A: requests.Timeout
B: requests.ConnectionError
C: requests.HTTPError
D: requests.URLRequired
答案: 【 requests.ConnectionError

5、单选题:
‍Requests库中,下面哪个属性代表了从服务器返回HTTP协议内容部分猜测的编码方式?​
选项:
A: encoding
B: headers
C: apparent_encoding
D: text
答案: 【 apparent_encoding

6、单选题:
‏以下哪个是不合法的HTTP URL?‍
选项:
A: news.sina.com.cn:80
B: https://dwz.cn/hMvN8
C: https://223.252.199.7/course/BIT-1001871002#/
D: https://210.14.148.99/
答案: 【 news.sina.com.cn:80

7、单选题:
‌在Requests库的get()方法中,能够定制向服务器提交HTTP请求头的参数是什么?‎
选项:
A: data
B: json
C: headers
D: cookies
答案: 【 headers

8、单选题:
‌在Requests库的get()方法中,timeout参数用来约定请求的超时时间,请问该参数的单位是什么?‌
选项:
A: 秒
B: 毫秒
C: 分钟
D: 微秒
答案: 【 秒

9、单选题:
‏下面哪个不是网络爬虫带来的负面问题?‍
选项:
A: 商业利益
B: 法律风险
C: 隐私泄露
D: 性能骚扰
答案: 【 商业利益

10、单选题:
​下面哪个说法是不正确的?​
选项:
A: Robots协议可以作为法律判决的参考性“行业共识”。
B: Robots协议是一种约定。
C: Robots协议是互联网上的国际准则,必须严格遵守。
D: Robots协议告知网络爬虫哪些页面可以抓取,哪些不可以。
答案: 【 Robots协议是互联网上的国际准则,必须严格遵守。

11、单选题:
‎如果一个网站的根目录下没有robots.txt文件,下面哪个说法是不正确的?‎
选项:
A: 网络爬虫可以肆意爬取该网站内容。
B: 网络爬虫可以不受限制的爬取该网站内容并进行商业使用。
C: 网络爬虫应该以不对服务器造成性能骚扰的方式爬取内容。
D: 网络爬虫的不当爬取行为仍然具有法律风险。
答案: 【 网络爬虫可以不受限制的爬取该网站内容并进行商业使用。

12、单选题:
​百度的关键词查询提交接口如下,其中,keyword代表查询关键词:‎​https://www.baidu.com/s?wd=keyword‎​请问,提交查询关键词该使用Requests库的哪个方法?‎​‎
选项:
A: patch()
B: get()
C:

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注