|
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00003
- O- K8 {3 Z X) L" G* j. A试卷总分:100 得分:100" r6 N0 }# I6 f! p2 a4 ?% ~% z
一、单选题 (共 20 道试题,共 40 分)
2 d, n4 c0 X: L$ p5 M3 a1.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()( Z# b+ x- j; v7 Q6 N
A.spiders文件夹
4 d+ [4 b/ r! q. m5 g' n" C( DB.item.py
2 w# K3 i' a! W! E6 e8 bC.pipeline.py3 C! u+ d8 y) q% \$ r
D.settings.py+ |' \) j# w: e( K! S
答案:
& \3 M' ]; i, m
/ _) L8 U' e9 N- w! d* O2.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
, D* |) w" j; g5 ^3 E2 IA.HEADER$ |5 h3 x, C: q; h* Z1 J+ {
B.HEADERS" I0 m/ R* k* y' [& \0 E! K! |
C.HEAD
5 z7 n v6 z0 z7 i8 x9 v' t. mD.BODY8 M" @4 ^; U+ s9 q* B4 y
答案:B! V9 I0 L P& _% A: ^1 L9 v
0 ~# m: r1 b, w3 S: B
3.可以通过()绕过网站登录。
4 V! u% d* }/ U( g- ^. |A.session
3 x# I. x$ K+ Y xB.cookies3 F( u. N; w+ A
C.moonpies, l/ z: @9 R4 i& u( H# `/ G, T
D.localstorage
" k+ Y; @; E" g0 O; }答案:B0 c( q$ x! K: E) U& K1 g
! j8 c, t K2 r7 ~7 c4.下面代码一共执行循环多少次(): i=0 while i<10: i+=1
+ L5 w) N& k4 H% Y& FA.9
8 q& w; v/ A% a3 Y" }: ^: ?" KB.10
2 ^1 J% ?; J% O# b& T" D! c( z) UC.11#0% }( A) F! x( r. w+ U
答案:B
6 z- C# V: V! z. ~8 r
& J8 a+ ]8 ]/ {2 ]5.Python并导入uiautomator来操作设备的语句是from uiautomator import ()8 T( \5 p3 m" @
A.Device
/ C, G; G, {* iB.Devices
3 q5 R7 B3 K/ N' z' V) QC.Jobs
: L/ ~) J/ F! J% pD.Job2 S8 ?4 \# d/ T2 e3 t
答案:/ P. v$ L4 E7 u% L3 w4 o
w9 ], `# E6 r% j& R2 V2 g
6.Python中的()库用于发送网络请求; C- d# k, t0 v
A.web
( Z/ X# ~7 x$ z% }& {! }B.request
) k- b+ p, f, z* r/ N9 {C.requests
$ g- ?+ n3 `; D" X( {0 M0 cD.javascript5 o' L+ |. q! I2 E( ~& t5 m2 w4 {
答案:
& }4 R& N/ W \# r, V9 ^% k3 V& O. C% k% _! j0 _
7.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成- t& V6 d( S8 p1 L- W$ C
A.列表
) g" } v+ p7 Y! M: uB.元组
& v3 C* A3 E; eC.字典
# J2 s* L* J# P5 M) Z# G) p( M" GD.集合
5 \' @8 N4 s+ C答案:
. N' P% |! p( Z! h5 _4 Z! @/ |1 {$ K
8.HTTP常用状态码表明服务器上没有请求的资源的是()) g% p# h+ k# g/ ]; s# L
A.500
* x) M& n1 C- j h2 z4 xB.503
9 |( b- ~) j! W9 \. @C.4037 |; Y5 p0 V7 ?6 {: M- n. u0 N
D.404% c* T$ v8 k- d1 Y5 N/ n
答案:
9 Q. I3 F# k) d7 ]' j. F3 N
7 T0 e2 G5 T, E% R9.通常使用()工具来模拟浏览器进行爬虫请求
, |5 Q3 }( @* c1 yA.Selenium
+ k- i0 f. V) E( \, VB.Chrome
( Q% y: v. _$ L+ i/ l% uC.ChromeDriver' w0 w+ `3 J ~
D.WebDriver# k5 ^1 G+ m6 h" q/ v
答案: p* i( @* O3 c, P
; {8 w& `3 |9 I, M
10.PyMongo中查询所有age > 29的记录是()
9 a4 n& L0 M+ O# bA.collection.find({'age': {'$gt': 29}})
( e* G! K7 b+ PB.collection.find({'age'>29})' h9 v0 T' L( C4 k) n
C.collection.find_all({'age': {'$gt': 29}})
6 f3 b X O5 z# T: eD.collection.find_all({'age'>29})' G2 Z( J& |( V, v9 D7 e( d! g6 [% v
答案:
$ W( c e. g: v% Q# p' b G1 L0 \, w
11.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
$ a. J$ V. G0 P+ ~" j% Y! r+ RA.content) w, Z9 O4 M. e( f
B.text
6 ?6 w- ^" K, ~* \C.title. z3 h& s1 h6 B7 b& {1 V8 W l1 Y/ V5 r
D.body2 o) `# z7 Z, o
答案:B
* t' B. z" H n7 U, H# N' m, y# E6 y0 q9 L) t- o
12.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。. _) |: U5 Q, Z! h! K. F
A.字典
; ?, A/ s& t3 Q. {2 QB.集合的名字/ ?: V0 H- m) x5 v: m
C.集合" z4 ]6 J) T- U7 F4 r* {
D.文档
. k( ?& p$ P" V. M7 V1 d7 {8 m& J$ J答案:B/ F& d0 y- }& O: \ Y+ ~& D" c
/ d1 _, k& w3 g& U2 c& w1 v13.使用UI Automator打开微信的操作是获取相应图标后使用命令()9 ^6 Y6 I1 P* z1 W/ V$ x
A.touch3 U8 }: {3 h/ m* m% K+ f
B.click1 M! [: X, h) S5 ]
C.push1 m p3 Z0 [* ?% a0 z- p
D.hover) Z' x* ~$ m. M+ d2 w) Q. l
答案:B% S) n H2 {( x [: }; Y
" n; J/ f7 J# v- l$ W2 J& u5 X
14.Scrapy自带的待爬队列是()
) r' l, p3 R" k2 f; f3 }A.deque
8 m: L% J- x# M8 JB.queue; u5 L, t: {2 x2 A
C.list
7 e* L% L5 z- K* H Q. o: iD.lqueue
7 E( p' C: B# V3 |4 K" B( d答案:
! E8 O# R7 {, D- a% M$ n) P+ ~( o9 F% O# }8 l* C. C
15.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
# b1 T( E; j+ x, D5 [/ c! l! wA.config
$ f3 P( j0 i, r# WB.install
; p; k/ K5 U/ e4 L" v/ [C.start
2 H! Z# B: s3 c6 }( ID.begin
# [6 X7 X4 W C, { |: o答案:' m, Z) l \& a0 p7 L4 g& O$ b
7 \ a( r$ E* y1 A+ V
16.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
" R! x& |: j2 rA.spiders文件夹
) l* [1 T1 @3 R& a/ N& tB.item.py
# B' {4 t7 v5 }C.pipeline.py
( [' _% ]+ |1 [! f2 UD.settings.py
1 d+ y6 N% K# U) k, ?答案:B9 Q' T8 W# X# B8 j* @+ l# y
7 z& p l% w9 \4 W+ d! F
17.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个()。1 }$ g% z, B9 Z$ W; `4 y* _0 F/ P7 ]$ e
A.字典
V# H; N( N+ UB.集合的名字! V& e r, {& Z
C.集合
" P" g& G2 [, _; U: o3 c$ H1 TD.文档) ?2 ]9 G' m8 v: f- P
答案:; D1 O# ^# [: Q' q3 F* Y$ Z
0 ^3 e! f2 b2 x: ]8 u7 Q
18.Python中哪种容器一旦生成就不能修改
. g N$ N# n7 {1 [7 y3 [A.列表' T& T% a$ K0 Q1 B
B.元组, N7 J9 m2 w! X: U, b- _) ?
C.字典, L e o" f" |, b! L2 c& o6 _8 k
D.集合( ]& N* Y! V3 l2 b8 o
答案:B4 R9 {% {0 U5 K8 q8 h! }9 f+ n! {
' r+ z/ ]' O; z1 s+ T5 I
19.使用xpath方法的返回类型是()
4 h: C& H" J+ K& k7 b; h$ AA.列表
* F$ N7 _' c7 K! q) C' XB.元组, V* d V9 e7 Q2 K$ D9 ]3 u
C.字典& X) h5 K5 ?! T
D.集合
% ]% x) ^) b# Y# [* x. A答案:8 J! Z+ l. l- O% } j$ i3 p& P
: H% I5 y) V r/ ]* [8 p# }+ [' M
20.python中可以用来将图片中的文字转换为文本的第三方类库是
! ?- S$ Y. Y% b3 g$ PA.lxml
2 l! A3 C' D0 dB.requests$ i9 T- T3 O; d( E, F+ `; i% B
C.beautifulsoup
& T' Z; N& A; h+ W; G& GD.pytesseract
6 t' [& r% H7 ?. F+ a答案:! f( _$ N. P/ f! |5 F! K- k) J9 k
+ R# _+ T, F4 l- o6 i6 j
二、多选题 (共 10 道试题,共 20 分), _: ^" @# I8 a* z2 k
21.requests中post请求方法的第二个参数可以为()
: c$ l3 `9 [" |& FA.字典
; H0 P9 {4 N* }" K$ [6 R7 RB.列表 j5 r; e% G+ j+ ]# j/ ^% e
C.json数据 y u4 ^5 z4 L3 v) ~8 w
D.字符串% b! H7 q4 g* H- U, ^
答案:# l C/ O7 N t/ y
0 Z9 y# c! c" w, K5 O; E22.Redis中的值可以支持()! {( u, i) V' r5 B' \. _
A.列表1 a9 l( u2 F% C+ v
B.哈希
8 M* {1 e0 W* E3 [5 s. b+ nC.集合
% W8 C& q6 ~ FD.有序集合; H7 m( r- H' \: [
答案:BCD
4 o r7 K$ _, L8 X- }
4 s& A1 h5 _, m9 C; F23.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
h7 S u; G0 x, Q3 Y' KA.4030 ]5 L: g+ I! o) ?' u% E: l
B.404! B* y6 a# C. s0 G
C.500
6 x; Z3 i& A0 H) F5 a9 ~$ KD.503" z4 `% t0 B4 L
答案:B5 u6 z6 t* p; s( D- j; U* ~
7 M* A0 V$ E( v5 c
24.下载器中间件的作用有哪些?! f# [5 O% t$ n
A.更换代理IP
( i: H" m: g! F- k/ L# Y7 q/ KB.更换Cookies5 `& U* k! o! m! M2 I/ w
C.更换User-Agent
: }) V) a! U+ K+ L* H# V5 O fD.自动重试
1 b, Y O; O' B# ~答案:BCD
& [$ K5 M6 P f8 W5 @0 y" g1 t( E8 ~# z9 j
25.最常见的HTTP请求类型有()) J5 F! a' n2 ~5 R( e
A.GET
8 M$ P5 s: \6 e! u6 ^8 g7 uB.POST
5 A) y; ?' O9 O8 o+ F3 r+ NC.SEND
2 u5 Q( {& j ~: TD.RECEIVE
/ Q9 m* z2 T+ h5 X. F答案:B
, Q S4 t, l, V1 J+ S" d) P3 [( s# l4 L& `5 J b5 s1 Z6 Y+ ?
26.Python中的容器有()
5 s/ b$ c4 }2 J% S/ mA.列表! q3 j1 q5 }, c- c1 D
B.元组
: `; R) l2 x* E. \3 E% w3 M2 `: lC.字典$ j0 f8 @& D2 Y2 ?+ h+ C7 }
D.集合
) y( ~% `+ X: `3 D: C答案:BCD
, x0 U; o5 V* T V1 K2 J
8 Q9 l6 `+ e I8 x# P27.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()9 `' g; ?/ x+ z9 O7 p
A.非法侵入计算机系统罪
6 F8 A/ v( n. D. x# q" bB.非法获取计算机信息系统数据罪
* v) z% @* _8 t3 M9 }8 F) jC.非法获取计算机数据罪
2 p' n t8 @8 C) FD.非法获取系统罪4 n) Z2 o+ @; p( l) `3 _5 Q( l, M I
答案:B# [7 v2 x( x$ }3 H f( s
& \: F! X7 x" J
28.要使用tesseract来进行图像识别,需要安装两个第三方库
0 o( M1 v4 b( a$ a( c& u7 M: yA.requests
9 }5 ] ^( W1 n3 I* |1 [B.beautifulsoup0 T z% a& N1 m/ J0 Z1 P, l
C.Pillow
. T! N! q9 y# n! q& SD.pytesseract
( n: E! _9 r% x9 h9 [* ?0 V5 Z! k答案' e! C; k8 q9 K
' i- e5 s/ d3 K7 {3 G1 ?' a0 A29.Python中有哪些实现多线程方法()
) o; f* m& f8 S; ?A.multiprocess.dummy
: b- g _- m0 @/ d, b7 FB.threading.Thread
8 }* {$ V, Y# K9 ]1 j, X; MC.process+ a! t) O. e" R
D.PyMongoDB
/ g" m. L: \" q9 E' @$ f0 B答案:B7 e$ |5 R- p% d, E: A* A
& l1 m! ^% p+ c+ T+ p30.在配置ios使用Charles的操作中,正确的有()+ B8 K7 i2 n$ ?, d
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
& o- E1 M. N8 x# B, X" T5 f# c* |B.选择"HTTP代理"下面的"手动"选项卡,在"服务器"处输入计算机的IP地址,在"端口"处输入8888: u0 X8 j) y8 i3 R: H% L
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。+ ~. @: x: S0 z- n+ K
D.安装完成证书以后,在设置中打开"关于本机",找到最下面的"证书信任设置",并在里面启动对Charles证书的完全信任
6 w& c+ [/ l" S0 ?2 B; g答案:BCD# U; ^- t( j% z
/ m, p' d% b( a: j) A% \0 J" S
三、答案来源:谋学网(www.mouxue.com) (共 20 道试题,共 40 分)+ B! f& P/ [9 _3 _+ n
31.所有的异步加载都会向后台发送请求
. k8 ^ v/ H( E9 h答案:错误7 G' u: ^% a" Z$ `
: o$ Z" F* ]2 q( g5 b
32.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
e% l1 ?3 g) d! K, Q! I答案:错误9 X2 a! [ j9 V# B4 L* C
, S+ B( J1 t5 ^5 _* O33.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;' `+ ^& A3 d( O& ~3 t
答案:错误3 p2 ]) h% D0 G3 ^$ i/ n
1 Y, v$ n" ~$ r2 \- \" U2 k. d# O34.PyMongoDB中排序方法sort第二个参数-1表示升序; r' o: P2 ^# w+ b5 Z- S+ X
答案:错误( S+ h: {+ R; w; l8 B0 E) b$ l9 c% p
- A( z. t& X! v7 O9 h+ ^35.通用网络爬虫通常采用串行工作方式
6 Z' M m W# m* H8 _5 D答案:错误& D n9 m" e6 Z. _
& Z9 r. w8 |4 d3 Q2 w3 o0 V7 @36.Python中写CSV文件的writerows方法参数为字典类型
. M0 p" g! j$ ]0 o$ V% s& v答案:错误
6 w- D! ^3 Z* j0 C. m* z
' h, Q, G) Z/ b# A! {; F+ S7 i37.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线# p$ w/ K' ?. n6 G
答案:错误" i* n3 y: j/ q
7 m3 b6 S& T+ m7 ?! S& e$ q
38.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
; r0 M" |7 K4 N* B+ x: u答案:错误+ X4 C8 U3 i2 ]/ \5 Q# H
7 R/ y* Q+ C+ z Z) M* p6 g39.操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。) a1 |8 b$ l$ `" P9 t
答案:错误# Y! x& N/ t8 P; q" \: f/ j
: W4 D$ t3 s* {# p t40.如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
& X8 a: T2 ^4 H8 q9 |: F答案:错误
% p3 p, w+ l/ R; K; ^2 w$ J( W3 V, o
41.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
0 |$ Q+ x( R' n/ M9 Y7 N' V( n+ V1 M+ p答案:错误0 Y% a) M, f0 C! `; E5 A& n0 b1 v
' l' A G& K. U( f
42.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的$ w6 T$ l9 A; }9 |' H: Y4 V* r
答案:错误
+ q- i) v2 T9 ^5 D% p& m [ v0 t) v4 h) M
43.Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库3 K6 X: ^; U; p. q' z7 R6 R
答案:正确
, K& e3 z6 d( o9 o/ @) ]" S4 c2 J1 o
44.HTTP只能通过POST请求才能发送数据
" {5 H8 {5 t6 t( ~答案:错误 h; a# T2 `" t& U
5 y& i2 ]$ [% S! d45.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
- Y# s# e7 s4 A8 ]; ?答案:正确
: N( L% y2 W; I. p4 O0 Z0 _( b; V A$ S1 p
46.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
& w2 G* K" Y. j; D答案:正确* t. e' @+ p7 ~7 S1 l3 z$ V
9 U$ H J7 i D: l5 g* K- g3 E1 q
47."curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID"该命令的作用是启动爬虫- t3 V& H! b8 k
答案:错误8 h5 T% u" O ^) N
& H; U8 u7 e7 c4 Z0 B48.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是首先把数据或者分析结果出售给某基金公司,然后自己再买被爬公司的股票。此时,涉嫌内幕交易,属于严重违法行为。& B, S7 j' U% m! x Q' K+ ^( N( _1 g
答案:正确- F% y" `/ q+ {1 l
4 e: R5 ~( m% U49.Redis中查询列表长度命令llen中l代表left,即从左侧开始数8 G4 R, a1 o" D V. @5 I' m
答案:错误8 Y7 s2 e- `: C+ u! H% L U( Z( u% b
: r. j0 O% e) \50.爬虫中间件的作用对象是请求request和返回response
" Z1 I8 F$ W0 w9 K, J答案:错误
7 |9 |8 k. }) Y7 f4 G7 ]" x$ X+ \4 b* T- ` v
& @) t4 P& r* J- [
( x7 [ J$ J" l
* F, Z& A, z, J: ~" s4 I& h
. R4 q9 b: g" `3 F& r& G" }" ]6 D+ L) u
) C; k/ b. y1 A7 U* C
9 D6 N1 ?5 z$ L3 L
$ a4 m' X. [+ m' c
: t- S, P$ X4 z7 v. d. a- w5 o7 e, b! a/ {" B
' l6 v) K- o* L' ] |
|