|
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00003/ e; t% P% D8 G
试卷总分:100 得分:1009 G$ i# E. N, O( l8 I* d
一、单选题 (共 20 道试题,共 40 分) G9 {+ `4 K1 q* A) {( X( `! v
1.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
& e6 A- K$ x7 E( X* [- d+ i% uA.spiders文件夹" f$ v3 d* d3 @9 h4 @( K
B.item.py/ m* K- n0 d; H% Y6 V
C.pipeline.py
/ i: a/ r3 y3 f* n" K2 |! X* XD.settings.py
) z/ T5 n1 D; E! Y答案:/ R% ^( s/ L1 Z' g! H2 _9 v- ^% l
) }) }" A E N1 g+ P) D" b7 V2.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
/ m- e4 Y* i" w; O6 aA.HEADER5 r! Z9 Z1 l4 Y9 U* w
B.HEADERS
2 P3 v6 ?5 r4 eC.HEAD+ s5 O! n' v- t9 \# v/ s- N( R
D.BODY G; A: ]0 D; c c$ J
答案:B
' {) ^; q% B9 j: t( }
7 A" V6 F) \5 t# g+ b3.可以通过()绕过网站登录。4 v' d# c6 o0 G2 l( p5 u; s- J9 J
A.session
; y* i/ _( v' b$ A8 ZB.cookies
7 E( a$ _0 t4 q. l) u$ Y5 U7 {C.moonpies
, @* B6 X7 B8 g0 q4 t- O. R% ID.localstorage
6 z$ c$ C5 ]/ ^7 o6 O8 _答案:B" u( C R9 E/ A: F1 o' z" \' I/ [4 x
. z* n. R$ E, k% _' A6 Z1 F0 i
4.下面代码一共执行循环多少次(): i=0 while i<10: i+=12 Z' C5 C# I Q: Z( C& H9 b0 A3 X
A.9* Z" y% X* l+ V/ K! Q% o' L
B.102 J% X$ j' K) x/ i/ V
C.11#0: u+ l' ~' @1 ?9 l! ^4 H
答案:B# S* w) B8 I7 L+ Q) j5 P
8 c! F/ z' B8 @
5.Python并导入uiautomator来操作设备的语句是from uiautomator import (): c0 B1 L n6 ^
A.Device# l1 A; t; _) @$ v. E
B.Devices0 a3 x4 g3 i2 M8 c$ n, @
C.Jobs
2 ?3 D9 l5 ^# d/ FD.Job5 y! P6 t& O; O$ J4 q8 T
答案:( H$ P- M0 b$ Z) g n# r) w& E
* s- ]9 y4 V/ ], `9 Y6.Python中的()库用于发送网络请求6 d4 N: a# ~; v6 H( G' c
A.web! x! f {5 s+ X3 L- {
B.request" p3 X: ~ p+ z7 U# M7 h6 B
C.requests H/ Z5 a& N9 m9 ^
D.javascript' M# |# {4 i' \8 S$ x
答案:8 [. y5 b* i- m4 o, }1 h! [$ S
$ d% r* o3 K) I0 X* N# r7.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
9 E- t0 E/ y2 T3 Z" g' T( j, sA.列表$ R( d6 }, ?6 ^- u; \
B.元组6 i" k4 M/ X# U9 i; n
C.字典- ^8 O/ S% [7 W6 D
D.集合0 p" B! K( ^- @
答案:0 d: Y. a+ ?' d
; ?1 P ]8 Z5 r4 u* [
8.HTTP常用状态码表明服务器上没有请求的资源的是()8 R: A& h6 r2 p
A.5002 a8 | C( u4 g' j
B.503
3 W; w* ~ _4 C- }# o+ e' E# tC.4033 ?% d2 a( e$ L" z: G! v
D.404
3 d$ D6 ^# p3 k2 A1 J答案:
: D6 o$ R# C+ q7 S$ C3 I
8 b9 C) I# Y0 D |5 m- v! `( o9.通常使用()工具来模拟浏览器进行爬虫请求
8 X6 U! b) I0 q5 w! y3 R7 r$ N8 bA.Selenium
+ ?: z/ A3 _% d3 b$ u/ p: yB.Chrome0 ]8 J# o, t. A8 R0 z
C.ChromeDriver
% ^) `. A% P* _5 }! i% ^/ \' cD.WebDriver& m4 B5 B* G( B3 ~0 x! H
答案:: s6 E6 _ |# G5 C- g
# V7 k. ~0 f" L7 P
10.PyMongo中查询所有age > 29的记录是()
+ U) v( t% [* d2 [A.collection.find({'age': {'$gt': 29}})+ f4 E/ |! _! }$ ^
B.collection.find({'age'>29})
5 @5 Q; j$ g3 M; z" v, IC.collection.find_all({'age': {'$gt': 29}})& M$ P8 o$ I& n
D.collection.find_all({'age'>29}). F; r/ j6 W; W3 u' |! Q2 A+ q
答案:
: P# K& {6 p) O/ e; J% _4 H' B3 V0 _* |# k4 q! L
11.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()6 E! t% Q, G" w3 q4 a0 J
A.content$ ?: T* ~# i z* h
B.text8 B# A: g8 E, d6 W
C.title
/ ~$ N4 ]7 l; I& X6 @D.body) x! P3 ~1 A5 M" Q0 I0 Z
答案:B
6 F4 d% i7 Y8 h3 Z) E" r% E. `# ?( Z' n3 u
12.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
9 A1 l+ A( l# z" EA.字典
& d J0 W5 z# y) A. Y, q- QB.集合的名字9 v2 |( n7 I3 `6 ~; K; |4 U$ h P
C.集合
6 o" z* z8 } U) {% E4 \) Y9 fD.文档9 w7 u& |& c: ^ v
答案:B
8 D" ~! Z. A1 I
' j' ]/ }' ^3 b$ S) U' f. Q13.使用UI Automator打开微信的操作是获取相应图标后使用命令()+ p" |: c; A+ f* c# r1 K5 J
A.touch
+ W: W: D& _3 PB.click" G' u, N- ^2 {$ Y) m' V. \
C.push
: x+ R! v* H& L9 ND.hover
8 P& \/ w [* S2 g2 J答案:B d U( b( p6 m
5 q- X) ]2 ]* V* q6 l' M! e
14.Scrapy自带的待爬队列是()7 Q* Q; ]6 y, s3 G# `' K ^$ R: x
A.deque
7 y q( i' l( @" V* K) QB.queue
0 b3 k3 ]6 q- ]C.list
( q" E% E' ? }D.lqueue
& S0 D6 r; n8 i6 F# i! m答案:
' R" [5 F2 w$ M8 i w U
' z4 _4 t! w3 ]4 C( \* ?15.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf* ?8 g/ H$ A' T$ ^, {* }5 R4 q5 q
A.config7 ]5 o, `7 W( i$ [3 y D; [5 g9 V/ |5 |
B.install
% |& k: X8 ?* d7 }3 lC.start
" K5 g& _/ m- z) HD.begin! w$ _% Y* t/ i' B6 l8 L9 _/ u
答案:% h2 x5 H4 ]7 B. k; b
" Z5 Z* g. [) E% O/ G' \0 J7 T16.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()& j* K$ W/ A2 J0 D
A.spiders文件夹6 Q' w- c: Q" E3 U2 T9 r
B.item.py
/ I5 s z! F$ S e- j! F: `C.pipeline.py( @4 d O$ Q7 ?: C2 ~; F
D.settings.py; S* x9 C0 z- k, z D# b
答案:B5 D P, n2 S; [
1 [ M8 k+ |1 j3 U$ k: g
17.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个()。
: {8 Q) s% l; D* u( y% eA.字典: L" l3 F0 l) E+ r
B.集合的名字4 B, a; Y @! C& i V9 {* Y4 g
C.集合+ ?& H" H- E* X+ Z) T" F
D.文档4 `4 ^) E$ m- N2 V( E6 E& m
答案:
6 U* p& b+ \6 R8 \# t
6 W! m' q' A2 W/ A/ v7 `18.Python中哪种容器一旦生成就不能修改
8 L& J; D3 u4 X) oA.列表
/ @1 F6 j- e, i# Y5 j1 N, o% kB.元组5 O% p4 {) T+ a
C.字典
" a4 p, Q- R- M* N, P$ v6 F$ S; tD.集合
1 s0 r" L% \( m3 U答案:B, ~: D8 Y# A7 F: C
5 n" U* k1 i7 |5 W, W19.使用xpath方法的返回类型是()
: O6 a8 J0 ^* ~7 k# l1 B! S9 R# S4 u7 }A.列表
8 C5 ?8 N9 D+ bB.元组
; h* q% t! e2 x3 r. n5 ^4 u8 |5 |' }2 QC.字典
( w6 _/ F2 f1 n' \" uD.集合0 K3 i% O( F) D) I' @+ L- M' B
答案:8 W* e( {8 Y, ^# {3 p, J
; M5 k$ ~ c( F, f
20.python中可以用来将图片中的文字转换为文本的第三方类库是
0 ~; }: \' ~9 n8 o8 z' UA.lxml5 B }% c# s u/ Q
B.requests# }# P6 V6 K# U! { z; L
C.beautifulsoup7 c* `) W5 h/ f
D.pytesseract
# ~8 c& u/ q$ w* z( T答案:
4 J/ B. O- A0 ~# i1 R* m; }
. m8 J1 Z. ^: f2 ^+ w" \( [! t9 X二、多选题 (共 10 道试题,共 20 分)' k" R1 ^; E8 Q+ K
21.requests中post请求方法的第二个参数可以为()
; }9 {) H8 S( p$ \! c% ~A.字典
Z9 T" w) Q" {, q$ LB.列表
9 |$ y) x- v1 ?2 m. p, eC.json数据
( a: ?3 _: v; z9 l! _D.字符串# k8 N6 z( C/ D+ B5 y
答案:. u) p' z; f6 v# a
' b$ J. a% ?' V4 Y1 L
22.Redis中的值可以支持()9 O1 l0 m- v' H7 B. l: J/ G e
A.列表7 C- ^. |- q! Y0 D& Y; ^, Y
B.哈希* m9 Y5 \# W# c3 p; N0 k. l( A: H
C.集合- @% C) B0 [. w: b6 t, `
D.有序集合
1 X8 F9 n/ f5 o答案:BCD. z; d% Y. W9 C& l5 |
5 Y; W2 T: k& D
23.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()5 e. Q, a: y6 d4 S7 }0 }
A.403
% d' x$ V* M! V2 d7 q. v& ]B.404 A% t( Y6 v* q* P3 V. l
C.500# S# o" Z" c! y; t7 _: R/ i
D.503
1 k5 Z6 t) `+ Q( Q/ v6 M5 p答案:B1 X7 n) J# }! W/ S; Y
4 v8 Y" E& X: o% u% I* l" C24.下载器中间件的作用有哪些?9 f3 f: Z1 Z6 A# _
A.更换代理IP5 e5 O- N! a9 A. k
B.更换Cookies+ R( n5 K2 F9 Z6 j' m* f
C.更换User-Agent
3 D: z* g# [) X, ^+ Z vD.自动重试
7 V" I! I5 m5 n* c, D. Y7 Y) i答案:BCD
2 r! A+ G; V0 O7 ?3 f% ~9 a' R3 S( Q6 B" D. z; q' [6 G, L
25.最常见的HTTP请求类型有()
$ U4 y( X! Y" x. Y5 R: W! RA.GET
# G+ w4 `4 f% D# o2 M: v; Y0 eB.POST
3 u. A- K+ `( V, vC.SEND9 M. C! F& z# U8 v6 F& t7 S
D.RECEIVE
* g- }; G0 s$ e$ x# a2 a答案:B, Y R# H! M$ E$ n+ W6 v
: A% u( [7 {0 N. _26.Python中的容器有()
3 D4 a3 M+ I6 \A.列表2 O7 S' `. d% d. z1 l7 Y
B.元组
+ m! h+ {' g. g9 I) y) BC.字典+ z9 |, z' V3 K" ?; |
D.集合
1 Q& W- \% ]. L答案:BCD
: C6 h1 c4 M. l5 `/ g4 q; c5 o! I7 {
27.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
/ H+ m+ p: W" v4 V& x$ \, } d/ KA.非法侵入计算机系统罪
& l; Z' N' O8 p3 s0 |+ Z2 n b4 ]3 rB.非法获取计算机信息系统数据罪
' o+ _/ I: S8 h) \. JC.非法获取计算机数据罪% @" J) o* _- w
D.非法获取系统罪
6 x; Q9 ]. Y; K3 T) Y. [ q答案:B
$ D& u5 r7 O1 |' D: W
: p& J! E+ o+ P- g1 }28.要使用tesseract来进行图像识别,需要安装两个第三方库
; d: [* l8 |6 i5 Q, n9 J% Z/ IA.requests
! t, u' a! z. E- z# _8 v) v% Q" Q8 YB.beautifulsoup" A) f7 |& S+ }1 m8 X9 }
C.Pillow3 ?2 J& H' g4 h
D.pytesseract
0 t7 a- n A9 C答案 4 \7 c; C/ D7 C7 w5 O
: I1 G2 E4 p6 K2 a+ X29.Python中有哪些实现多线程方法()- x1 K" v/ ?' M! w9 i8 [
A.multiprocess.dummy
$ [' X, `( ?+ e9 QB.threading.Thread4 E& C0 j: Y' U1 k! D/ |2 Z
C.process
$ z* j/ m0 J+ o& k. H4 `D.PyMongoDB
3 g7 R" m. Z2 O6 C1 e- _答案:B6 H- }7 N( m9 D; m
* x" \5 `3 q3 I! ~" W$ s
30.在配置ios使用Charles的操作中,正确的有()
. Y! }( f- f" t" n) DA.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。9 t4 L5 w" s9 x- j( R4 {4 M
B.选择"HTTP代理"下面的"手动"选项卡,在"服务器"处输入计算机的IP地址,在"端口"处输入8888
+ M; q6 [. f( G2 BC.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。, K9 y- P" G' j
D.安装完成证书以后,在设置中打开"关于本机",找到最下面的"证书信任设置",并在里面启动对Charles证书的完全信任
4 i: M" K2 ~& N+ n答案:BCD" H! K3 u8 ]$ L# y& j/ B
8 c) K6 ~2 r6 w- ~+ k3 e
三、答案来源:谋学网(www.mouxue.com) (共 20 道试题,共 40 分)
+ a" P D5 t' F( i; a31.所有的异步加载都会向后台发送请求
7 i) H2 p/ y* f: {* {答案:错误/ H9 g; |3 v2 K# V3 K3 V
9 I/ N( c4 ]+ M1 W" j32.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。' ]% D& I, Z) }/ `$ u
答案:错误
" {. _7 J1 a* d5 _* L+ P N" T) U* P, v5 ^7 S& h* p
33.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
1 B4 W- G7 `3 k1 \/ `5 [/ Z答案:错误8 n, f0 T; u& U8 D( O' C8 m: z. C; |
* b4 _ B' B, O5 a: f8 u34.PyMongoDB中排序方法sort第二个参数-1表示升序
! L# }/ C2 h" E4 [9 [答案:错误 F( J7 D9 t) W1 Z9 ]
~- P+ @. l% ], K* U35.通用网络爬虫通常采用串行工作方式5 z# m6 @- p; ?; C6 i
答案:错误! Z& ~. H a/ Y- g5 X' J8 V
( u. b2 {% r% B
36.Python中写CSV文件的writerows方法参数为字典类型
5 ]% }. F" l# N" z$ n% i" v) a! @答案:错误! v, w5 v/ i8 p5 P/ v
2 J% b) y/ x& F8 p& G* j37.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线% d( G) G& s$ o' B. i/ r
答案:错误
& N( m- e1 m) D& S2 B) t9 U
2 A! p9 L0 @% O7 Q8 g38.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码, c6 b$ g* R' V& r
答案:错误
. Z8 {1 Q! V! X E* p( \, h
6 `& v; d! H K' n# H* ]2 Q- R39.操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。
9 n3 |( k5 t3 N! q! @' o答案:错误/ w# {( D6 @+ \( N& m
9 d# ]: e8 @4 {% ?4 x0 V$ E
40.如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"" `2 [. i6 _' `) Q+ h- A! y
答案:错误
7 j+ X/ H5 S# u" A; i8 ~1 y& O/ x+ W! W$ }
41.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis7 X. y- q6 e6 V
答案:错误
! j, F* l5 l- }
5 Z% ?$ N0 b7 q! F7 e$ @42.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的; }9 n+ g" O5 z: ` M4 e7 O
答案:错误: N% p6 H3 n, w1 l$ w3 W
" `" _7 G7 q) h7 d9 Q43.Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
) M6 Y# c) m$ @4 c答案:正确& B7 I2 n6 |* M7 l }9 ^
' x" s! b5 t) i- Z% d& n7 G- }44.HTTP只能通过POST请求才能发送数据
2 e, l$ d2 _% z9 |答案:错误
# L: r( I) h: J$ i' p* O' M7 a5 p q# P! z8 ^
45.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
: n6 B4 `. N7 [8 M p% Z答案:正确
0 D! Y2 l2 Y6 W" H7 i3 H7 n5 U2 {8 {. x8 u9 o- ]' [
46.使用AJAX技术,可以在不刷新网页的情况下更新网页数据/ ]6 a5 h& e4 |
答案:正确
" r" n; s2 V& a
7 O5 C/ ~' x+ k0 s# K7 [47."curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID"该命令的作用是启动爬虫4 Z* N- h& o& _3 }& p+ A
答案:错误
( E$ h# p' j% l* g9 _
$ w$ y# S+ L8 b8 X: I5 A/ R8 O48.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是首先把数据或者分析结果出售给某基金公司,然后自己再买被爬公司的股票。此时,涉嫌内幕交易,属于严重违法行为。! W" w, m1 f2 f. w( E5 u
答案:正确
/ V, i% F; f9 j( j! N8 _
1 @0 g/ [- \2 l& c. S49.Redis中查询列表长度命令llen中l代表left,即从左侧开始数
7 T' p$ g+ w& ]8 @答案:错误! I) c5 z* V( a0 {: }
. d& w* P- Q7 {: x- Q- g
50.爬虫中间件的作用对象是请求request和返回response A8 J3 \9 \7 D/ Z( \9 G
答案:错误8 {! _/ g8 i. G9 D+ H# N e9 o
2 S, X7 U, Y. z5 S- y F" Q% L
4 I' H4 q/ y& B
2 d: z3 b! I! Z7 K K7 x4 @( l4 {+ v2 y0 ?( `) V: ~
3 R# L- @% k! Q! ]5 p# E$ S, `2 X1 I* e6 l: r; o7 d
% {3 d% M# X/ i& z- p4 K8 j
8 g1 {9 y r) O, E L- w' E0 A
" i. X) O1 U3 s2 o
- E$ d4 I0 L8 D( A4 H9 Z4 `& N& d6 M
' x& i" a) Y! p8 z' L9 o* K
5 T8 T8 C+ c& b$ t: D) g |
|