|
22春学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00002
; Q" n; z; ^ g% [6 y试卷总分:100 得分:100
# o" v4 u9 X ?$ W, L6 D! o一、单选题 (共 20 道试题,共 40 分)4 o; u5 C, I+ N, u2 V$ y: g
1.聚类是一种()。% I) W) p$ \. R$ F3 M$ E( p5 V
A.有监督学习
3 S5 x. h) Q: ~; {( L/ U- ^' @B.无监督学习1 l- }4 f! F) Q* h& C* X% P7 t
C.强化学习
\2 ?1 s4 H, K, hD.半监督学习
& @9 o3 |' d& x8 c资料:8 P5 w0 V) F: O+ m5 S4 M' X3 N
, n9 g. b) e$ h6 X9 |8 @2.一元线性回归中,真实值与预测值的差称为样本的()。
! ^5 a) M5 x# X3 h2 `3 P& v0 yA.误差
% O) y1 n" [1 gB.方差# U# l% r. y! J6 L7 f
C.测差; c9 \" M, B c8 w
D.残差( X6 W! ?2 P3 t
资料:: U. i7 x2 w. h& P" a9 B6 I+ K5 _
9 l% {2 d, b7 X q' }( S4 w
3.对于k近邻法,下列说法错误的是()。
% A6 J3 M+ e5 k! GA.不具有显式的学习过程) {# Y4 x" v8 C
B.适用于多分类任务% E' M3 I/ q' H1 C# c% c: J
C.k值越大,分类效果越好7 t9 |( Y) x' w4 G
D.通常采用多数表决的分类决策规则! s' P6 F% V1 r- q3 X
资料:
" m! A, t5 G/ \* u! ~3 a+ D3 q7 y2 X& c+ s# {
4.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。5 |* }8 \7 j) L: z* z& ]0 l
A.产量每增加一台,单位成本增加100元
( y4 t6 Y2 E# ^- s, R! H& fB.产量每增加一台,单位成本减少1.2元
9 r+ C- T. P3 [) X9 bC.产量每增加一台,单位成本平均减少1.2元/ t) g9 o) @( Z- t$ w
D.产量每增加一台,单位平均增加100元. m5 `( D3 d; Q. z
资料:
# Z1 w8 ^* c5 F+ Y( ]
+ T3 ~5 F- c* m: _/ `) ^* m J5.哪一项不属于规范化的方法()# b! e) ^0 h8 R9 B, H0 o
A.最小-最大规范化# p8 m$ ^0 B! |+ V3 S! c
B.零-均值规范化% M3 ^8 r% j! a7 L f
C.小数定标规范化0 \# i2 Q/ n4 T' A/ F/ L
D.中位数规范化
8 K# [0 x- o# w/ n! V* S- ]0 w0 ~资料:/ h8 G9 n* u- }4 }& B
; n2 e# ]: w4 j
6.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
, _1 I# \; N! h& Y9 ^( ^ E* \0 LA.K-means; b3 L6 c7 I' C8 F) y+ ~" w$ b# d
B.Bayes Network
7 n k0 i* J+ B1 K: T3 J) ^! i$ B, YC.C4.5! A5 e1 {( ~$ z( P: P l8 P
D.Apriori
% v- m O- E( h+ Q. u" x资料:2 q' T. _* f9 g' u# a1 t4 i; m& n
+ c) @! G8 x" f) o: u
7.在回归分析中,自变量为(),因变量为()。0 v/ p. D- L. u& \) J
A.离散型变量,离散型变量5 F0 \5 f. I, S/ ^7 Y/ \
B.连续型变量,离散型变量- m4 |. j# c. j( R6 G- }) j
C.离散型变量,连续型变量" f, `& k' Z6 k
D.连续型变量,连续型变量
0 L" g' g: [0 t; A E8 _7 V/ u资料:8 s$ ^) q. b2 X5 t
* C1 v; O8 _5 W
8.层次聚类适合规模较()的数据集' u2 E; n$ F8 h1 W5 a
A.大$ Z. I% S( G; k& r; ]8 ~
B.中+ m) f4 j, l$ G( s, ~+ C& }
C.小
* l. n' m+ v. R: o) aD.所有
' B a# w; H5 U0 ~( M资料:
- ]5 W1 U/ z: [' ]! v3 F+ i/ U7 O# w1 E8 _ c! Z
9.BFR聚类是用于处理数据集()的k-means变体。
! L0 x0 o' L5 b; SA.大1 ]/ L: M4 r, E) L# e
B.中
% }( M, n; J4 ^6 l3 I$ [! Q5 ^C.小
7 r6 }6 W* X! f! a/ _( x/ x2 JD.所有
5 f% i& w9 W* w3 C% t# g资料:
7 S$ F8 Y, M/ ^, z
" B+ `) M0 X; O" B% D10.手肘法的核心指标是()。( i k3 `, S& |: P
A.SES0 X8 }0 `* Q5 ^1 s. }
B.SSE
+ J# k' F ^, T3 M4 SC.RMSE
6 [$ h6 M4 u8 P5 _! M F+ S1 yD.MSE F4 P$ Q! w% n, r, i
资料:
! r: d5 W2 b3 ^$ ^: v1 L2 r: Q! Z- M4 M) L
11.层次聚类对给定的数据进行()的分解。* I7 A+ v' j+ P! e. j$ U
A.聚合
O, R" ^. p3 ]& U8 p# |* GB.层次
0 D# N. ^3 l! j) A7 K3 ^C.分拆
# f; |7 @" P3 Q& [5 z TD.复制; ?: Q" s! U3 N- Z. p
资料:
2 E1 l/ v5 ^/ U8 @) {
5 P4 |/ H: K3 E0 _: S( Q( W12.根据映射关系的不同可以分为线性回归和()。+ Q* v! O, M: q. w
A.对数回归
" b9 b5 C( h8 q% |. y5 r6 L* dB.非线性回归
' D+ n, n' F1 u- Y G2 R! k% oC.逻辑回归
: M. {' q, S0 q3 O+ [D.多元回归- }7 G; R8 |! q
资料:
7 e4 Q/ ^5 A7 \
' ?1 j% H2 N1 Z* W13.以下属于关联分析的是( )
2 O! F( C" U! i5 s6 PA.CPU性能预测
0 r) e" F; R3 p5 [4 EB.购物篮分析
4 Y8 g S1 t! J) yC.自动判断鸢尾花类别
) j; N( r% t- W( I! ]D.股票趋势建模6 |# J* z* C+ N; H( L* c7 Y
资料:7 Y. A" p# `8 g) P7 g
: Q. U2 B3 l' e" h
14.在k近邻法中,选择较小的k值时,学习的"近似误差"会(),"估计误差"会()。2 V, t4 v9 c. l6 U0 m- Z
A.减小,减小
- V& k. e2 y8 a# O8 o& Y6 rB.减小,增大) F5 ^ F% M7 W5 J2 O9 |
C.增大,减小9 \3 W3 K# h) h' q
D.增大,增大
+ p9 B& k1 A8 N0 \" Z0 N3 r9 w资料:' C4 O9 T& j* O; `$ x
( e5 N) W+ {5 y3 [7 Y& Z
15.特征选择的四个步骤中不包括()
' }* Y0 C% } n: l4 y2 H$ d. ?: FA.子集产生/ ~! o* y) E. d, G& y# b0 I5 r
B.子集评估# ?4 W; [' j/ y
C.子集搜索
6 _6 ~$ I+ Y' {$ \: AD.子集验证( c, s8 |' O) @: b- d, X2 E/ x0 N* w
资料:* }- G( D5 D' C) V q' g
3 ~$ t% d# _' ^. T7 F5 T16.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
4 c: ]2 k7 D- `8 s( i( {A.最小化方差#最小化标准差
$ L- M, `+ J& s2 p! |" M$ n5 l7 o$ DB.最小化残差平方和
- g& S' x3 a# h0 X, C& tC.最大化信息熵$ Y: g8 a( C" c- B5 s( e
资料:
6 x) E# D6 l8 M0 T; H2 X2 X. Y! T8 @& S# u |* P/ T
17.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。3 c' M7 O% |0 m% E) N a& F
A.最优回归线
6 U c3 y4 ^% ]B.最优分布线# j, Y* a, i; o- L9 [. N* Y' o
C.最优预测线
; i' e) T" x$ S! V7 W% V. m9 L- ND.最佳分布线
0 C7 Q' J% X- z7 f4 s; R资料:( M! X) G3 t% {% H1 [9 F3 B
( X: t7 g3 A7 @1 n, a5 y w, C
18.BFR聚类用于在()欧氏空间中对数据进行聚类* X7 r, ]3 z% e
A.高维
5 X' Q4 E% V SB.中维
( }+ f8 o+ G( [9 z' T9 gC.低维
$ W8 _8 E6 R' Z6 P4 L; TD.中高维# B \- y' P1 W2 I" A# T+ g
资料:
& n6 a( V$ m$ b( m, o! X7 L5 K& V" z; X% ^3 u# q1 [" k
19.Apriori算法的加速过程依赖于以下哪个策略( )
; Q/ l& X7 t7 J; F1 T2 j7 dA.抽样
4 O2 ]) e+ v) U- H, jB.剪枝% p7 h# ~& v% p& M- i, m
C.缓冲4 |/ J7 ^* B5 y7 D* K
D.并行
F6 Y* Q4 t8 Q" \, R5 L资料:" ?# f O& m% C2 B' P% Z' h* ^& w
( y, S9 f5 |8 V3 O3 D e6 T; M
20.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。( S }9 f7 L8 S+ _0 k" _
A.4
# z, b1 w- b. uB.56 w, X( g0 y4 y7 `
C.6
; [: s; g; j* x8 MD.7& l8 ?/ T3 m( [* H: u. @$ y) O
资料:( ~+ R3 B) s" T, R% @' ~
9 E8 U3 f' `% y" g0 \. B
二、多选题 (共 10 道试题,共 20 分); ^5 X. Z. P* B$ i
21.系统日志收集的基本特征有()
+ G8 d. @6 U5 o6 V8 J) m) sA.高可用性
$ y8 g1 }6 o* L: t" I1 ZB.高可靠性5 K! h2 S( c0 C, e0 V5 m; ]% J9 {
C.可扩展性
, _9 W' d. q0 f3 I; hD.高效率. I: @& Z; D6 P
资料:BC4 C. O7 m4 H' U# b
/ R4 l C% A- {' J( W7 C. T
22.距离度量中的距离可以是()% X: _( P m) h! y* C
A.欧式距离
7 j4 d* m" g) q3 kB.曼哈顿距离
$ U6 @. V5 J ]1 f% Z0 wC.Lp距离
3 Z- t6 }$ J, G3 l( uD.Minkowski距离
1 f! `8 ]. v7 ~$ j7 w- w资料:BCD
( Z `* |# p3 X( P q7 B3 L9 x$ @0 I: _$ _, E/ Q5 T* j
23.Apriori算法的计算复杂度受()影响。/ V! f8 X; w' Y7 Z& h
A.支持度阈值
0 a- N# N+ h& c4 _4 I2 F/ WB.项数" t" T: R. \0 P" d. c
C.事务数
8 U9 ]+ ?6 X }5 n2 `' dD.事务平均宽度* N& Y4 m3 e$ C7 f& F
资料:BCD3 l8 o! }( r# N j& N, q$ P) J5 c
! v& a7 ]" d2 j4 d5 E& {$ U
24.下面例子属于分类的是()
" k# N5 S& I+ R! M, ^" k/ f. YA.检测图像中是否有人脸出现
) o1 T& w( L. }' sB.对客户按照贷款风险大小进行分类
4 N. @ ]+ J7 R: ~C.识别手写的数字; B5 ~, K, r0 V0 A1 S7 f8 ^
D.估计商场客流量1 q3 H4 {% o+ U" U, s9 T0 O8 [
资料:BC+ M0 O, N1 I5 i8 D
0 S4 b! h9 I: R x
25.数据科学具有哪些性质()
7 H$ H# r: W0 |2 gA.有效性1 s9 I7 R+ }- P% g
B.可用性+ ?" o8 p+ H& m& R2 ?3 \2 p$ g
C.未预料
3 T1 `. A+ a' y: }0 PD.可理解4 x5 ?- Q; z' s1 {
资料:BCD/ N+ j6 O% u' n8 j2 o, X
7 f2 u& m% e( R+ }$ K4 s4 k
26.聚类的主要方法有()。 ?+ E' I3 o3 k
A.划分聚类
1 A6 H. M7 U5 ~: Z8 P0 _5 K* vB.层次聚类$ o, V3 T: ?+ l' n t
C.密度聚类
9 M/ L" M+ Q0 x0 e' w5 eD.距离聚类
V9 v/ u: B) P$ w资料:BC
) M( p, z( V0 D9 U& m
+ i7 t5 Y& d0 o0 n( t27.k近邻法的基本要素包括()。
2 h% L' C) O; ^3 K* ^/ AA.距离度量" N. l4 h! O* x$ V; g/ M V
B.k值的选择& J# d" [+ p4 C
C.样本大小
! U9 `+ W. N0 dD.分类决策规则- M3 i/ ?9 c6 R6 P& e
资料:BD& L# r8 H+ j: [, z
2 b- S+ k& I, c' H a: K
28.层次聚类的方法是()
% ]# i2 J3 U; k% ]: LA.聚合方法2 {: I# s# \' [& G4 K! c) p- `
B.分拆方法
6 _% G+ \+ V5 H$ {3 ?C.组合方法
7 }2 w* Z; t2 [D.比较方法
8 K! {$ J8 l+ ]资料:B
" B7 O7 P$ @# Q: `0 J. ~8 J
" B# m/ N$ _ n; _/ h29.多层感知机的学习过程包含()。
' d, ?# } Y) l5 [) a5 k1 C8 q5 jA.信号的正向传播
( {2 `2 s' c/ i$ R$ \0 I. sB.信号的反向传播
4 J0 D0 U3 Z8 t# [! PC.误差的正向传播
' h& P8 \& K5 T& ^* cD.误差的反向传播
, P L1 j0 }' L% u \/ M资料:5 B: W- O5 N! q+ D* u! F& L
; {0 t) e" U% i! P* q30.什么情况下结点不用划分()
3 h3 P( l- e/ V' Y7 G2 n' p$ N* c' `A.当前结点所包含的样本全属于同一类别. K# i7 z4 [7 [) @# R/ Q8 L
B.当前属性集为空,或是所有样本在所有属性上取值相同. {8 U7 |6 D( _5 L6 e; t* \' N$ x
C.当前结点包含的样本集为空; N g, `5 m M& o
D.还有子集不能被基本正确分类4 ?1 @4 y$ B! f2 L# _* ^" X3 v& B
资料:BC3 q2 V% a& V2 r# i: s+ _8 f4 e
5 N1 k" ?# ^9 X" x: U& P) w7 N0 V
三、资料来源:谋学网(www.mouxue.com) (共 20 道试题,共 40 分)# |9 d' f2 k0 _- H1 a' B
31.数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
1 E6 W) O6 {- E) Z. n资料:正确8 l _( a0 D' T
0 g# H0 k" r$ m. `( A
32.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的"近似误差"会减小,"估计误差"会增大,预测结果会对近邻的点实例点非常敏感。
( T/ m- H5 W. t4 l9 r资料:正确7 r! L3 c, P. S4 C# x5 \
' z. k; i+ L% R, j
33.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。$ }& g6 B4 P3 ?, G+ J- O5 H
资料:错误
$ t( ?' o7 t+ Z0 c8 p. O+ [
, [9 |. e+ s& {, Y34.平均减少的不纯度越大,则特征重要度越高。
8 A- s4 ]2 c) U) I8 R0 d9 {4 b资料:正确
- P( K& B* l$ W# Q+ ~
$ ]' y j" J2 w% ?3 O35.使用SVD方法进行图像压缩不可以保留图像的重要特征。
$ u( _( Y. E( y( v" o资料:错误0 f" y- m0 W& T+ q: ?& \* l
" V# h$ W: c+ ~. A36.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
5 y5 r3 _8 c- g! g! d, j资料:错误7 {: e8 C. [) R" }$ f
* g; g' c+ H: i/ X+ P2 s, n- D. l37.关联规则可以用枚举的方法产生。% M6 A( R. {. S3 V& r' L0 ~
资料:正确4 o: j, U2 K2 G6 X4 ^/ N
. j/ g2 R1 C4 v; v4 f w/ z ~6 Q
38.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
4 @( y! L7 D+ e; U7 i4 U5 ^资料:正确
" e1 D' e. ^" z; K. _! x5 j* m8 y' X+ [) i7 p P
39.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
, |7 k; m; g8 W- ^) x资料:正确9 R' }5 z/ D& K ]1 h! U8 i
8 L V' j, w( x: j
40.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。4 i: S( |% k* U' t: R2 {0 l
资料:正确( x* T, Q; U: a( d8 e& j
# G% L: M; v& R! x0 u5 F8 ^
41.当特征为离散型时,可以使用信息增益作为评价统计量。
6 O# {4 O3 q7 S' I资料:正确
. S+ D9 B4 p7 J* W4 S/ b2 G, l' b: b6 p8 l5 I
42.由不同的距离度量所确定的最近邻点是不同的
- X5 Y+ z! ^0 I! `1 D0 C资料:正确
# p' g9 h6 x) i, u0 K+ S/ n K) _8 r5 d
43.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
8 V4 { \% `0 V" J7 P资料:正确 x C) \6 E1 E
1 x$ V3 T Q8 |: S6 x$ {9 Z: D" s
44.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。; w4 Z5 F+ Z; k/ q: f
资料:错误
8 ]5 _3 G- m) h8 \& p9 T% a+ a" V0 [# W1 Y4 _
45.分拆方法是自底向上的方法。
( Z2 Q- d0 a! f* Y. x4 W资料:错误0 ~, e5 V; @1 k; Z$ N+ s8 [" |
h% V' p5 g: r% I/ i7 t- `
46.随着特征维数的增加,样本间区分度提高。% V) K5 j M, N k1 V/ \0 _
资料:错误
* o N- G, X I: ?3 T/ D. a6 B4 {4 j- L' z% h& P
47.两个对象越相似,他们的相异度就越高。7 h3 V6 A* B7 l' D5 Q) X9 S- Y3 [) S7 o
资料:错误) w1 J. } j+ X
% p; r4 A6 m+ f9 l, q
48.k值增大意味着整体模型变得复杂。! [' f8 \; O# c
资料:错误) ~: [% n, N/ B$ g$ i( P
9 p1 A2 A1 E- b7 k' t
49.交叉表可以帮助人们发现变量之间的相互作用。+ ~' P, H& ^9 m6 V! {( C
资料:正确" ` g) b- w5 I1 E J6 o
% N6 r `: q0 I' e: h
50.具有双隐层的感知机足以用于解决任何复杂的分类问题。9 D* `: a2 W; i u1 Q. i, s
资料:正确
( ]" P% j6 U: n& }, o
8 t: t% O) X7 Y; \+ O: C) a" O$ g! c
" Y, j8 e# I" M" a
" x3 @3 j. m# g2 {6 M( z& i. ]( T( m4 a1 D
) L: A: S, _2 R& ]
* W1 r+ Y, X: C' b) b4 H# o, }4 \9 k: l; X0 T
: s5 A; g/ C/ @* t |9 e. j+ @
" l& L; h! v% K7 K- M' ~ H X% l9 |8 u
2 ~8 q D5 g. S2 R
|
|