|
22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00001
9 U$ Q3 b) X: T! a1 k c试卷总分:100 得分:100+ u8 L9 |0 n2 T: ]
一、单选题 (共 20 道试题,共 40 分). z" |% H$ O$ _. t: s/ S5 ]
1.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
K2 N% T/ F2 D& yA.简单函数变换
# n$ X, b5 d- P/ R7 DB.规范化9 T) D1 b6 j0 u. Q' p( }/ ~) g8 H
C.属性构造$ [/ {& P. ?0 R& p$ d
D.连续属性离散化
6 [+ n8 B2 m% n9 V. z m资料:$ k' d& F; ?; s8 H
5 ~ u. U( u0 q) K; V* ?9 R5 Z
2.实体识别的常见形式()
) G* r# o {" Y+ X+ ^- q4 A- [8 Z- WA.同名异义
2 ^9 x w, P) BB.异名同义
9 r, i- y( U7 ~4 f2 \C.单位不统一. T; X4 A2 k" h/ y6 e) W; b: S
D.属性不同
0 S0 Q' G3 b) `; k; J4 |7 X资料:* Y, b' s7 V0 |2 m% e' d
" O" n2 D! P- A2 G7 {
3.置信度(confidence)是衡量兴趣度度量( )的指标。7 A, `$ V$ H/ Q0 q7 U" K
A.简洁性9 I* J$ W: ~2 r* s( \6 P
B.确定性* |( T6 o3 {% M+ X
C.实用性
' D) c/ m( ]& |9 HD.新颖性
{' s0 |, q0 c资料:
/ W6 F2 f1 U7 U; E P
( m1 E; T: h8 N+ e2 h; V4.以下哪个不是处理缺失值的方法()* d8 L1 x6 a- n2 n1 H3 m9 p
A.删除记录
- c2 g y; _/ v* Y" A0 dB.按照一定原则补充. g1 @4 h' X7 Z# o5 B+ m
C.不处理; V- G( w7 p8 y9 N; b, c
D.随意填写+ H9 ^, Y) v% I" S5 F! a H
资料:
7 {$ }% ~' [) N6 D9 [& }# H+ H; n8 M
9 W) P" G+ g3 n8 b1 P3 ]! P5.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
6 v, z8 X. Q$ M2 I; y$ M ^! _A.4
9 ^8 H/ Y& y5 g5 v2 d' _1 U8 H7 i1 FB.5/ `4 R# M+ O$ J: o" x0 Y0 {
C.62 P- l7 q, ]2 {1 |
D.7
- J* s. |5 W6 B& O, V3 _资料:
0 J' ?6 n/ S6 `. S, A
7 q4 H& u) w" E7 T) O5 e6 u6.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。: q" l; c% |6 e9 V
A.1
: Z: |8 }1 Y6 T5 G# K9 q$ Y6 f( MB.2+ G ^ Q1 V& B ^# l
C.38 D# }& b3 H. e5 z( O
D.4
|4 x1 S0 {9 A% H资料:8 e* F/ e# J7 D# D' |
% m/ d# Y6 k2 g$ S/ \# G7.在一元线性回归模型中,残差项服从()分布。
7 G* G: z- P4 S7 R* ~3 @, }- NA.泊松$ |& b$ T( \, v4 E4 Z) ^9 S
B.正态
# s4 b5 d3 B& \1 b6 dC.线性
/ z+ _6 e" ]+ ?D.非线性
, b0 S) F2 p1 x资料:
! U1 `- q m: D- B. U' w) G- Y1 h' E& i3 h: m* z
8.以下哪一项不是特征工程的子问题()
; |: d+ y/ |2 r# w! qA.特征创建
" \$ I, N. |5 E; g" ]* ^2 RB.特征提取
, {% x: ]" M2 c3 L+ o7 `/ q6 \C.特征选择
( t7 ~. z/ @' W( UD.特征识别
. F% D! B4 F- M7 v- p; z资料:
4 D1 G( ]6 C3 O, o' _' Y+ s. C2 `, w, R2 X% H! f
9.聚类的最简单最基本方法是()。
* f- j. b" l! ]$ PA.划分聚类
/ J$ Q3 q# C# d% Q; Z6 oB.层次聚类3 F2 L2 r, m, a9 d5 q
C.密度聚类' T$ y2 p' l5 v% ?: K& H- X3 ?
D.距离聚类
4 S1 b5 j- r1 {2 v& g资料:
/ e- ^ @$ d" c, @
! W" R! a d3 N* e7 O: K6 g10.单层感知机模型属于()模型。1 z2 B t) n. C# U
A.二分类的线性分类模型& D( _: ?( N6 i9 n2 k7 y. q3 P
B.二分类的非线性分类模型
/ J L+ U/ g7 N0 {7 n2 D; a3 z3 iC.多分类的线性分类模型
8 H D' y( Z* {! c) c2 i3 yD.多分类的非线性分类模型
. y# J) H% B8 X( O7 x: c: P M! s资料:, |% Q5 a4 R) w7 S7 q4 {
; f! u6 k0 q! D) x# m; U11.下列两个变量之间的关系中,哪个是函数关系()。
B- M8 _8 w7 L' @4 z; aA.人的性别和他的身高, C( l9 b1 o. K/ c3 f3 i, h
B.人的工资与年龄
: T: ]7 Z, S/ i- E4 i5 p7 VC.正方形的面积和边长9 c. `+ ^' \2 J& J% ~
D.温度与湿度
- B8 @$ s3 M; H) M/ \资料:7 ]& f" W8 q9 v3 {5 m
( a( D; e- I; N8 W12.特征选择的四个步骤中不包括()
2 t1 W7 q; t* s2 `! xA.子集产生
3 W# E3 R/ F, V. o6 x0 y& \B.子集评估% O( _( M2 c9 k- N6 d3 m, g8 s
C.子集搜索( |; h- ~3 \( b' x8 t9 Q
D.子集验证: p" Y! X6 F4 h5 F1 c
资料:8 E, S5 C" b9 J7 @" W
9 s- C8 N3 M; F! `* w
13.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。2 `/ q" D p/ |7 O
A.最优回归线
" N& i3 m1 Z: i, B9 d( LB.最优分布线* y% r3 t& P- E. p
C.最优预测线* f( a P% S* `8 ~+ h
D.最佳分布线* y! B1 _8 d5 Q
资料:5 B( a2 l9 o9 H
3 S. x; [' p% ?& h14.单层感知机拥有()层功能神经元。
5 G3 a; h: A6 Q* ?( E: l$ p, l4 aA.一
) `+ N' D; P( s8 T8 lB.二% ~" s% D3 o* ^4 ~
C.三3 Y" N( b' _( v* W
D.四$ ~1 O1 v6 L/ {9 _! N) p
资料:; v1 Y6 U! @9 |# z+ e
/ r5 H% D2 M, x15.一元线性回归中,真实值与预测值的差称为样本的()。
4 |: {* F7 L5 B6 g/ E9 n+ CA.误差
2 p/ U, ]! c, ?3 h1 r* }8 P' oB.方差% D P8 w% e* M* ~
C.测差3 m2 z1 o( r9 w+ G! C7 y4 d5 `
D.残差
8 G }/ q1 d* z# w) c7 Z+ F资料:
4 j8 [3 v( a+ N8 R" g; A$ ]
5 u4 _( \- w/ f( j5 F! P16.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()3 Z$ \4 ?; `% ?& N- E+ G; H i. ?
A.异常值
* H( O/ y* ]% t2 ^) j3 x8 nB.不一致的值1 V7 L+ n% [; Q
C.重复值
* o. V t2 O' s+ S& KD.缺失值
7 E x- m2 b0 \# p- r8 [( ?资料:* r" F$ `& z' r
$ g0 y8 x8 [4 C4 l9 H; B# b' `+ |17.通过变量标准化计算得到的回归方程称为()。" {" o1 k. |" f% W% R
A.标准化回归方程
2 D, a5 \, c( v; jB.标准化偏回归方程2 {0 Q' ^; d/ c8 f
C.标准化自回归方程
+ q2 h6 G" y# q5 g% h1 JD.标准化多回归方程3 t9 P* X# k6 g$ T/ R: n8 k
资料:
, g8 R8 H1 w) }; a! e6 K7 h+ z& z+ k; o' T
18.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
2 j" d- c! j' ^$ ^( f* t( aA.K-means3 F, O2 l2 K% u& d9 @4 \
B.Bayes Network; t, T. }( X" U6 J( @) D
C.C4.59 e5 N* X' L$ _4 N l+ H
D.Apriori+ {6 o5 T5 ]2 q
资料:
: p/ Z, I" E& a8 j1 Q3 B. F+ \0 _+ }* `! j; X
19.BFR聚类用于在()欧氏空间中对数据进行聚类
* y/ ^! H! B/ QA.高维( u- u9 O8 v/ g- D0 g( N
B.中维
, S, l5 G% }$ w' Z$ e. a, ZC.低维7 X3 Y W& A+ j
D.中高维
8 D6 U( @7 H6 G- x$ t资料:
5 J- x. y& \$ V( Y' M& P7 H$ e8 T( Y
" E9 N2 Y. I/ x b$ g+ {20.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。4 W! y$ @9 x( j/ r! e
A.越小* Q. _% Y$ ? r
B.越大
1 s, J$ r6 M" j+ W$ oC.无关
( |" E: O6 ]( l4 z3 w( hD.不确定% e, }1 P7 D7 W% h
资料:* F" O+ z" f1 a4 L7 \
2 b/ z5 D; Q& K
二、多选题 (共 10 道试题,共 20 分)% }6 D9 X @$ K7 {
21.一元回归参数估计的参数求解方法有()。
0 W+ X# E. o4 J/ |2 OA.最大似然法5 e# Q- X5 O+ c$ c( {: j
B.距估计法+ _6 o! b# W& q& r3 s
C.最小二乘法% x# M* I0 q2 _' B2 b0 `$ s7 p
D.欧式距离法
: z. E0 Q; g0 }) Q; b y! K1 n资料:C
* M+ M, r x2 [9 g) f: S
! G8 |- n: p) e; ]22.距离度量中的距离可以是()
X# D3 E( m) t$ V7 p3 ^( @' {( ` sA.欧式距离, l1 L9 Y7 l H* L+ Z
B.曼哈顿距离$ k, M: L* H/ I" I: x9 H! I- J
C.Lp距离
" \- A. M3 t0 K# h" GD.Minkowski距离! `; M+ D ?" z2 |3 y& M
资料:CD
% `7 M3 R& p3 E1 T! V
' Q, Z; `1 h& r" K23.对于多层感知机,()层拥有激活函数的功能神经元。
# r; a; _+ v0 e* d' |0 OA.输入层8 b. g' `' s' @: z( C
B.隐含层
/ _7 k1 B. b- gC.输出层
/ c x/ J; F. G资料:C& n& G9 U4 Y2 C% r' j3 e
, O" k J5 }* `) p# G. ?6 N
24.Apriori算法的计算复杂度受()影响。* U) U) s% q: e" ~
A.支持度阈值; k* H z9 `; K# D, }# Y6 Q
B.项数+ \) L" q3 w# i
C.事务数5 W6 q- g7 l' v
D.事务平均宽度! Y4 `! x2 C( j8 }, V5 A* z# T; K8 d
资料:CD
# }. n( D+ u9 M3 a# u* h9 J7 U
8 S/ r; N' L- L25.k近邻法的基本要素包括()。
2 q- S- D7 C% p. G! F; U2 cA.距离度量
: b- M7 U! c E) D S) s4 tB.k值的选择+ s G8 `" g% B* `* r
C.样本大小+ P7 b1 M6 @0 e
D.分类决策规则
# ?* X2 s8 \5 X8 n% u资料:
8 t4 ]$ o! L4 T3 o _ U- `6 H: N- j
26.系统日志收集的基本特征有()
2 }9 Q0 k3 Y% H' Z9 A6 u! o% a: K4 RA.高可用性
0 K/ f! Y7 n* d" I" sB.高可靠性; _. o7 | k8 M3 [4 ]) z: r
C.可扩展性
$ Y g M3 q) Y- s0 ]- H/ q8 K7 oD.高效率
) \. `1 F0 [8 V+ t8 g) _资料:C
" k3 O6 \" \% b( B" E) X8 b+ p
# j/ l5 _5 h6 Q/ ?27.什么情况下结点不用划分(); V: b2 P% K- X8 I! l8 g4 z
A.当前结点所包含的样本全属于同一类别- X9 M0 K: `# k
B.当前属性集为空,或是所有样本在所有属性上取值相同6 P7 @6 _* `+ t6 Y$ `/ S, k# W
C.当前结点包含的样本集为空
/ ~9 D& ?7 l2 P& ^$ { JD.还有子集不能被基本正确分类
) |. S6 j/ T. B$ b资料:C
& C& ?. ]9 _8 r5 D* ^' ~; m
( }) N& ^* d* g+ H28.多层感知机的学习过程包含()。
- ]5 Y G' S( LA.信号的正向传播( [6 o0 i& Q3 k
B.信号的反向传播
+ v9 Z8 |6 K( Z+ h' h/ _C.误差的正向传播, I% Z* [' \6 r- ]7 |
D.误差的反向传播
i5 a& p5 z4 b* j9 k( q2 |# _1 W资料:
8 f- }0 |0 x! `3 \; A
( L* U g+ [0 _) J" m; a29.聚类的主要方法有()。7 b* m" y- Y" ~4 [# j
A.划分聚类& x; M( H/ y0 j$ ? S+ G9 Y. Q* @3 {
B.层次聚类* k, O6 m' _- q0 f$ g
C.密度聚类
1 {) m q0 a! lD.距离聚类3 G' r: J" P1 ?% y% S) r9 `2 H
资料:C8 [( X6 Y& Q4 C w0 x. z7 x
) \( d' r, u$ j5 y1 `+ N9 n30.层次聚类的方法是()# r0 W; T5 a& Y& o; |; F
A.聚合方法
0 P7 {; t4 ?$ A, W4 fB.分拆方法4 B3 x6 A! W f3 r5 ~! n
C.组合方法
5 W8 @+ x) T& `5 D% ?% dD.比较方法
. L% C$ G" G+ d资料:
6 K9 O% D! J0 L {; b5 A+ m2 _2 K6 S, O1 Z3 ], W2 G
三、资料来源:谋学网(www.mouxue.com) (共 20 道试题,共 40 分)
* t* {& n2 Z3 M, I5 A31.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
9 D& D+ i! o& E( M. r7 |$ J1 Q资料:错误( ~& h3 K' E, r) |3 B T
& J0 v" I* C9 @3 E0 f( [32.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布" ]5 ^& \. @9 X- L& G1 M- u' M
资料:正确
# d6 U2 C# Y; _+ w, Q7 V4 p) @$ \! A+ N1 \3 A9 ^6 j
33.信息熵越小,样本结合的纯度越低7 S+ B5 i5 P/ `: s S
资料:错误
3 x1 x3 ?* A. n/ r# Y, G% o3 @
' ?! k1 A& N# e- d! l+ U9 G34.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。5 v1 n1 m9 j. z
资料:正确
+ K9 w3 z/ b, O1 C' Z a# i8 V1 w: k
35.BFR聚类簇的坐标可以与空间的坐标保持一致。
8 D1 ?" Z6 d& I! R资料:错误
: l' o8 ?5 |8 ` t. ?* ?$ z/ }3 c9 I7 m- w) h
36.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
1 C# o/ V( C4 M6 N) b. E4 i资料:正确3 o; J. x. w/ W2 E
' H1 p1 a- p: G A% }4 T
37.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。! c7 c: `$ C$ P% }6 _; i- L" q; t
资料:正确; O3 W# n7 u/ `5 E
. y- h4 H7 ~5 `8 d; k/ O38.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
0 m) ~9 r. a& b资料:正确7 k) p, v; x# g# R
& d& P+ w! W, w+ e1 p9 [( [# }39.多元线性回归模型中,标准化偏回归系数没有单位。
0 c/ }: H9 r/ l$ T. Y6 K( F资料:正确$ N" H" f: _/ O% @2 n# L- I
; }. g" k& a& p5 @, l- q
40.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。- f k: m. T/ `# u7 E8 m* t4 a
资料:正确' X& ^# n- g3 p% i# @& P
0 v# |( U# |3 z
41.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。7 Z) e% _# z# W0 Z9 h" t" T+ X
资料:正确
! g+ Y+ @, O# L3 c, Z- G/ g6 j0 B0 N7 v6 `, V+ _+ q6 N
42.赤池信息准则是衡量统计模型拟合优良性的一种标准。
0 d) O9 k2 ?- T资料:正确
7 D' H* v3 \0 W) o' f3 q
# U$ P. ^6 M) E2 @43.交叉表可以帮助人们发现变量之间的相互作用。 k7 ]6 G( ^3 }
资料:正确
+ J5 ?- R1 d+ q n* T0 Q4 U. n8 q! M1 q- F3 A
44.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。) c1 a& ~5 R, y8 E3 c2 v- z) Z9 |* X
资料:正确
' U) k! i& \: u! z u. D" i
. m2 j0 Z" \4 ^% G( f/ ~45.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。5 j+ }! h8 T: h& b) Z' _0 D
资料:正确* q- ~8 k# g- u7 F8 s- R; l6 T
. w, K) C. U9 n
46.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。/ B3 S1 \! e" d0 J
资料:错误
3 J- G# n4 F+ F8 X
2 r# {+ n3 n m47.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的"近似误差"会减小,"估计误差"会增大,预测结果会对近邻的点实例点非常敏感。) g; |* x; P4 O; G
资料:正确' D0 Z Q B' y
& k6 H2 Q) }; F9 b& ?8 u1 g) J48.聚合方法是自底向上的方法。, l9 ?# G0 K9 T, F \2 V" f: i
资料:正确
) K4 M' g1 B* B3 o* y
6 c# ~% ^5 E" Z; n% l( F49.对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
0 |8 x( G; H s( _) ^% j# d资料:正确- e2 g( q# L8 g, a
3 a6 _, O2 y- m7 R7 g
50.利用K近邻法进行分类时,k值过小容易发生过拟合现象。3 A) |; e* o* X- P1 P b: R- Y* x
资料:正确
( O+ H3 |2 B6 c; U& f' V8 }/ g0 L7 ~4 S
8 m, K1 D& q7 S, [ ~
1 \( T* y8 ^: Y* e. o) r9 n% \% Q9 N9 E, Q
# U% u- A+ Z. X/ d& F! D
: A, d- y. F% A j5 o% U" M9 B, @- h$ K( f. T& m
8 M" g1 F/ m, q3 `1 T
; I$ \. C" m, o" V
: k+ J' F) y6 d0 q8 V+ T
6 E/ Z3 V' r8 L! \7 X3 c. r* V7 r# @8 [3 q: ]- `
|
|