|
【北京语言大学】大数据技术与应用-22春《大数据技术与应用》作业_3
试卷总分:100 得分:100
第1题,孤立森林算法属于
A、 基于统计的异常值检测方法
B、 基于密度的异常检测方法
C、 基于聚类的异常值检测
D、 基于决策树的异常检测
正确资料:
第2题,处理缺失值的方法有删除和
A、 替换
B、 复制
C、 修改
D、 屏蔽
正确资料:
第3题,from sklearnneighbors import KNeighborsClassifiernknn = KNeighborsClassifiernneighbors=3 n上面代码中可以看出KNN分类器的k值设置为
A、 1
B、 2
C、 3
D、 4
正确资料:
第4题,单个数据难以区分只能根据一组数据来确定行为是否异常这种类型的异常检测属于
A、 数据点异常
B、 上下文异常
C、 集合异常
D、 以上都不对
正确资料:
资料来源:谋学网(www.mouxue.com),K均值聚类方法的学习过程中每次迭代样本的类簇归属是按照
A、 每个样本分配给距离它最近的聚类中心
B、 每个样本分配给距离它最远的聚类中心
C、 每个样本分配给距离它第二近的聚类中心
D、 以上说法都不对
正确资料:
第6题,决策树的生成是一个递归过程在决策树基本算法中满足哪种情形会导致递归过程返回停止
A、 特征选择次数超过一定限制
B、 当前属性集为空,或所有样本在所有属性上取值相同
C、 决策树深度超过2
D、 以上都不对
正确资料:
第7题,利用pandas处理数据缺失值时用于填充缺失值的函数为
A、 isnull
B、 head
C、 fillna
D、 dropna
正确资料:
第8题,from sklearntree import DecisionTreeClassifiernclf = DecisionTreeClassifiernclffitXtrainYtrain npredictions = clfpredictXtestn上面代码第4行中Xtest表示
A、 训练数据集
B、 测试数据集
C、 训练数据的类别标签数组
D、 测试数据的类别标签数组
正确资料:
第9题,项集 S ={尿布啤酒}则项集S称为
A、 1项集
B、 2项集
C、 3项集
D、 4项集
正确资料:
资料来源:谋学网(www.mouxue.com),常用于多变量噪声值异常值处理的方法是
A、 等深分箱
B、 聚类法
C、 等宽分箱
D、 盖帽法
正确资料:
第11题,数据离散程度分析的常用指标包括
A、 极差
B、 标准差
C、 四分位差
D、 离散系数
正确资料:、B、C、D
资料来源:谋学网(www.mouxue.com),聚类分析可以用于
A、 顾客分组
B、 分类
C、 回归
D、 找出显著影响
正确资料:、D
第13题,异常检测的应用范围包括
A、 网络入侵检测
B、 系统健康性检测
C、 信用卡交易欺诈检测
D、 设备故障检测
正确资料:、B、C、D
第14题,数据挖掘Data Mining则是知识发现KDD的核心部分它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程这些信息的表现形式为
A、 规则
B、 概念
C、 规律
D、 模式
正确资料:、B、C、D
资料来源:谋学网(www.mouxue.com),在数据清洗过程中用于处理噪声值的方法包括
A、 盖帽法
B、 分箱法
C、 聚类法
D、 以上都不对
正确资料:、B、C
第16题,众数是数据离散程度分析常用指标之一
√、T
×、F
正确资料:×
第17题,关联分析的目标是以有效的方式发现所有模式
√、T
×、F
正确资料:×
第18题,由于数据挖掘理论涉及到的面很广它实际上起源于多个学科如建模部分主要起源于统计学和机器学习统计学方法以模型为驱动常常建立一个能够产生数据的模型而机器学习则以算法为驱动让计算机通过执行算法来发现知识
√、T
×、F
正确资料:√
第19题,分箱法是针对连续的数值型数据中噪声进行处理
√、T
×、F
正确资料:×
资料来源:谋学网(www.mouxue.com),分类是一种对数值型连续随机变量进行预测和建模的监督学习算法
√、T
×、F
正确资料:×
第21题,数据挖掘Data Mining则是知识发现KDD的核心部分它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程
√、T
×、F
正确资料:√
第22题,数据挖掘的过程都是有统一一致的步骤的
√、T
×、F
正确资料:×
第23题,数据按照从小到大的顺序排列后当数据个数为偶数时中位数为中间两个数任选一个
√、T
×、F
正确资料:×
第24题,两个或多个事物之间无论存在多强的关联关系其中一个事物也无法通过其他事务预测到
√、T
×、F
正确资料:×
资料来源:谋学网(www.mouxue.com),数据按照从小到大的顺序排列后当数据个数为奇数时中位数为中间三个数的平均值
√、T
×、F
正确资料:×
|
|