【北语网院】大数据技术与应用22春《大数据技术与应用》作业_4

admin · 发表于 2022-8-11 02:48:20

【北京语言大学】大数据技术与应用-22春《大数据技术与应用》作业_4
试卷总分:100 得分:100
第1题,决策树生成过程中以信息增益率作为特征选择准则生成决策树的算法是
A、 ID3
B、 C4.5
C、 CART
D、以上都不对
正确资料:

第2题,利用pandas处理数据缺失值时用于发现缺失值的函数为
A、 isnull
B、 head
C、 tail
D、 info
正确资料:

第3题,项集&nbspS&nbsp={&nbsp}则项集S称为
A、 1项集
B、 2项集
C、 3项集
D、空集
正确资料:

第4题,from&nbspfcmeans&nbspimport&nbspFCMnfcm&nbsp=&nbspFCMnclusters=4n从上面代码可以判断模糊C均值聚类的聚类数为
A、 1
B、 2
C、 3
D、 4
正确资料:

资料来源：谋学网（www.mouxue.com）,以下不属于不平衡数据处理方法的是
A、数据重采用
B、类别均衡采样
C、代价敏感矩阵
D、加权矩阵
正确资料:

第6题,用训练好的K均值聚类实例对数据进行聚类操作的语句是
A、 from sklearn.cluster import KMeans
B、 estimator=KMeans(n_clusters=3)
C、 rf.fit(Xtrain,Ytrain)
D、 predictions=rf.predict(Xtest)
正确资料:

第7题,利用pandas处理数据缺失值时用于丢弃重复值的函数为
A、 drop_duplicates
B、 duplicated
C、 fillna
D、 dropna
正确资料:

第8题,创建K均值聚类算法实例的语句是
A、 from sklearn.cluster import KMeans
B、 estimator=KMeans(n_clusters=3)
C、 rf.fit(Xtrain,Ytrain)
D、 predictions=rf.predict(Xtest)
正确资料:

第9题,从软件库中导入孤立森林isolation&nbspforest算法类的语句是
A、 from sklean.ensemble import IsolationForest
B、 LocalOutlierFactor
C、 clf= IsolationForest(max_samples=100,random_state=0)
D、 clf.fit(X_train)
E、 y_pred=clf.fit_predict(X)
F、 y_pred_test = clf.predict(X_test)
正确资料:

资料来源：谋学网（www.mouxue.com）,数据集{1235789}的中位数是
A、 3
B、 5
C、 7
D、 4
正确资料:

第11题,分箱法包括
A、等深分箱
B、众数分箱
C、等宽分箱
D、以上都不对
正确资料:、C

资料来源：谋学网（www.mouxue.com）,关联规则反映的是
A、可分类性
B、可分割性
C、事物之间相互依存性
D、事物之间相互关联性
正确资料:、D

第13题,以下哪些是数据可视化图表
A、柱状图
B、折线图
C、饼图
D、散点图
正确资料:、B、C、D

第14题,关联分析发现的模式表示形式为
A、蕴涵规则
B、特征子集
C、微分方程
D、线性方程
正确资料:、B

资料来源：谋学网（www.mouxue.com）,数据挖掘是适应信息社会从海量数据中提取信息的需要而产生的新学科也是交叉学科包括
A、统计学
B、机器学习
C、数据库
D、模式识别
正确资料:、B、C、D

第16题,高层次数据无法向低层次转化会出现F
√、T
×、F
正确资料:×

第17题,分类算法的目的是找到数据的最优拟合
√、T
×、F
正确资料:×

第18题,定性数据包括离散数据和连续数据
√、T
×、F
正确资料:√

第19题,定类数据层次比定序数据高
√、T
×、F
正确资料:×

资料来源：谋学网（www.mouxue.com）,回归算法的目的是寻找决策边界
√、T
×、F
正确资料:×

第21题,上世纪&nbsp70&nbsp年代随着数据库管理系统趋于成熟存储和查询百万兆字节甚至千万亿字节成为可能而且数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变因此提取复杂深度系信息能力非常强啊
√、T
×、F
正确资料:√

第22题,3Sigma方法异常检测算法假设数据服从泊松分布
√、T
×、F
正确资料:×

第23题,等深分箱方法是指每个分箱中样本取值范围一致
√、T
×、F
正确资料:×

第24题,盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除
√、T
×、F
正确资料:×

资料来源：谋学网（www.mouxue.com）,分类算法的输出为连续数据
√、T
×、F
正确资料:×

		自动登录	找回密码
密码			会员注册

VIP会员，3年作业免费下！	奥鹏作业，奥鹏毕业论文检测	新手作业下载教程，充值问题	没有找到答案，请在此处留言！
2022年5月最新全国统考资料	投诉建议，加盟合作！		奥鹏课程积分软件(2021年最新)