《Spark编程基础及项目实践章节练习题项目8+答案.docx》由会员分享,可在线阅读,更多相关《Spark编程基础及项目实践章节练习题项目8+答案.docx(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、习题81.选择题(1)按照任务划分,下列不是机器学习模型的是( D )A. 回归模型B. 分类模型C. 结构化学习模型D. 结构化统计模型(2)下列不是MLlib数据类型的是( D )。A. 本地向量B. 标记向量C. 本地矩阵D. 向量矩阵(3)如果想把一列特征进行数值化,使得相应的特征索引化要使用什么方法( A )。A. StringIndexerB. IndexToStringC. StandardScalerD. VectorIndexer(4)下面哪个不是MLlib的特征选择方法( B )。A. VectoerSlicerB. KafSelectorC. RformulaD. Chi
2、SqSelector(5)在特征提取过程中,通过计数方法将一组文本文档转换为向量使用什么方法( D )。A. CountCentorizerB. StringIndexerC. StringVectorD. Tokenizer2.操作题 使用Hadoop用户名登录Linux系统,启动Spark-shell,使用Hadoop提供的Shell完成如下操作:(1)下载数据集https:/archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data,该数据集为鸢尾花数据统计,然后对这些数据集进行统计工作:数据数量、每一列最大值、最小值
3、、均值、方差。import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.stat.MultivariateStatisticalSummary, Statisticsval observations=sc.textFile(G:/spark/iris.data).map(_.split(,).map(p = Vectors.dense(p(0).toDouble, p(1).toDouble, p(2).toDouble, p(3).toDouble)val summary: MultivariateSta
4、tisticalSummary = Statistics.colStats(observations)println(summary.count)150println(summary.mean)5.843333333333332,3.0540000000000003,3.7586666666666666,1.1986666666666668println(summary.variance)0.685693512304251,0.18800402684563744,3.113179418344516,0.5824143176733783println(summary.max)7.9,4.4,6.
5、9,2.5println(summary.min)4.3,2.0,1.0,0.1println(summary.normL1)876.4999999999998,458.1000000000001,563.8000000000002,179.79999999999995println(summary.normL2)72.27620631992245,37.77631533117014,50.82322303829225,17.38677658451963println(summary.numNonzeros)150.0,150.0,150.0,150.0(2)使用我们上述下载的鸢尾花数据集进行决策树分类模型构建、并对该分类模型进行评估、构建决策树回归模型、并对该回归模型进行评估。请参考本文8.4决策树分析。