Spark编程基础及项目实践章节练习题项目8+答案.docx-淘文阁

资源描述

《Spark编程基础及项目实践章节练习题项目8+答案.docx》由会员分享，可在线阅读，更多相关《Spark编程基础及项目实践章节练习题项目8+答案.docx（2页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、习题81.选择题（1）按照任务划分，下列不是机器学习模型的是（ D ）A. 回归模型B. 分类模型C. 结构化学习模型D. 结构化统计模型（2）下列不是MLlib数据类型的是（ D ）。A. 本地向量B. 标记向量C. 本地矩阵D. 向量矩阵（3）如果想把一列特征进行数值化，使得相应的特征索引化要使用什么方法（ A ）。A. StringIndexerB. IndexToStringC. StandardScalerD. VectorIndexer（4）下面哪个不是MLlib的特征选择方法（ B ）。A. VectoerSlicerB. KafSelectorC. RformulaD. Chi

2、SqSelector（5）在特征提取过程中，通过计数方法将一组文本文档转换为向量使用什么方法（ D ）。A. CountCentorizerB. StringIndexerC. StringVectorD. Tokenizer2.操作题使用Hadoop用户名登录Linux系统，启动Spark-shell，使用Hadoop提供的Shell完成如下操作：（1）下载数据集https:/archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data，该数据集为鸢尾花数据统计，然后对这些数据集进行统计工作：数据数量、每一列最大值、最小值

3、、均值、方差。import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.stat.MultivariateStatisticalSummary, Statisticsval observations=sc.textFile(G:/spark/iris.data).map(_.split(,).map(p = Vectors.dense(p(0).toDouble, p(1).toDouble, p(2).toDouble, p(3).toDouble)val summary: MultivariateSta

4、tisticalSummary = Statistics.colStats(observations)println(summary.count)150println(summary.mean)5.843333333333332,3.0540000000000003,3.7586666666666666,1.1986666666666668println(summary.variance)0.685693512304251,0.18800402684563744,3.113179418344516,0.5824143176733783println(summary.max)7.9,4.4,6.

5、9,2.5println(summary.min)4.3,2.0,1.0,0.1println(summary.normL1)876.4999999999998,458.1000000000001,563.8000000000002,179.79999999999995println(summary.normL2)72.27620631992245,37.77631533117014,50.82322303829225,17.38677658451963println(summary.numNonzeros)150.0,150.0,150.0,150.0（2）使用我们上述下载的鸢尾花数据集进行决策树分类模型构建、并对该分类模型进行评估、构建决策树回归模型、并对该回归模型进行评估。请参考本文8.4决策树分析。

展开阅读全文