基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf

上传人:ylj18****70940 文档编号:73125644 上传时间:2023-02-15 格式:PDF 页数:1 大小:198.17KB
返回 下载 相关 举报
基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf_第1页
第1页 / 共1页
亲,该文档总共1页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf》由会员分享,可在线阅读,更多相关《基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf(1页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spark 编程模型 RDD 设计以及运行原理 一、RDD 介绍 RDD:弹性分布式数据集,是一个分区的只读记录的集合。也可以这样理解,是一个提供了许多操作接口的数据集合。它还包括容错、数据集内的数据可以并行处理等。二、RDD 操作类型 RDD 的操作类型分为两类,转换(transformations)和行动(action),转换是根据原有的 RDD 创建一个新的 RDD,行动是对 RDD 操作后把结果返回给 driver。RDD 的所有转换操作都是 lazy 模式,即 Spark 不会立刻结算结果,而只是简单的记住所有对数据集的转换操作。这些转换只有遇到 action 操作的时候才会开始计算

2、。三、RDD 依赖关系 RDD 提供了许多转换操作,每个转换操作都会生成新的 RDD,这时候新的 RDD 便依赖于原有的 RDD,这种 RDD 之间的依赖关系最终形成 DAG。RDD 之间的依赖关系分为两种,为窄依赖和宽依赖。宽依赖:RDD 的每个 partition 都依赖于父 RDD 的所有 Partition。窄依赖:只依赖一个或部分的 Partition。四、RDD partitioner 与并行度 每个 RDD 都有 Partitioner 属性,它决定了该 RDD 如何分区,当然 Partition 的个数还将决定每个 Stage 的 Task 个数。当前 Spark 需要应用设置 Stage 的并行 Task 个数(配置项为:spark.default.parallelism),在未设置的情况下,子 RDD会根据父 RDD 的 Partition 决定,如 map 操作下子 RDD 的 Partition 与父 Partition 完全一致,Union 操作时子 RDD的 Partition 个数为父 Partition 个数之和。如何设置 spark.default.parallelism 对用户是一个挑战,它会很大程度上决定 Spark 程序的性能。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁