基于Spark的机器学习资料35、SparkStreaming介绍.pdf-淘文阁

资源描述

《基于Spark的机器学习资料35、SparkStreaming介绍.pdf》由会员分享，可在线阅读，更多相关《基于Spark的机器学习资料35、SparkStreaming介绍.pdf（2页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spark Streaming 一、介绍 Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括 kafka、flume、twitter 等。Spark 的各个子框架核心都是 Spark Core。Spark Streaming 内部处理机制是：接受实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过 Spark Engine 处理这批数据，最终得到处理后的一批批结果数据。对应的批数据，在 Spark内核对应一个 RDD 实例，因此，对应流数据的 DStream 可以看成是一组 RD

2、Ds,即 RDD 的一个序列。Spark Streaming 的基本原理是将输入数据流以时间片（秒级）为单位进行拆分，然后以类似批处理的方式处理每个时间片数据，基本原理图如下：首先，Spark Streaming 把实时输入数据流以时间片t（如 1 秒）为单位切分成块。Spark Streaming 会把每块数据作为一个 RDD，并使用 RDD 操作处理每一小块数据。每个块都会生成一个 Spark Job 处理，最终结果也返回多块。二、容错 DStream 基于 RDD 组成，RDD 的容错性依旧有效，我们首先回忆一下 SparkRDD 的基本特性。1、RDD 是一个不可变的、确定性的可重复计

3、算的分布式数据集。RDD 的某些 partition 丢失了，可以通过血统（lineage）信息重新计算恢复；2、如果 RDD 任何分区因 worker 节点故障而丢失，那么这个分区可以从原来依赖的容错数据集中恢复；3、由于 Spark 中所有的数据的转换操作都是基于 RDD 的，即使集群出现故障，只要输入数据集存在，所有的中间结果都是可以被计算的。Spark Streaming 是可以从 HDFS 和 S3 这样的文件系统读取数据的，这种情况下所有的数据都可以被重新计算，不用担心数据的丢失。但是在大多数情况下，Spark Streaming 是基于网络来接受数据的，此时为了实现相同的容错处理

4、，在接受网络的数据时会在集群的多个 Worker 节点间进行数据的复制（默认的复制数是 2），这导致产生在出现故障时被处理的两种类型的数据：1）Data received and replicated：一旦一个 Worker 节点失效，系统会从另一份还存在的数据中重新计算。2）Data received but buffered for replication：一旦数据丢失，可以通过 RDD 之间的依赖关系，从 HDFS这样的外部文件系统读取数据。三、构建 Spark Streaming 作为构建于 Spark 之上的应用框架，Spark Streaming 承袭了 Spark 的编程风格，对

5、于已经了解 Spark的用户来说能够快速地上手。接下来以Spark Streaming官方提供的WordCount代码为例来介绍Spark Streaming 的使用方式。val conf=new SparkConf().setMaster(local2).setAppName(NetworkWordCount)val ssc=new StreamingContext(conf,Seconds(1)/Create a DStream that will connect to hostname:port,like localhost:9999 val lines=ssc.socketTextSt

6、ream(localhost,9999)/Split each line into words val words=lines.flatMap(_.split()import org.apache.spark.streaming.StreamingContext._/Count each word in each batch val pairs=words.map(word=(word,1)val wordCounts=pairs.reduceByKey(_+_)/Print the first ten elements of each RDD generated in this DStrea

7、m to the console wordCounts.print()ssc.start()/Start the computation ssc.awaitTermination()/Wait for the computation 1.创建 StreamingContext 对象同 Spark 初始化需要创建 SparkContext 对象一样，使用 Spark Streaming 就需要创建 StreamingContext 对象。创建 StreamingContext 对象所需的参数与 SparkContext 基本一致，包括指明 Master，设定名称(如 NetworkWordCo

8、unt)。需要注意的是参数 Seconds(1)，Spark Streaming 需要指定处理数据的时间间隔，如上例所示的 1s，那么 Spark Streaming 会以 1s 为时间窗口进行数据处理。此参数需要根据用户的需求和集群的处理能力进行适当的设置；2.创建 InputDStream 如同 Storm 的 Spout，Spark Streaming 需要指明数据源。如上例所示的socketTextStream，Spark Streaming 以 socket 连接作为数据源读取数据。当然 Spark Streaming 支持多种不同的数据源，包括 Kafka、Flume、HDFS/S

9、3、Kinesis 和 Twitter 等数据源；同样包括自己重写 Receiver方法来实现自己的消息处理例如 metaq。3.操作 DStream 对于从数据源得到的 DStream，用户可以在其基础上进行各种操作，如上例所示的操作就是一个典型的 WordCount 执行流程：对于当前时间窗口内从数据源得到的数据首先进行分割，然后利用 Map 和 ReduceByKey 方法进行计算，当然最后还有使用 print()方法输出结果；4.启动 Spark Streaming 之前所作的所有步骤只是创建了执行流程，程序没有真正连接上数据源，也没有对数据进行任何操作，只是设定好了所有的执行计划，当 ssc.start()启动后程序才真正进行所有预期的操作。四、DStream 的输入源在 Spark Streaming 中所有的操作都是基于流的，而输入源是这一系列操作的起点。输入 DStreams 和 DStreams 接收的流都代表输入数据流的来源，在 Spark Streaming 提供两种内置数据流来源：基础来源在 StreamingContext API 中直接可用的来源。例如：文件系统、Socket（套接字）连接和 Akka actors；高级来源如 Kafka、Flume、Kinesis、Twitter 等

展开阅读全文