Spark streaming-1

1、NetworkWordCount（时间间隔内的计数）

1.1、开启发送数据的服务器（TCPServer）

<span style="font-family:Times New Roman;font-size:18px;">cd /home/jianxin/spark
java -jar LoggerSimulation.jar 9999 10
java -jar NetworkWordCount.jar localhost 9999
netstat -nalp | grep 9999
lsof -i:9999</span>

1.2、

<span style="font-family:Times New Roman;font-size:18px;">cd /opt/spark/spark/bin
bin/run-example org.apache.spark.examples.streaming.NetworkWordCount 9999 // Spark自带例子
spark-submit --class cn.com.szhcf.streaming.NetworkWordCount --jars /home/jianxin/spark/NetworkWordCount.jar /home/jianxin/spark/NetworkWordCount.jar localhost 9999 </span>

2、HDFSWordCount（读取文件系统中的文件计数）

java -jar HdfsWordCount.jar /home/jianxin/spark/sourceDir

spark-submit --master local[*] --class cn.com.szhcf.streaming.HdfsWordCount --jars /home/jianxin/spark/HdfsWordCount.jar /home/jianxin/spark/HdfsWordCount.jar /home/jianxin/spark/sourceDir

3、StatefulNetworkWordCount（截止到目前累加计数）

bin/run-example org.apache.spark.examples.streaming.StatefulNetworkWordCount 192.168.3.21 9999 // Spark自带例子
bin/spark-submit --master spark://bigdata0:7077 --class cn.com.szhcf.streaming.StatefulNetworkWordCount --jars /home/jianxin/spark/StatefulNetworkWordCount.jar /home/jianxin/spark/StatefulNetworkWordCount.jar 192.168.3.21 9999

4.1、WindowCounter（时间窗口计数，间隔3秒钟，3秒钟计算一次）

Usage: WindowCounter <master> <hostname> <port> <interval> <windowLength> <slideInterval>
XXX 192.168.3.21 9999 3 3 3

bin/spark-submit --master spark://bigdata0:7077 --class cn.com.szhcf.streaming.WindowCounter  --jars /home/jianxin/spark/WindowCounter.jar /home/jianxin/spark/WindowCounter.jar XXX 192.168.3.21 9999 3 3 3

4.2、WindowHotWordSort（时间窗口内热门词排序）

spark-submit --master spark://bigdata0:7077 --class cn.com.szhcf.streaming.WindowCounter  --jars /home/jianxin/spark/WindowHotWordSort.jar /home/jianxin/spark/WindowHotWordSort.jar XXX 192.168.3.21 9999 3 3 3

5、Kafka（读取Kafka中的数据计数）

bin/run-example org.apache.spark.examples.streaming.KafkaWordCount bigdata0,bigdata1,bigdata2 console-consumer-56431 flume-kafka-1 1

spark-submit --master spark://bigdata0:7077 --class cn.com.szhcf.streaming.KafkaWordCount  --jars /home/jianxin/spark/KafkaWordCount.jar /home/jianxin/spark/KafkaWordCount.jar bigdata0,bigdata1,bigdata2 console-consumer-56431 flume-kafka-1 1

6、Flume（FlumeEventCount）

先启动AvroSink(6667)
run-example org.apache.spark.examples.streaming.FlumeEventCount bigdata3 6667（要在bigdata3上启动吗？不用）

spark-submit --master spark://bigdata0:7077 --class cn.com.szhcf.streaming.FlumeEventCount  --jars /home/jianxin/spark/FlumeEventCount.jar /home/jianxin/spark/FlumeEventCount.jar bigdata3 6667 

bigdata3启动HTTPSource(6666)和AvroSource(6667)
flume-ng agent -n http_self_to_avro_spark -c conf/ -f /opt/flume/flume/conf/http_self_to_avro_spark

7、HBase

时间： 2024-11-08 00:44:01

Spark streaming-1的相关文章

Dataflow编程模型和spark streaming结合

Dataflow编程模型和spark streaming结合主要介绍一下Dataflow编程模型的基本思想,后面再简单比较一下Spark streaming的编程模型 == 是什么 == 为用户提供以流式或批量模式处理海量数据的能力,该服务的编程接口模型(或者说计算框架)也就是下面要讨论的dataflow model 流式计算框架处理框架很多,也有大量的模型/框架号称能较好的处理流式和批量计算场景,比如Lambda模型,比如Spark等等,那么dataflow模型有什么特别的呢? 这就要要从

Spark Streaming源码解读之Job详解

一:Spark Streaming Job生成深度思考 1. 做大数据例如Hadoop,Spark等,如果不是流处理的话,一般会有定时任务.例如10分钟触发一次,1个小时触发一次,这就是做流处理的感觉,一切不是流处理,或者与流处理无关的数据都将是没有价值的数据,以前做批处理的时候其实也是隐形的在做流处理. 2. JobGenerator构造的时候有一个核心的参数是jobScheduler, jobScheduler是整个作业的生成和提交给集群的核心,JobGenerator会基于DStream生

Spark Streaming从Kafka中获取数据，并进行实时单词统计，统计URL出现的次数

1.创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374 2.启动Kafka A:安装kafka集群:http://blog.csdn.net/tototuzuoquan/article/details/73430874 B:创建topic等:http://blog.csdn.net/tototuzuoquan/article/details/73430874 3.编写Pom文件 <?xml v

Spark学习笔记——Spark Streaming

许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用, 还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码. Spark Streaming 使用离散化流( discretized stream)作为抽象表示, 叫作 DStream. DStream 是随时间推移而收到的数据的序列.在内部,每个时间区间收到

spark streaming (二)

一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new StreamingContext(conf, Seconds(1)); StreamingContext, 还可以使用已有的SparkContext来创建

关于IDEA开发环境下的Kafka+Spark Streaming的classpath配置方式

一.前言在使用Spark Streaming中的Kafka Direct API进行Kafka消费的过程中,通过spark-submit的方式提交jar包,会出现如下错误信息,提示无法找到KafkaUtils. Exceptionin thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka/KafkaUtils$ at com.zhkmxx.scala.app.KafkaStream

spark streaming的应用

今天我们讲spark streaming的应用,这个是实时处理的,类似于Storm以及Flink相关的知识点, 说来也巧,今天的自己也去听了关于Flink的相关的讲座,可惜自己没有听得特别清楚,好像是 spark streaming与flink是竞争关系,好了,我们进入今天的主题吧 1.一般会做用户画像的差不多集中在两个行业,电商以及广告行业一般根据现实给这个人打上一个标签,在根据标签来确定画像 2.如果一个人不登录,怎样确定这个人的详情这个就是spark streaming的应用 nc -

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结

转载:http://blog.csdn.net/ligt0610/article/details/47311771 由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出.原来使用spark1.1.0版本中的createStream函数,但是在数据处理速度跟不上数据消费速度且job异常退出的情况下,可能造成大量的数据丢失.幸好,Spark后续版本对这一情况有了很大的改进,1.2版本加入WAL特性,但是性能应该会受到一些影响(本人未测试),1.3版本可

Spark Streaming写数据到Redis

参考2篇文章: 1.Kafka+Spark Streaming+Redis实时系统实践 https://www.iteblog.com/archives/1378 2.spark-stream 访问 Redis http://www.tuicool.com/articles/n6BRzi3

Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率.资源的有效使用. Spark Streaming会不断的接收数据,在不清楚接收的数据处理到什么状态,如果你强制停止掉的话,会涉及到数据不完整操作或者一致性相关问题. 一. Spark Streaming中的空RDD处理 : ForEachRDD是产生Ds