SparkStreaming入门及例子

看书大概了解了下Streaming的原理,但是木有动过手啊。。。万事开头难啊,一个wordcount 2小时怎么都运行不出结果。是我太蠢了,好了言归正传。

SparkStreaming是一个批处理的流式计算框架,适合处理实时数据与历史数据混合处理的场景(比如,你用streaming将实时数据读入处理,再使用sparkSQL提取历史数据,与之关联处理)。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理每一块数据,没块数据都会生成一个spark JOB进行处理,最终以批处理方式处理每个时间片的数据。(多的就不解释了,百度就好了~)

首先确保你安装了hadoop和spark,在IDEA中也已入来了相应jar包。

写吧- -

新手要注意红框部分,spark官网上给的例子是调用socketFileStream方法,这是通过socket连接远程的,倘若只在本机上测试学习,就用textFileStream读取本地文件路径,没错是路径不是文件,因为sparkStreaming是处理实时数据的,倘若直接指定一个文件,输出后是无法得到结果的。所以新建了个路径,在这里设置了Seconds(20)每20秒读取一次。随后run一下。

启动后,将准备好的文件cp到这个路径下,20秒过后结果就出来了,模拟了下实时数据。结束。

时间: 2024-08-10 21:30:40

SparkStreaming入门及例子的相关文章

Lucene第一个入门学习例子

看Lucene in Action的时候,练习的一个入门例子. 在使用Lucene进行文本内容搜索前,需要先对指定的目录下的文件进行建立索引,代码如下: import java.io.File; import java.io.FileFilter; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import or

kafka入门java例子

1,生产者 import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class TestProducer { public static void main(String[] args) { Properties props = new Propertie

OpenGL ES2.0 入门经典例子

原文链接地址:http://www.raywenderlich.com/3664/opengl-es-2-0-for-iphone-tutorial 免责申明(必读!):本博客提供的所有教程的翻译原稿均来自于互联网,仅供学习交流之用,切勿进行商业传播.同时,转载时不要移除本申明.如产生任何纠纷,均与本博客所有人.发表该翻译稿之人无任何关系.谢谢合作! ps:非常感谢skingTree为我们提供的这篇翻译教程,感谢yy.小狼.北方加入我的教程翻译团队,谢谢你们! 教程截图: OpenGL ES 是

Python In Action:一、入门小例子

Python In Action这本书真是有点猛,一开头就来这么个例子: 1 import wx 2 class MyFrame(wx.Frame): 3 def __init__(self): 4 wx.Frame.__init__(self,None,-1,'My Frame',size=(300,300)) 5 panel=wx.Panel(self,-1) 6 panel.Bind(wx.EVT_MOTION,self.OnMove) 7 wx.StaticText(panel,-1,'

freemarker入门小例子

我用freemarker做了两个小例子,主要的东西是:两个Test文件,一个Animal实体类,一个ftl模板---freemarker的模板,我使用maven做的java工程案例.主要结构内容如下图: 注意:需要导入freemarker的jar包: 1.首先我们先来了解一下freemarker的概念: freeMarker概述: FreeMarker是一个模板引擎,一个基于模板生成文本输出的通用工具,使用纯Java编写: FreeMarker被设计用来生成HTML Web页面,特别是基于MVC

sparkStreaming入门

1.环境 jdk : 1.8 scala : 2.11.7 hadoop:2.7 spark : 2.2.0 2. 开发工具 idea 2017.2 3.maven的pom文件 <dependencies> <!-- https://mvnrepository.com/artifact/com.sun/tools --> <!-- https://mvnrepository.com/artifact/org.apache.maven/maven-core --> <

2. 快速入门-跟着例子走

是否可以成功运行这个例子,对于增加你的学习信心很重要. 当然,其中遇到的很多不明白的问题.配置和代码等,先放一放,不要着急. 你目前的任务就是实现这个例子,并成功运行它. 我这里采用Web项目(你也可以采用WinForm 或 控制台程序): 1. 新建两个项目:  因为我们写的是Demo,所以并没有严格按照一种框架去搭建项目,只是简单的用了两个项目(之后还会添加一个Models类库项目),这样可以尽可能排除框架对你的干扰,让你把更多的精力花在学习NHibernate上面. NHibernateW

spark-streaming入门(二)

Input DStreams and Receivers Input DStreams are DStreams representing the stream of input data received from streaming sources. In the quick example, lines was an input DStream as it represented the stream of data received from the netcat server. Eve

IntelliJ IDEA下Maven SpringMVC+Mybatis入门搭建例子

很久之前写了一篇SSH搭建例子,由于工作原因已经转到SpringMVC+Mybatis,就以之前SSH实现简单登陆的例子,总结看看SpringMVC+Mybatis怎么实现. Spring一开始是轻量级的框架,在SSH中,处于中间粘合剂的作用,核心作用是IoC(控制反转).DI(依赖注入),IoC和DI是同一个概念,只是以不同角度进行解释.简单的说,就是Spring帮助你管理Bean,只要写好了配置文件或者Spring注解,那么Spring可以自动帮你创建Bean,不需要手动new.经过后来的发