spark streaming读取kakfka数据手动维护offset

在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka中的数据，分别是KafkaUtils.createDstream，KafkaUtils.createDirectStream，前者会自动把offset更新到zk中，默认会丢数据，效率低，后者不会经过zk，效率更高，需要自己手动维护offse，通过维护护offset写到zk中，保障数据零丢失，只处理一次，下面来看看KafkaUtils.createDirectStream的使用，我把zk的端口改成了9999，防止和kakfa自带的zk的端口产生冲突，下面我写了一些测试代码，经自己测试数据没任何问题，即使spark streaming挂了，另一方往topic中写数据，下次启动streaming程序也能读取，做到数据零丢失，不同的group.id下只读取一次，看看下面代码吧(代码是自己查看kafka中自带的接口和一些其他的资料组合而成，简单的写了一些，参数没写成配置)

原文地址：https://www.cnblogs.com/chong-zuo3322/p/12244342.html

时间： 2024-10-13 01:16:06

spark streaming读取kakfka数据手动维护offset的相关文章

Spark Streaming 读取 Kafka 数据的两种方式

在Spark1.3之前,默认的Spark接收Kafka数据的方式是基于Receiver的,在这之后的版本里,推出了Direct Approach,现在整理一下两种方式的异同. 1. Receiver-based Approach val kafkaStream = KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 2. Direct Approach (No Receivers) v

160728、Spark Streaming kafka 实现数据零丢失的几种方式

定义问题开始之前先解释下流处理中的一些概念: At most once - 每条数据最多被处理一次(0次或1次) At least once - 每条数据最少被处理一次 (1次或更多) Exactly once - 每条数据只会被处理一次(没有数据会丢失,并且没有数据会被多次处理) High Level API 如果不做容错,将会带来数据丢失因为receiver一直在接收数据,在其没有处理的时候(已通知zk数据接收到),executor突然挂掉(或是driver挂掉通知executor关闭

通过Spark Streaming处理交易数据

Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架. 由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala.Java.Python)提供支持. 其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案业务场景我们每天都有来自全国各地的天然气购气数据,并根据用户的充气,退气,核销等实时计算分析的是用户订单数数据,由于数据量比较大,单台机器处理已

spark streaming 接收 kafka 数据java代码WordCount示例

1. 首先启动zookeeper 2. 启动kafka 3. 核心代码生产者生产消息的java代码,生成要统计的单词 package streaming; import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class MyProducer { pu

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数

官网文档:<http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example> Spark Streaming官网的例子reduceByKeyAndWindow 简单的介绍了spark streaming接收socket流的数据,并把接收到的数据进行windows窗口函数对数据进行批量处理. import java.util.Arrays; import org.apache.spark.S

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD.DataFrame 与 DataSet0.3.2 DataSet 与 RDD 互操作0.3.3 RDD.DataFrame 与 DataSet 之间的转换0.3.4 用户自定义聚合函数(UDAF)0.3.5 开窗函数0.4 Spark Streaming0.4.1 Dst

4. Spark Streaming解析

4.1 初始化StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext(conf, Seconds(1)) // 可以通过 ssc.sparkContext 来访问 SparkContext // 或者通过已

【转】Spark Streaming和Kafka整合开发指南

基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark executors中,然后由Spark Streaming启动的Job来处理这些数据. 然而,在默认的配置下,这种方法在失败的情况下会丢失数据,为了保证零数据丢失,你可以在Spark Streaming中使用WAL日志,这是在Spark 1.2.0才引入的功能,这使得我们可以将接收到的数据保存到WA

Spark Streaming编程指南

本文基于Spark Streaming Programming Guide原文翻译, 加上一些自己的理解和小实验的结果. 一.概述 Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件.Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, Flume, Kinesis或者TCP等,对接收到的数据还可以使用一些用高阶函数(比如map, reduce, join及window)进行封装的复杂算法做进

猜你喜欢

C++函数指针简单使用

函数指针: 函数指针必须包含要调用的函数的内存地址,为了工作正确,指针还必须包含其他信息,即指针所指向的函数的参数列表中的参数类型以及返回类型.因此,在声明函数指针时,必须指定该指针可以指向的函数的参 ...

浅谈传统企业网络运营那些事儿

网络的变革.更新推动的速度很快,小到出门购物全方位在原基础的微信/支付宝等第三方支付等,随着微信公众号/微信小程序等"轻"级传播推广渠道的发展,以及客观的传统企业在互联网的冲击下, ...

Android x86模拟器Intel Atom x86 System Image配置与使用方法

Android x86模拟器Intel Atom x86 System Image配置与使用方法前言: 大家现在开发使用的Android 模拟器模拟的是 ARM 的体系结构(ar ...

elasticsearch 打分插件

插件常用命令 ./plugin list/remove/install 目录结构 plugin.xml 代码 <?xml version="1.0"?> <ass ...

疯狂Java学习笔记（72）-----------大话程序猿面试

大话程序猿面试 10个我最喜欢问程序猿的面试问题程序猿面试不全然指南 10个经典的C语言面试基础算法及代码程序猿的10大成功面试技巧程序猿选择公司的8个标准编程开发 8个值得关注的PHP安全函 ...

变量，数据类型和运算符

1.变量变量: 一个数据存储空间表示(代词) 2.变量的基本语法数据类型变量名 //声明变量 =变量值: //赋值 3.变量的使用 a.变量必需声明,并且初始化够才能使用. b. ...

分布式技术追踪 2017年第六期

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 31.2px "Helvetica Neue"; color: #111111 } p. ...

Swift - 文本输入框内容改变时响应，并获取最新内容

1,问题描述有时我们开发的时候需要先把“确认”按钮初始设置为不可用,当文本框中输入文字以后,再将输入按钮变为可用. 2,实现原理 (1)要检测文本框内容的变化,我们需要让新界面的Controller ...

Transparency Tutorial with C# - Part 2

Download Compositing Mode demo project - 24 Kb Download Compositing Mode source - 26 Kb Download Com ...

移动联通基站定位查询

移动联通基站定位有很多网站都作了接口api,我使用的是haoservice的接口.使用这个接口需要申请key值. (http://www.haoservice.com/docs/1) Haoservi ...

【翻译】A (very) short introduction to R R的简短介绍

[前言] 本文翻译自Paul Torfs & Claudia Brauer的文章A (very) short introduction to R.其中比较简单的地方没有翻译,不好用中文描述的地 ...

Java Web解决解析乱码和响应乱码

package cn.edu.aynu.rjxy.servlet; import java.io.IOException; import java.io.PrintWriter; import jav ...

初识Javascript的面向对象

面向对象编程概念---------------------– 用对象的思想去写代码,就是面向对象编程过程式写法面向对象写法我们一直都在使用对象数组 Array 时间 Date 面向对象编程(O ...

easyui1.4.2 formatter处理json内嵌数据undefined

问题描述: easyui升级到1.4.2后,原来使用的获取json嵌套数据的函数"formatter: function (value,row) { return row.business. ...

c++ exports def文件

https://msdn.microsoft.com/zh-cn/library/hyx1zcd3(v=vs.80).aspx EXPORTS 引入了一个由一个或多个 definitions(导出的函 ...

MyBatis3传递空值参数报异常的解决

在使用Mybatis 3时,发现了这个问题,当插入数据时,如果有一个字段为空值时,系统会报异常,导致插入数据失败.异常信息类似:org.springframework.jdbc.Uncategoriz ...

[SD心灵鸡汤]000.每月一则 - 索引

[SD心灵鸡汤]001.每月一则 - 2015.05 [SD心灵鸡汤]002.每月一则 - 2015.06 [SD心灵鸡汤]003.每月一则 - 2015.07 [SD心灵鸡汤]004.每月一则 - ...

装饰设计么模式

装饰设计模式 1.装饰设计模式: 当想要对已有对象功能增强是,可以定义类,将已有对象传入:基于已有对象的功能,并提供增强功能,那么定义的类称为装饰类: 装饰类通常会通过构造函数接收被装饰的对象,并基于 ...

WPS文字处理中六角括号怎么输入

Word作为好用的办公软件,其中包含了许多数学符号,但是WPS作为比Word稍逊一筹的文字处理软件,其中有很多数学符号是没有的,比如六角括号,那该如何输入呢?为了方便大家的使用,下面就教大家在WPS文 ...

Axis2Service客户端访问通用类集合List自定义类型

Axis2 服务四种客户端调用方式: 1.AXIOMClient 2.generating a client using ADB 3.generating a client using XMLBean ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.033 s.