相同数据源情况下,使用Kafka实时消费数据 vs 离线环境下全部落表后处理数据,结果存在差异

原因分析:

  1. 当某个consumer宕机时,消费位点(例如2s提交一次)尚未提交到zookeeper,此时Kafka集群自动rebalance后另一consumer来接替该宕机consumer继续消费,因为先前宕机consumer最近的消费位点尚未提交,导致数据重复消费
  2. 突发流量、跨机房(网络请求延时高)、网络不稳定,出现丢包现象
  3. 业务逻辑有偏差

常见丢包现象如突然掉线、页面卡住、视频卡住、图片加载卡主等,使用Ping测量丢包的最佳方法是向一个IP地址发送大量的Ping命令,然后检查没有应答的那些Ping命令。如果快速地发出了50次Ping命令,可以检查没有没有应答的次数,并把没有应答的次数作为丢包。没有应答的次数超过5%可能就值得担心了。

在一台Windows计算机上,在命令提示符后面输入如下命令就可以完成这个任务:Ping -n 50(IP地址或者域名,如www.website.com)这个命令中的“-n”开关告诉发送ping命令的次数,“50”是发送的次数。如ping –n 100 www.baidu.com

然后,将得到一个测试总结。这个总结将包括丢失的数量和百分比:

199.181.132.250地址Ping的统计结果:

包:发送 = 6, 接收 = 6, 丢失 = 0 (0%)大约往返时间以毫秒(ms)显示:最小 = 26ms, 最大= 29ms, 平均 = 27ms。

原文地址:https://www.cnblogs.com/csuliujia/p/9984505.html

时间: 2024-12-09 03:51:01

相同数据源情况下,使用Kafka实时消费数据 vs 离线环境下全部落表后处理数据,结果存在差异的相关文章

windows下编写的bash脚本拖入linux环境下脚本出错之编码问题

windows下编写的bash脚本拖入linux环境下脚本出错之编码问题         脚本经常在windows下写好,拖入到linux环境中运行.但是在运行过程中,经常出现编码问题,这里记录一下.方便自己日后查看,或者给刚好遇到这样的问题的同学一个尝试的方法. 在linux环境下vim 进入拖入的bash脚本.执行命令 :set ff=unix

kafka集群搭建(windows环境下)

一.简介 Kafka 是一个实现了分布式的.具有分区.以及复制的日志的一个服务.它通过一套独特的设计提供了消息系统中间件的功能.它是一种发布订阅功能的消息系统. 1.名词介绍 Message 消息,就是要发送的内容,一般包装成一个消息对象. Topic 通俗来讲的话,就是放置"消息"的地方,也就是说消息投递的一个容器.假如把消息看作是信封的话,那么 Topic 就是一个邮箱 Partition && Log Partition 分区,可以理解为一个逻辑上的分区,像是我们

在LNMP原来的基础上,win7环境下如何上传PHP文件到Linux环境下

首先,下载一个WINSCP客户端 连接主机后,上传文件到自己的保存目录 接着进入数据库添加我们的数据库 mysql -uroot -p  //这个是进入mysql的命令,但是要是你没有加  ln -s /usr/local/mysql/bin/mysql /usr/bin   的话就要输入下面那一行 /usr/local/mysql/bin/mysql -uroot -p create database db1;       //db1是你的数据库名称 退出mysql数据库后输入 mysql -

Kafka集群安装(CentOS 7环境下)

一.环境操作系统和软件版本介绍 1.环境操作系统为CentOS Linux release 7.2.1511 (Core) 可用cat /etc/redhat-release查询 2.软件版本 Kafka版本为:0.10.0.0 二.软件的基础准备 由于Kafka集群需要依赖ZooKeeper集群来协同管理,所以需要事先搭建好ZK集群.此文主要介绍搭建Kafka集群环境. 三.详细安装搭建步骤 1.下载压缩包kafka_2.10-0.10.0.0.tgz到/data/soft目录 2.将kafk

关于如何让在离线环境下安装Python的pip第三方扩展包

注意:以下方法如果安装失败,那么一定是前置的依赖包没有安装,找到依赖包,下载过来用下面的方法安装,直到所有的前置包都安装完成.  Python的pip包一般有如下几种格式 tar.gz zip whl   tar.gz包离线安装 解压 cd到setup.py目录下 在cmd或者powershell下运行python setup.py install  或者 直接cd到存放tar.gz文件的目录在cmd或者powershell下 运行pip install xxxxxx.tar.gz  Zip包离

CentOS 7环境下Kafka的安装和基本使用

CentOS 7环境下Kafka的安装和基本使用 基础环境 Windows 10 X64 VMware-workstation-full-12.0.0-2985596 CentOS Linux release 7.4.1708 CentOS 7环境下安装Kafka 安装JDK 在CentOS上将JDK下载到本地.jdk-8u152-linux-x64.tar.gz 解压并将文件移动到/opt/java目录下 sudo tar -vxzf jdk-8u152-linux-x64.tar.gzsud

Windows环境下搭建Redis

当网站从数据库加载大量数据的时候会遇到页面响应速度特别缓慢的情形,为了能够更快的从数据库中取得数据加载至内存中,可以考虑使用Memcached来做数据缓存,或者使用内存数据库(比如Redis)将数据库的内容加载至内存中以键值对的形式存储,当页面请求数据的时候可以直接从内存数据库中获取,从而提高了网站的响应速度. Redis在官方文档中声明推荐在Linux环境下安装部署,但实际情况下会有很多开发者需要在Windows环境下解决以上类似的问题并想要采取Redis方案来解决问题,好在微软开放了这方面的

如何使用SOIL在VS2012的 C++环境下显示图片

先看下效果. 这是一个很无聊的功能....首先说下,我做这个功能的初衷并不是为了实现在控制台中显示图片...(这貌似很无聊) 而是因为自己想做用C做一个游戏:http://q.cnblogs.com/q/65778/ 当然,这是一个艰难而且漫长的过程,我决定只参考下别人的代码而不完全搬运,顺便练下手,因为自己是JAVA程序员,学C貌似有点难度. 我打算从画地图开始做起. 扯远了,开始吧. SOIL(Simple OpenGL Image Library) 顾名思义,简单的OpenGL图片库 其实

4.1. 如何在Windows环境下开发Python

4.1. 如何在Windows环境下开发Python 4.1. 如何在Windows环境下开发Python 4.1.1. Python的最原始的开发方式是什么样的 4.1.1.1. 找个文本编辑器,新建个.py文件,写上Python代码 4.1.1.2. 打开Windows的cmd,并且切换到对应的python脚本所在目录 4.1.1.2.1. 方法1:手动打开cmd,并cd到对应路径 4.1.1.2.2. 方法2:通过Notepad++的Open current dir cmd 4.1.1.3