kafka文件存储结构和如何保证数据不丢失

一: kafka文件组成

基本组成:

1- broker 节点,多个broker构成一个集群

2- topic 对消息进行归类

3- producer 生产者

4- comsumer 消费者

5- consumerGroup 消费组

topic的组成:

1- partition  物理上数据存储的概念,一个topic包含多个partition,每个partition内部是有序的;每个partition是一个目录;

2- segment  一个partition包含多个segment,包含两种文件.index和.log。

这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位,20位数字字符长度,没有数字用0填充,如下:

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index索引文件存储大量的元数据,log数据文件存储大量的消息。

partition内部读取数据的流程为(例如读取offset=170418的消息):

1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

2- 到index文件中查找,log数据存贮的位置信息。

3- 从log日志中读取所需日志信息。

二:数据可靠性和持久性保证

1- producer端

request.required.acks参数进行配置,可靠性级别为:

1(默认) producer写到kafka中,收到leader的反馈信息后,下确认其写入成功。leader宕机,会丢失数据。

0 producer端不会收到任何的反馈信息,数据可靠性很低。

-1 producer端需要确认leader和follower都反馈成功,才认为写入成功。和min.insync.replicas参数(最小同步副本数,必须大于等于2)一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

2- comsumer端

producer.type=sync一定要设置成同步的方式。

consumer先读取消息并处理,在commit。这种方式可以保证至少一次;

consumer 先读取消息,再commit,在处理,这种方式会丢失数据;

3- 自定义实现,缓存消息去重

Consumer保持无状态和幂等性就可以了

原文地址:https://www.cnblogs.com/parent-absent-son/p/10863861.html

时间: 2024-10-29 15:29:46

kafka文件存储结构和如何保证数据不丢失的相关文章

Spark Streaming使用Kafka保证数据零丢失

来自: https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件: 数据输入需要可靠的sources和可靠的receivers 应用metadata必须通过应用driver checkpoint WAL(write ahead log) 可靠的sources和receivers spark streaming可以通过

Kafka文件存储机制那些事

点评一下先:kafka的存储主要有几个特点: 1. 多级索引(名义上是1级索引,但是这级索引依赖了文件列表,相当于文件列表是第一级索引,所以是二级索引),二级索引文件和数据文件一一对应. 相比只有1级索引,这样可以支持更大的数据量,也可以更好的支持删除.如果我来设计这个存储系统,我会这样设计: 第一级索引:只有1个文件,文件名固定,保存数据文件名和这个数据文件保存的第1个消息的id.数据文件名如果采用数字依次编号法,那么无需存储数据文件名,这个索引文件只需要在第1个8字节保存数据文件的起始编号,

转】 Kafka文件存储机制那些事

原博文出自于:http://tech.meituan.com/kafka-fs-design-theory.html    感谢! Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志.访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目. 1.前言 一个商业化消息队列的性能好坏,其文件存储机制设计是衡

[转帖]kafka 如何保证数据不丢失

https://www.cnblogs.com/MrRightZhao/p/11498952.html 一般我们在用到这种消息中件的时候,肯定会考虑要怎样才能保证数据不丢失,在面试中也会问到相关的问题.但凡遇到这种问题,是指3个方面的数据不丢失,即:producer consumer 端数据不丢失  broker端数据不丢失下面我们分别从这三个方面来学习,kafka是如何保证数据不丢失的 一.producer 生产端是如何保证数据不丢失的 1.ack的配置策略 acks = 0 生产者发送消息之

Spark Streaming和Kafka整合保证数据零丢失

当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源和可靠的接收器: 2.应用程序的metadata被application的driver持久化了(checkpointed ); 3.启用了WAL特性(Write ahead log). 下面我将简单地介绍这些先决条件. 可靠的数据源和可靠的接收器 对于一些输入数据源(比如Kafka),Spark S

文件存储结构inode与RAM结构建立联系

linux下一切皆文件,大致可分为以下几类:目录.普通文件.硬连接.软连接.字符设备.块设备.FIFO.Socket,其在物理存储体内存储按inode和数据块存储,inode代表元数据,是除实际数据外的所有(属性)数据.根据不同的文件类型有以下几种情况: >对于常规文件,文件的数据存储在数据块中,其他数据(即属性)存储在inode中. >对于目录,该目录下的所有文件名和目录名存储在数据块中,注意文件名保存在它所在目录的数据块中,除文件名之外,ls -l命令看到的其它信息都保存在该文件的inod

mysql是怎么保证数据不丢失的

一:binlog写入机制. 先write ,把日志写入文件系统的的page cache ,然后fsync 将数据持久化到磁盘的操作. binlog是每个线程一个binlogCache,binlogCache中包含tmpfile和memery. 二:redo log 写入机制 首先日志写道redologbuffer中,然后写入pagecache ,最后写入磁盘. 有个后台线程每一秒钟轮询redobuffer写入磁盘,一个没有提交事务的redolog也可以持久化到磁盘. 1,redolog buff

kafka学习之-文件存储机制

Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志.访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目. 1.前言 一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一.下面将从Kafka文件存储机制和物理结构角度,分析Kafka是如何实现高效文件存储,及实

Kafka消息文件存储

在对消息进行存储和缓存时,Kafka依赖于文件系统.(Page Cache) 线性读取和写入是所有使用模式中最具可预计性的一种方式,因而操作系统采用预读(read-ahead)和后写(write-behind)技术对磁盘读写进行探测并优化后效果也不错.预读就是提前将一个比较大的磁盘块中内容读入内存,后写是将一些较小的逻辑写入操作合并起来组成比较大的物理写入操作. 使用文件系统并依赖于页面缓存(Page Cache)要优于自己在内存中维护一个缓存或者什么别的结构. 通过对所有空闲内存自动拥有访问权