kafka 文档1

  1. Getting Started
      入门
    1.1 Introduction
      简介
       Kafka is a distributed, partitioned, replicated commit log service. It provides the functionality of a messaging system,
     but with a unique design.
        kafka 是一种分布式的,可分区,多副本 的log服务,提供了消息系统的很多功能,但是又有自己的独特的设计
      What does all that mean?
        意味这什么呢?
      First let‘s review some basic messaging terminology:
        首先,让我们回顾一些基本的通讯术语:
            1. Kafka maintains feeds of messages in categories called topics.
               kafka 包含topic 的功能
            2.We‘ll call processes that publish messages to a Kafka topic producers.
               topic消息的产生着称为生产者
             3.We‘ll call processes that subscribe to topics and process the feed of published messages  consumers..
                 topic消息的订阅着称为消费者
            4.Kafka is run as a cluster comprised of one or more servers each of which is called a broker.
                kafka 的运行在一个集群上面

    So, at a high level, producers send messages over the network to the Kafka cluster which in turn serves them up to consumers like this:

    生产者发送消息和消费者消费消息,流程大概是这样的:

    Communication between the clients and the servers is done with a simple, high-performance, language agnostic TCP protocol. We provide a Java client for Kafka, but clients are available in many languages.

    客户端的链接是tcp协议,我们提供了java客户端,但是我们支持多种语言的客户端

kafka 包含了一个topic的概念,每个procudcer 都有一个topic,每个topic 包含多个分区,每个分区内部是有序的,消息序列不改变的。
     kafka 将保存所有的数据,不管数据是否已经被消费掉了,但是一定时间以后消息将被抛弃
     对于消费者的数据标石 是在zookeeper中,使用一个偏移量控制,消费者也可以重置偏移量
     每个分区都有一台服务器充当“领头羊”和零个或更多的服务器充当“追随者”。领导者处理所有读取和写入该分区的请求,
     而被动的追随者复制的领导者。如果失败的领导者,
     追随者的人会自动成为新的领导者。每个服务器充当一些分区,一个跟随他人的领导者,以便负载集群中的平衡。
     Producers  可以根据数据的关键字选择分区
     kafka 的消费者提供了,队列和发布-订阅两种模式
    
     Broker Configs
     broker.id  身份的唯一性
     log.dirs   消息的目录
     port       接受客户端请求的端口
     zookeeper.connect   zookeeper的地址
     message.max.bytes   消息的最大长度
     num.network.threads  网络请求的线程数据流
     num.io.threads       持久化的线程数量
     queued.max.requests 最大的请求队列
     host.name:broker 对于 zookeeper的name
     advertised.host.name  对于消费者,生产者 name
     num.partitions topic 的分区数
     num.replica.fetchers 数据复制的多少份,一个分区,跟随者多少,
    
     消费者:
     auto.commit.enable  自动提交偏移量
     rebalance.max.retries  新的消费者加入,尝试重新负载的次数
     生产者:
     request.required.acks 确认是否需要集群,确定分区的数据已经到达副本

时间: 2024-10-12 15:06:38

kafka 文档1的相关文章

kafka文档(转)

来自:http://blog.csdn.net/beitiandijun/article/details/40582541 来源:http://kafka.apache.org/documentation.html#configuration 3.     Configuration Kafka在配置文件中使用key-value方式进行属性配置.这些values可以通过文件或者编程方式提供. 3.1      Broker  Configs 基本配置如下: -broker.id -log.dir

Kafka 文档引言

原文地址:https://kafka.apache.org/documentation.html#semantics 1.开始 1.1 引言 Kafka是一个分布式,分区队列,冗余备份的消息存储服务.它是一个有独特设计的消息系统. 这是什么意思呢? 首先我们介绍下相关的基本通信概念: 1.Kafka按主题分布消息. 2.生产者发布消息给Kafka主题. 3.消费者订阅并处理被提供的发布出的信息. 4.Kafka作为由一个或多个中介服务的集群运行. 然后,深入一些,生产者通过网络发送消息给用于提供

kafka单机部署文档

单机Kafka部署文档 最简单的使用方式,单机,使用自带的zookeeper 1.解压 下载地址:http://pan.baidu.com/s/1i4K2pXr tar –zxvf kafka_2.10-0.10.0.1.tgz 2.修改配置 vim config/server.properties 修改项如下(有则修改,无则添加): host.name=你的ip listeners=PLAINTEXT://你的ip:9092 advertised.listeners=PLAINTEXT://你

hadoop2.6.0汇总:新增功能最新编译 32位、64位安装、源码包、API下载及部署文档

相关内容: hadoop2.5.2汇总:新增功能最新编译 32位.64位安装.源码包.API.eclipse插件下载Hadoop2.5 Eclipse插件制作.连接集群视频.及hadoop-eclipse-plugin-2.5.0插件下载hadoop2.5.1汇总:最新编译 32位.64位安装.源码包.API下载及新特性等 新手指导:hadoop官网介绍及如何下载hadoop(2.4)各个版本与查看hadoop API介绍 从零教你在Linux环境下(ubuntu 12.04)如何编译hadoo

_00024 尼娜抹微笑伊拉克_云计算ClouderaManager以及CHD5.1.0群集部署安装文档V1.0

笔者博文:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0 个性签名:世界上最遥远的距离不是天涯,也不是海角.而是我站在妳的面前.妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahou

Hadoop集群安装配置文档

Hadoop集群安装配置文档 日期 内容 修订人 2015.6.3 文档初始化 易新             目录 1 文档概要... 5 1.1软件版本... 5 1.2机器配置... 5 2 虚拟机配置... 5 2.1新建虚拟机... 5 2.2虚拟网络配置... 8 3 CentOS安装及配置... 9 3.1系统安装... 9 3.2系统配置... 10 3.2.1防火墙配置... 10 3.2.2 SElinux配置... 10 3.2.3 IP配置... 11 3.2.4安装vim

ELKB5.2.2集群环境部署及优化终极文档

ELKB5.2.2集群环境部署 本人陆陆续续接触了ELK的1.4,2.0,2.4,5.0,5.2版本,可以说前面使用当中一直没有太多感触,最近使用5.2才慢慢有了点感觉,可见认知事务的艰难,本次文档尽量详细点,现在写文档越来越喜欢简洁了,不知道是不是不太好.不扯了看正文(注意这里的配置是优化前配置,正常使用没问题,量大时需要优化). 备注: 本次属于大版本变更,有很多修改,部署重大修改如下: 1,filebeat直接输出kafka,并drop不必要的字段如beat相关的 2,elasticsea

_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0

博文作者:妳那伊抹微笑 博客地址:http://blog.csdn.net/u012185296 博文标题:_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 转载声明:可以转载, 但必须以超链接形式标明文章

生产环境轻量级dns服务器dnsmasq搭建文档

dnsmasq搭建文档 一.生产环境域名解析问题 之前生产环境设备较少,是通过维护master(192.168.1.1)设备的hosts文件实现的.每次新增设备后,需要在master的hosts文件中新增ip和主机名,再将master的hosts文件批量拷贝到生产所有已部署设备和新增设备.设备少时维护比较简单,随时设备越来越多,维护起来变得很繁琐,批量拷贝也非常消耗精力. 为了减轻维护成本,和提高维护效率,在生产环境搭建一台dns服务器非常有必要. 进过筛选,dnsmasq这个轻量级的dns服务