Kafka学习之:Centos 下Kafka集群的安装

kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。在这片博文中,作者简单提到了开发kafka而不选择已有MQ系统的原因。两个原因:性能和扩展性。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50
MB),每秒处理55万消息(110 MB)。

安装准备

版本

Kafka版本:kafka_2.10-0.8.2.0

Zookeeper版本:3.4.6

Zookeeper 集群:hadoop104,hadoop107,hadoop108

Zookeeper集群的搭建参见:在CentOS上安装ZooKeeper集群

物理环境

安装两台物理机:

192.168.40.104  hadoop104(运行3个Broker)

192.148.40.105  hadoop105(运行2个Broker)

该集群的创建主要分为三步,单节点单Broker,单节点多Broker,多节点多Broker

单节点单Broker

本节以hadoop104上创建一个Broker为例

下载kafka

下载路径:http://kafka.apache.org/downloads.html

#tar -xvf kafka_2.10-0.8.2.0.tgz
# cd kafka_2.10-0.8.2.0

配置

修改config/server.properties

     broker.id=1
     port=9092
     host.name=hadoop104
     socket.send.buffer.bytes=1048576
     socket.receive.buffer.bytes=1048576
     socket.request.max.bytes=104857600
     log.dir=./kafka1-logs
     num.partitions=10
     zookeeper.connect=hadoop107:2181,hadoop104:2181,hadoop108:2181  

启动Kafka服务

#bin/kafka-server-start.sh config/server.properties

创建Topic

#bin/kafka-topics.sh --create --zookeeper hadoop107:2181,hadoop104:2181,hadoop108:2181 --replication-factor 1 --partitions 1 --topic test

查看Topic

#bin/kafka-topics.sh --list --zookeeper hadoop107:2181,hadoop104:2181,hadoop108:2181

输出:

producer发送消息

#bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 

consumer接收消息

#bin/kafka-console-consumer.sh --zookeeper hadoop107:2181,hadoop104:2181,hadoop108:2181 --topic test --from-beginning

如果要最新的数据,可以不带--from-beginning参数即可。

# /bin/kafka-console-consumer.sh --zookeeper  hadoop107:2181,hadoop104:2181,hadoop108:2181  --topic
test

单节点多个Broker

配置

将上个章节中的文件夹再复制两份分别为kafka_2,kafka_3

#cp -r kafka_2.10-0.8.2.0 kafka_2

#cp -r kafka_2.10-0.8.2.0 kafka_3

分别修改kafka_2/config/server.properties以及kafka_3/config/server.properties 文件中的broker.id,以及port属性,确保唯一性

kafka_2/config/server.properties
broker.id=2
port=9093
kafka_3/config/server.properties
broker.id=3
port=9094

启动

启动另外两个Broker

#cd kafka_2
# bin/kafka-server-start.sh config/server.properties &
#cd ../kafka_3
# bin/kafka-server-start.sh config/server.properties &

创建一个replication factor为3的topic

#bin/kafka-topics.sh --create --zookeeper hadoop107:2181,hadoop104:2181,hadoop108:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic

查看Topic的状态


bin/kafka-topics.sh --describe --zookeeper  hadoop107:2181,hadoop104:2181,hadoop108:2181  --topic my-replicated-topic

从上面的内容可以看出,该topic包含1个part,replicationfactor为3,且Node3 是leador

解释如下:

  • "leader" is the node responsible for all reads and writes for the given partition. Each node will be the leader for a randomly selected portion of the partitions.
  • "replicas" is the list of nodes that replicate the log for this partition regardless of whether they are the leader or even if they are currently alive.
  • "isr" is the set of "in-sync" replicas. This is the subset of the replicas list that is currently alive and caught-up to the leader.

再来看一下之前创建的test topic, 从下图可以看出没有进行replication

多个节点的多个Broker

在hadoop105上分别把下载的文件解压缩到kafka_4,kafka_5两个文件夹中,再将hadoop104上的server.properties配置文件拷贝到这连个文件夹中

#scp -r config/ [email protected]:/root/hadoop/kafka_4/
#scp -r config/ [email protected]:/root/hadoop/kafka_5/

配置

并分别修改内容如下:

    kafka_4
        brokerid=4
        port=9095
        host.name=hadoop105
    kafka_5
        brokerid=5
        port=9096
        host.name=hadoop105

启动服务

#cd kafka_4
# bin/kafka-server-start.sh config/server.properties &
#cd ../kafka_5
# bin/kafka-server-start.sh config/server.properties &

到目前为止,两台物理机上的5个Broker已经启动完毕

总结

在kafka的核心思路中,不需要在内存里缓存数据,因为操作系统的文件缓存已经足够完善和强大,只要不做随机写,顺序读写的性能是非常高效的。kafka的数据只会顺序append,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动pull的模型,这样大大减轻了服务器的负担。Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成Message
Set做批量存储和发送,并且客户端在pull数据的时候,尽量以zero-copy的方式传输,利用sendfile(对应java里的FileChannel.transferTo/transferFrom)这样的高级IO函数来减少拷贝开销。可见,kafka是一个精心设计,特定于某些应用的MQ系统,这种偏向特定领域的MQ系统我估计会越来越多,垂直化的产品策略值的考虑。

只要磁盘没有限制并且不出现损失,kafka可以存储相当长时间的消息(一周)。

时间: 2024-08-09 18:38:23

Kafka学习之:Centos 下Kafka集群的安装的相关文章

Hadoop学习笔记_8_实施Hadoop集群 --分布式安装Hadoop

实施Hadoop集群 --分布式安装Hadoop 说明: 以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为: 192.168.139.129 master #NameNode/JobTrackerr结点 192.168.139.132 slave01 #DataNode/TaskTracker结点 192.168.139.137 slave02 #DataNode/TaskTracker结点 一.配置ssh实现Hadoop节点间用户的无密

Liunx下Redis集群的安装与测试,以及项目中的应用(redis中对象和集合的储存)。

Liunx下Redis集群的安装与测试,以及项目中的应用. 首先准备ruby和redis接口: redis-3.0.0.gem和 去https://redis.io/下载 1.使用ruby脚本搭建集群.需要ruby的运行环境. 安装ruby yum install ruby yum install rubygems 1.1安装ruby脚本运行使用的包. [[email protected] ~]# gem install redis-3.0.0.gem Successfully installe

CentOS下Kubernetes集群架设(一)主机环境预设

虽然有Rancher OS和CoreOS这类的发行版,但Kubernetes集群的安装也不是太麻烦,因此,还是先从最基本的实验下.以下是本人CentOS7.6上安装Kubernetes集群的笔记,并且分章节记录,持续更新.... Kubernetes主机环境预设 Kubernete集群的主机生产环境也有多种选择,如下: 方案一: 三台或者五台 Master 节点,分别安装全角色:ETCD , Control Plane :其他节点为容器计算机节点,分别安装角色: worker: 方案二: 三台节

spark学习笔记-CentOS 6.4集群搭建(2)

CentOS 6.5安装 1.使用课程提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso. 2.创建虚拟机:打开Virtual Box,点击"新建"按钮,点击"下一步",输入虚拟机名称为spark1,选择操作系统为Linux,选择版本为Red Hat,分配1024MB内存,后面的选项全部用默认,在Virtual Disk File location and size中,一定要自己选择一个目录来存放虚拟机文件,最后点击"

centos下zookeeper集群搭建

单机模式: 1)  首先下载zookeeper压缩包, 这里采用zookeeper3.4.8.... wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/zookeeper-3.4.8.tar.gz 2)   解压缩 首先创建文件夹,这里放到/user/zookeeper/文件夹下 mkdir zookeeper1 mkdir zookeeper2 mkdir zookeeper3 创建三个文件夹用于存放三个实例,下面解压

centos下redis集群安装

Redis集群部署文档(centos6系统) (要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下) 127.0.0.1:7000127.0.0.1:7001 127.0.0.1:7002 127.0.0.1:7003 127.0.0.1:7004 127.0.0.1:7005 1:下载redis.官网下载3.0.0版本,之前2.几的版本不支持集群模式 下载地址:https://github.com

CentOS下 elasticsearch集群安装

1.进入root目录并下载elasticsearch cd /root wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.7.3.tar.gz 2.解压下载好的压缩包 tar -zxvf elasticsearch-1.7.3.tar.gz 3.修改目录名字为node1(这里需要安装三个节点) mv elasticsearch-1.7.3 elasticsearch-node3 4.修改/ro

kafka linux下的集群安装

第一步.kafka 集群安装环境准备 环境:CentOS6.5 集群环境: 192.168.139.130 master 192.168.139.131 node1 192.168.139.132 node2 zookeeper 版本:zookeeper-3.3.6.tar.gz kafka 版本:kafka_2.11-0.9.0.0.tar.gz 第二步.安装zoookeeper集群 注意kafka有自己自带的zookeeper,我这里没用kafka自带的zookeeper集群,而是自己安装的

一脸懵逼学习KafKa集群的安装搭建--(一种高吞吐量的分布式发布订阅消息系统)

1:KafKa的官方网址:http://kafka.apache.org/ 开发流程图,如: 2:KafKa的基础知识: 2.1:kafka是一个分布式的消息缓存系统2.2:kafka集群中的服务器都叫做broker2.3:kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接2.4:kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载2.