(05)kafka以及消息系统的基本介绍

  1、Kafka简介

  Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。之后贡献给Apache基金会成为Apache的一个顶级项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。

  2、举例说明消息系统

  什么是消息系统,下面以12306网站和电商网站举例说明。

  12306网站或者电商网站要把消息发送给用户,无论是以短信方式、邮件方式或者其他方式,都会通过某种介质来完成,这种介质就是消息系统。发送消息的网站是生产者,生产者把消息发送给消息系统,消息系统通过自己的服务总线选择发送方式,最终发送给用户。消费消息的某种方式即为消费者。Kafka对应图中的消息系统,Kafka中的Broker就是服务总线。

  3、消息队列分类:

  (1)点对点(Queue)

  消息的生产者将消息发送到queue中,然后消息的消费者从queue中取出消息并且消费,消息被消费后,queue中不再存储,所以消息的消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但对于一个消息而言,只有一个消费者可以消费

  (2)发布与订阅(Topic)

  消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。Kafka处理的是Topic类型的消息

  注意:点对点的方式中可以有多个消费者,但是一个消息只能被一个消费者消费。发布与订阅中,消费存在每一个主题中,每个主题中的消息可能被一个或者多个消费者消费。

  4、Kafka作用

  监测活动数据,如网站用户相关行为数据(PV,UV等);监测运营数据,如核心系统性能指标数据(CPU利用率,磁盘利用率,IO使用率等)

  这些数据的特点:数据不可变,数据量庞大,需实时处理。

  

原文地址:https://www.cnblogs.com/javasl/p/12184690.html

时间: 2025-01-18 05:35:41

(05)kafka以及消息系统的基本介绍的相关文章

KAFKA分布式消息系统

KAFKA分布式消息系统 2011-08-28 18:32:46 分类: LINUX Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录.浏览.点击.分享.喜欢)以及系统运行日志(CPU.内存.磁盘.网络.系统及进程状态). 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线).高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时通过构建分布式的集群,

KAFKA分布式消息系统[转]

KAFKA分布式消息系统  转自:http://blog.chinaunix.net/uid-20196318-id-2420884.html Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录.浏览.点击.分享.喜欢)以及系统运行日志(CPU.内存.磁盘.网络.系统及进程状态). 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线).高可靠交付对linkedin的日志不是必须的

Kafka——分布式消息系统

Kafka——分布式消息系统 架构 Apache Kafka是2010年12月份开源的项目,采用scala语言编写,使用了多种效率优化机制,整体架构比较新颖(push/pull),更适合异构集群. 设计目标: (1) 数据在磁盘上的存取代价为O(1)(2) 高吞吐率,在普通的服务器上每秒也能处理几十万条消息(3) 分布式架构,能够对消息分区(4) 支持将数据并行的加载到hadoop Kafka实际上是一个消息发布订阅系统.producer向某个topic发布消息,而consumer订阅某个top

【转】KAFKA分布式消息系统

Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录.浏览.点击.分享.喜欢)以及系统运行日志(CPU.内存.磁盘.网络.系统及进程状态). 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线).高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时通过构建分布式的集群,允许消息在系统中累积,使得kafka同时支持离线和在线日志处理. 注:本文中发布者(p

[转载] KAFKA分布式消息系统

转载自http://blog.chinaunix.net/uid-20196318-id-2420884.html Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录.浏览.点击.分享.喜欢)以及系统运行日志(CPU.内存.磁盘.网络.系统及进程状态). 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线).高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性

kafka分布式消息队列 — 基本概念介绍

[http://www.inter12.org/archives/818] 这个应该算是之前比较火热的词了,一直没时间抽出来看看.一个新东西出来,肯定是为了解决某些问题,不然不会有它的市场.先简单看下.官方介绍:分布式.分区.支持复制的日志提交系统适用场景:顾名思义,特别适合用于系统日志的异步记录,对于数据稳定性.一致性.可靠性要求不高的场景,追求的是高吞吐量.非传统的MQ产品! 核心模型抽象: topics:某种消息的高层抽象 producers:消息的生产者 consumers:消息的消费者

消息系统Kafka介绍

1.  概述 Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数 据.活跃的流式数据在web网站应用中非常常见,这 些数据包括网站的pv.用户访问了什么内容,搜索了什么内容等. 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理. 传统的日志分析系统提供了一种离线处理日志信息的可扩展方案,但若要进行实时处理,通常会有较大延迟.而现有的消(队列)系统能够很好的处理实时或 者近似实时的应用,但未处理的数据通常不会写到磁盘上,这对于Hadoop之

消息系统Kafka介绍 - 董的博客

1.  概述 Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数据.活跃的流式数据在web网站应用中非常常见,这些数据包括网站的pv.用户访问了什么内容,搜索了什么内容等. 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理. 传统的日志分析系统提供了一种离线处理日志信息的可扩展方案,但若要进行实时处理,通常会有较大延迟.而现有的消(队列)系统能够很好的处理实时或者近似实时的应用,但未处理的数据通常不会写到磁盘上,这对于Hadoop之类(一

Kafka是分布式发布-订阅消息系统

https://www.biaodianfu.com/kafka.html Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务.它主要用于处理活跃的流式数据. 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转.传统的企业消息系统并不是非常适合大规模的数据处理.为了已在同时搞定在线应用(消息)和离线应用(数据文件,日志