一些大的网站如果想统计用户的访问情况,如果每个用户的访问,都在后端经过一系列的用户行为分析,然后再给客户返回结果这显然不现实,直接写入数据库,数据库也扛不住,
这时候就需要一个消息系统,在用户一个请求过来后,服务器只需要把这次操作扔到后端,不用管后端的处理结果,直接返回给用户结果,这样用户体验才比较好,比较符合实际情况
Kafka是一个分布式的消息系统,作为用户来说,只需要把数据扔给kafka,在需要的时候直接读就可以了,非常方便,实现异步非io阻塞
kafka分为productor,consumer和broker
productor:消息生产者,就是向kafka里面扔数据的一方(可以是多个productor向同一个写入)
consumer:消息消费者 ,就是从kafka里面消费(取)数据的一方(也可以是多个consumer向同一个kafka取数据)
broker:一个服务器实例,这个就是productor写入的服务器(实例),consumer从这里取数据,
topic:一条消息流
partition:分区,每个topic可以按特定的分区逻辑分区,类似mysql的分表,
partition的数据决定了一个topic可以同时多少个进程(用户)去写入,消费它(如果一个topic的partition为3,那么productor只能同时起3个进程写入,consumer同时有3个进程进行消费,如果启动的数量超过3个则会一直等待)
consumer group:消费者组,相同groupid的consumer组成一个组
如果多个consumer都指定同一个groupid,则这些consumer会自动组成一个负载均衡的模式,消费一个topic
offset:一条消息在消息流中的偏移
举例来说:数据1,2可以往topicid为top1里面写入 ,数据3,4可以往topicid为top2里面写入,
在消费时,指定同一个groupid,消费topicid为top1的topic,连续消费2次可以消费1,2,如果换一个groupid,则又从头开始消费,也就是同一条消费,可以被多个groupid重复消费