【原创】Kakfa common包源代码分析

初一看common包的代码吓了一跳,这么多scala文件!后面仔细一看大部分都是Kafka自定义的Exception类,简直可以改称为kafka.exceptions包了。由于那些异常类的名称通常都定义得很直观,笔者就不在一一赘述了。现在我们说说common包中其他的代码。

一、AppInfo.scala

这是一个object,实现了KafkaMetricsGroup trait。后者可以认为是一个创建各种度量元的工厂类。主要利用Yammer Metrics框架创建各种度量元,比如guage,meter,timer和histogram等。而在AppInfo object中只定义了一个方法:registerInfo

该方法没有返回值,它会首先判断是否已经注册过(isRegistered == true):如果已注册直接返回。之后判断这个类是否来自于jar包,如果不是的话也直接返回。最后程序创建一个Manifest对象并从中读取版本信息并使用该version信息创建一个guage。

二、ClientIdAndBroker.scala

发现kafka源代码中有很多类似于AAndB或AB这样的命名,基本上就是创建一个类,接收2个参数A和B的意思。这个scala文件也不例外,有两个case类:ClientIdAndBroker和ClientIdAllBrokers。基本上前者就是创建一个类保存一个clientId和一个broker;而后者给定一个clientId输出clientId-AllBrokers。

三、ClientIdTopic.scala

与ClientIdAndBroker.scala完全一样,只是这次保存的是(clientId, topic)的信息——元组对的方式非常有用,因为在后面Stats对象创建时会大量使用它们。

四、Config.scala

代码不复杂,就只是一个简单的trait,里面只有一个无返回值的方法: validateChars——目的也很简单就是验证给定的属性值里面有没有非法字符。目前只允许字母,数字,句点(.),下划线(_)以及横线(-)。其他字符都视为非法字符,一旦发现存储非法字符立即抛出异常。Producer和Consumer都有对应的config实现了这个Config trait。

五、ErrorMapping.scala

为common包中的每个异常做一个序号,并加入到一个Map中,同时提供很多方法可以双向检索——即根据序号返回异常实例或根据异常返回该异常序号

六、OffsetMetadataAndError.scala

该scala文件中提供了两组伴生对象:OffsetAndMetadata和OffsetMetadataAndError。我们先说第一组

OffsetAndMetadata object提供了三个常量字段:InvalidOffSet(-1)、NoMetadata("")以及InvalidTime(-1),主要用于出现错误时将OffsetAndMetadata字段的初始化。于是,同名的class构造器也接收三个参数: long型的位移信息、字符串表示的metadata信息以及一个时间戳。该class就提供了一个toString方法来格式化输出这个offset+metadata+timestamp的信息。

第二组OffsetMetadataAndError,从名字来说感觉就是offset+metadata+errorcode的风格。一看代码果不其然。OffsetMetadataAndError class的构造函数就是接收这三个参数。当然也提供了2个辅助构造函数只是用了很多的默认值,也没什么大不了的。asTuple方法就是将这三个字段打包成一个元组返回。toString就自不比说了。

定义了class之后,OffsetMetadataAndError object起到了工厂类的效果,实例化了4个类实例,分别是

NoOffset: 无效位移,无元数据(metadata),无错误异常

OffsetsLoading: 无效位移,无metadata,位移加载中异常

NotOffsetManagerForGroup: 无效位移,无metadata,consumer无对应coordinator异常

UnknownTopicOrPartition: 无效位移,无metadata,未知topic或分区ID不在有效范围内[0, numPartitions-1]

七、Topic.scala

刚看到Topic.scala时小小激动了一把。终于又看到与核心功能有点关联的代码了。本来预期Topic代码会很长,没想到并没有太多,只是简单地定义了一个object,几个字段加上一个方法就搞定了。名为Topic,其实更像是对Kafka topic的一个验证类。下面我们具体看一下。首先Topic的合法字符依然是字母、数字、句号,下划线和横线,另外topic最大长度不能超过255个字符。唯一的方法validate就是为给定的topic名做合法性检验。另外这个object中还维护了一个Set保存topic,后面在consumer的白名单、黑名单过滤时会用到。不过貌似这个集合只有一个topic:__consumer_offsets,而且整个kafka代码中也没有代码对其进行插入/删除操作,因此只是在内部使用的,正常的topic不应该加到这个Set中。

八、TopicAndPartition.scala

遵循以往的命名风格,这个类应该是同时保存一个topic和一个partition信息,并提供各种方式初始化该类实例,另外也提供了asTuple方法以元组的方式返回(topic, partition)

时间: 2024-08-24 16:55:56

【原创】Kakfa common包源代码分析的相关文章

【原创】Kakfa message包源代码分析

笔者最近在研究Kafka的message包代码,有了一些心得,特此记录一下.其实研究的目的从来都不是只是看源代码,更多地是想借这个机会思考几个问题:为什么是这么实现的?你自己实现方式是什么?比起人家的实现方式,你的方案有哪些优缺点? 任何消息引擎系统最重要的都是定义消息,使用什么数据结构来保存消息和消息队列?刚刚思考这个问题的时候,我自己尝试实现了一下Message的定义: public class Message implements Serializable { private CRC32

【原创】Kakfa cluster包源代码分析

kafka.cluster包定义了Kafka的基本逻辑概念:broker.cluster.partition和replica——这些是最基本的概念.只有弄懂了这些概念,你才真正地使用kakfa来帮助完成你的需求.因为scala文件不多,还是老规矩,我们一个一个分析. 一.Broker.scala broker可以说是Kafka最基础的概念了,没有broker就没有kafka集群,更不用提负责解耦生产者和消费者了.Kafka使用了一个case class来定义Broker类.一个Broker的属性

【原创】Kakfa log包源代码分析(一)

Kafka日志包是提供的是日志管理系统.主要的类是LogManager——该类负责处理所有的日志,并根据topic/partition分发日志.它还负责flush策略以及日志保存策略.Kafka日志本身是由多个日志段组成(log segment).一个日志是一个FileMessageSet,它包含了日志数据以及OffsetIndex对象,该对象使用位移来读取日志数据. 下面我们一个一个地分析,先说最简单的: 一.LogConfig.scala 该scala定义了Defaults object,里

【原创】Kakfa network包源代码分析

kafka.network包主要为kafka提供网络服务,通常不包含具体的逻辑,都是一些最基本的网络服务组件.其中比较重要的是Receive.Send和Handler.Receive和Send封装了底层的入站(inbound)和出站(outbound)字节传输请求,而Handler在此二者间做了一个映射.一个handler就代表了一个函数,该函数接收Receive类型的对象并返回Send类型的对象.用户可以处理过冲中添加逻辑代码,并且需要自行捕获传输读写过程中的异常,将其序列化之后发送给客户端.

【原创】Kakfa serializer包源代码分析

这个包很简单,只有两个scala文件: decoder和encoder,就是提供序列化/反序列化的服务.我们一个一个说. 一.Decoder.scala 首先定义了一个trait: Decoder[T].在这个trait中定义了一个抽象方法fromBytes,用于将一个字节数组转换成一个类型T的对象.实现此trait的子类的构造函数中必须要接收一个VerifiableProperties. Kafka还定义了两个实现了 Decoder的子类: DefaultDecoder和StringDecod

【原创】Kakfa metrics包源代码分析

这个包主要是与Kafka度量相关的. 一.KafkaTimer.scala 对代码块的运行进行计时.仅提供一个方法: timer——在运行传入函数f的同时为期计时 二.KafkaMetricsConfig.scala 指定reporter类,以逗号分隔的reporter类,比如kafka.metrics.KafkaCSVMetricsReporter,这些类必须要在claasspath中指定.另外指定了度量的轮询间隔,默认是10秒. 三.KafkaMetricsReporter.scala Ka

【原创】Kakfa api包源代码分析

既然包名是api,说明里面肯定都是一些常用的Kafka API了. 一.ApiUtils.scala 顾名思义,就是一些常见的api辅助类,定义的方法包括: 1. readShortString: 从一个ByteBuffer中读取字符串长度和字符串.这个ByteBuffer的格式应该是:2个字节的字符串长度值N+N个字节的字符串 2. writeShortString: 与readShortString相反,先写入2个字节的长度N,然后写入N个字节到ByteBuffer中 3. shortStr

【原创】kafka consumer源代码分析

顾名思义,就是kafka的consumer api包. 一.ConsumerConfig.scala Kafka consumer的配置类,除了一些默认值常量及验证参数的方法之外,就是consumer的配置参数了,比如group.id, consumer.id等,详细列表见官网. 二.ConsumerIterator.scala KafkaStream的迭代器类,当stream底层的阻塞队列为空时该iterator会置于阻塞状态.这个迭代器还提供了一个shutdownCommand对象可作为一个

【原创】kafka server源代码分析(一)

这个是Kafka server的核心包,里面的类也很多,我们还是一个一个分析 一.BrokerStates.scala 定义了目前一个kafka broker的7中状态 —— 1. NotRunning:未运行 2. Starting:启动中 3. RecoveringFromUncleanShutdown:从上次异常恢复中 4. RunningAsBroker:已启动 5. RunningAsController:作为Controller运行 6. PendingControlledShutd