本文介绍云消息队列 Kafka 版各小版本的发布内容。
V3(3.3.1版本系列)
v3.6.0.2
发布日期:2025-12-15
-
新增 Prometheus 监控指标,帮助客户更全面地掌握集群负载与运行状态。
-
引入 HA 退避重试机制,在网络抖动或短暂节点异常场景下有效提升系统稳定性与恢复可靠性。
-
增加事务自动清理机制与历史事务忽略加载机制,解决因过期事务导致的事务状态异常问题。
v3.5.0.2
发布日期:2025-08-25
-
修复内存池生命周期管理问题,避免资源泄漏,保障长时间运行稳定性。
-
优化高可用(HA)切换耗时,进一步缩短故障恢复时间。
-
显著提升大 IO 场景下的吞吐性能,更好地支持高吞吐写入与消费场景。
-
新增 Topic 级禁写控制能力,支持在运维或应急场景下灵活暂停写入。
-
支持预读缓存大小动态调整,无需重启即可优化不同负载下的读取性能。
v3.4.2.4
发布日期:2025-05-12
-
优化存储文件创建超时时的处理逻辑,提升极端场景下的容错能力。
-
优化 Kafka 内核启动流程,加快实例初始化速度。
-
优化存储层预热机制,提升冷启动后首次读写的响应速度。
v3.4.2.3
发布日期:2025-04-29
-
修复特定并发场景下 Leader 选举失败的问题,保障服务高可用性。
-
优化 ZooKeeper 会话心跳检测精度,减少误判导致的非必要切换。
-
改进状态上报机制,提升监控系统对 ISR 变化的感知实时性。
-
优化底层文件 List 接口性能。
v3.4.2.2
发布日期:2025-04-22
-
修复多项关键问题,包括:日志加载异常、服务关闭时大量索引文件打开导致的磁盘压力等。
-
升级底层依赖组件,提升整体可靠性。
-
服务端监控指标增强,提升问题发现速度。
-
优化集群扩缩容过程中的流量调度策略,减少对在线业务的影响。
v3.4.2.1
发布日期:2025-03-31
-
支持动态创建内部系统 Topic,增强运行时灵活性。
-
支持全链路 TraceID 透传,便于分布式环境下的请求追踪与问题定位。
-
优化 Topic 删除流程,提升元数据清理效率。
v3.4.0.5
发布日期:2025-01-10
-
优化高可用(HA)切换过程的可观测性,提升故障诊断效率。
-
改进存储层 I/O 调度策略,减少高并发读写下的尾部延迟。
-
修复异步任务超时处理机制,避免请求非预期阻塞。
-
修正 Leader Epoch 在 Leader 未变更场景下的异常增长问题。
v3.4.0.3
发布日期:2024-11-05
-
新增高可用通道支持,提升网络传输效率与稳定性。
-
修复高可用快速恢复过程中的内存泄漏问题。
-
支持为新创建的 Topic 指定默认存储类型,简化配置。
-
服务端多种检测指标优化,提升对异常集群的早期识别能力。
v3.4.0.1
发布日期:2024-09-26
-
新增高可用快速恢复能力,显著缩短故障 Leader 切换时间。
-
隔离冷读与热读,提升读取性能与稳定性。
-
修复堆外内存泄漏问题,保障长期运行稳定性。
-
新增自适应限流策略,应对高负载场景。
-
增强关键告警日志标识,提升应急响应效率。
v3.2.0.3
发布日期:2024-04-15
-
优化高可用(HA)切换过程的可观测性,提升故障诊断效率。
-
修复快照文件清理逻辑中的多个边界问题,保障元数据一致性。
-
修正 Leader Epoch 在 Leader 未变更场景下的异常增长问题。
-
支持动态创建内部系统 Topic,增强运行时灵活性。
-
优化底层文件 List 接口性能。
-
修复异步任务超时处理机制,避免非预期阻塞。
V2(2.6.2、2.2.0、0.10.x版本系列)
v5.2.4.1
发布日期:2025-10-17
-
代码逻辑优化与内存性能提升:
对核心模块的代码逻辑进行了重构与优化,有效降低内存开销,提升系统整体资源利用率和运行效率。 -
新增最小消费位点缓存机制:
引入最小消费位点的 Cache 缓存功能,支持快速查询与返回,显著提升位点获取的响应性能,降低后端存储压力。 -
消费位点接口弱化对其他组件的依赖:
优化消费位点查询流程,实现对其他组件的弱依赖设计,增强系统在其他组件异常或网络波动场景下的可用性与稳定性。 -
修复 Socket 内存池泄漏问题:
定位并修复了 Socket 层内存池在特定场景下未正确释放导致的内存泄漏问题,进一步提升长时间运行下的系统可靠性与稳定性。
v5.2.3.1
发布日期:2025-01-15
-
功能优化
-
内核逻辑优化,降低 Fetch 请求频次:
重构消息拉取流程,优化 Fetch 请求触发机制,有效减少不必要的 Fetch 次数,降低 Broker 端负载与网络开销。 -
读写队列优化,提升系统隔离性:
改进读写请求的队列调度策略,增强冷数据读取与其他核心 API 请求之间的资源隔离,显著降低冷读对关键路径性能的干扰。 -
增强内核可观测性:
新增关键路径的监控指标与日志埋点,提升系统运行状态的可观测性,便于问题定位与性能调优。
-
-
问题修复
-
修复异常宕机导致消费位点回退问题:
优化位点持久化机制,确保在 Broker 异常宕机场景下,消费位点能够正确恢复,避免消息重复消费。 -
修复重名 Topic 导致无法写入问题:
修正 Topic 元数据管理逻辑,解决因命名冲突导致的写入失败问题,提升集群的稳定性与兼容性。 -
修复 ZK Session 过期引发的事务异常(KAFKA-9307):
优化 ZooKeeper 会话管理机制,增强事务状态机对 Session 超时的容错能力,避免因短暂连接抖动导致事务中断。 -
修复 LocalTopic 内存泄漏问题(KAFKA-8448):
定位并修复 LocalTopic 在长期运行中因引用未释放导致的内存泄漏问题,提升系统长时间运行的稳定性与资源管理能力。
-
v5.2.2.9
发布日期:2024-12-02
-
修复事务标记消息导致
__consumer_offsets内部 Topic 持续膨胀问题(KAFKA-8335):
定位并修复了因事务性消息的控制消息(transaction marker)未被及时清理,导致__consumer_offsetsTopic 的分段日志无法正常合并与过期的问题。优化了事务状态写入与清理机制,确保内部 Topic 的存储增长处于可控范围,避免磁盘空间异常消耗,提升系统长期运行的稳定性。
v5.2.2.8
发布日期:2024-07-04
-
进一步优化内核 TTL 删除机制,降低对磁盘读取性能的影响:
重构 TTL(Time-to-Live)数据过期处理逻辑,将清理操作与读路径进一步解耦,减少后台删除任务对磁盘 I/O 的竞争,显著降低对读取延迟的影响,提升系统在高负载场景下的稳定性和响应性能。 -
增强内核日志可观测性:
完善关键路径的日志输出,统一日志格式并增加上下文信息(如请求类型、耗时等),提升问题排查效率与运维监控能力,助力快速诊断异常场景。
v5.2.2.5
发布日期:2024-03-28
-
优化内核 TTL 删除逻辑,降低对磁盘读性能的影响:
重构 TTL(Time-to-Live)数据清理机制,优化后台过期任务的调度策略与 I/O 处理方式,减少大容量场景下批量删除操作对磁盘读取的资源竞争。通过引入更精细化的清理节流控制,有效缓解因集中删除导致的读延迟抖动,显著提升系统在高负载环境下的稳定性和响应性能。
v5.2.2.4
发布日期:2023-08-14
-
修复因分区倾斜导致 LocalTopic 无法删除的问题定位并解决了在分区分布不均(分区倾斜)的异常场景下,LocalTopic 因元数据状态不一致而导致删除流程卡滞或失败的问题。通过增强删除逻辑的容错机制与状态校验,确保 LocalTopic 在各类部署场景下均可被正常回收,提升资源管理的可靠性与系统健壮性。
v5.2.2.2
发布日期:2023-03-29
-
修复元数据信息异常删除问题:
定位并修复了在特定场景下核心元数据被错误清理的问题,强化了元数据生命周期管理与删除条件校验逻辑,确保 Topic、分区及副本等关键配置信息在非预期操作下仍保持完整,提升系统的稳定性与数据安全性。 -
支持 Sarama 客户端在节点宕机时获取 Offset 列表:
增强 Broker 高可用能力,优化元数据返回逻辑,使 Sarama 等客户端在部分节点故障时仍可正常查询消费位点列表,提升客户端在集群异常场景下的容错性与可用性。 -
修正新增分区接口的错误提示信息:
优化Add Partitions接口的异常反馈机制,统一并明确错误码与响应消息,提升运维诊断效率,帮助用户更准确地识别操作失败原因。
v5.2.2.1
发布日期:2022-10-09
-
增强内核可观测性:
完善内核关键路径的监控指标与日志埋点,新增对消息读写、分区状态、资源使用等核心维度的细粒度观测能力,提升系统运行透明度,助力故障排查与性能调优。 -
优化自动创建 Topic 性能,提升创建效率:
重构自动建 Topic 流程,减少元数据初始化和同步开销,显著缩短 Topic 创建响应时间,提升高并发场景下的系统响应能力与用户体验。 -
支持内部管控客户端自动创建 Topic 的过滤机制:
新增对内部管控类客户端的自动建 Topic 行为进行精细化控制,通过白名单或策略过滤,防止非预期或非法的 Topic 自动创建,增强集群安全治理与运维可控性。
v5.2.2.0
发布日期:2022-03-15
-
修复异常读取场景下的并发安全问题:
定位并解决了在异常读取路径中因多线程竞争导致的资源访问冲突问题,通过引入细粒度锁机制和状态校验,保障高并发场景下读取逻辑的线程安全性与系统稳定性。 -
新增规整化负载均衡策略,优化资源分布:
推出更智能的规整平衡(Rebalancing)策略,优化分区与副本在 Broker 间的分布均匀性,减少负载倾斜,提升集群整体资源利用率与服务稳定性。 -
仅允许实际 Leader 节点执行远程读取操作:
增强副本角色校验机制,限制远程读请求仅由当前分区的实际 Leader 处理,避免因角色状态不一致引发的数据读取异常,提升数据一致性与集群安全性。 -
修复主机名获取异常问题:
优化主机名获取调用逻辑,增强在容器化或特殊网络环境下主机名解析的健壮性,确保节点标识正确注册,避免因主机名为空或错误导致的注册失败与通信异常。 -
新增同步模式下对指定 ZooKeeper 实例读写功能,防止数据不一致:
引入对固定 ZooKeeper 节点的显式读写支持,在关键元数据操作中强制使用主用 ZK 实例进行同步访问,避免跨 ZK 实例读取造成的短暂数据不一致,提升配置管理的可靠性。 -
优化映射压缩机制并完善监控指标上报:
改进特定场景下的流量引流数据压缩逻辑,降低内存与网络开销;同时修复并增强核心监控指标的准确性与实时性,提升流量统计与可观测性能力。
v5.1.1.2
发布日期:2025-10-10
-
修复 Leader Epoch 回退问题:
修复了在特定故障恢复场景下 Leader Epoch 异常回退的问题,增强 Epoch 递增的单调性保障,避免因元数据不一致导致的重复消费或数据丢失,提升副本状态机的可靠性。 -
修复 Replica 资源泄漏问题:
定位并解决 Replica 对象在 Broker 下线或分区迁移过程中未及时释放的问题,优化资源回收机制,防止内存与句柄持续累积,提升系统长期运行稳定性。
v5.1.1.1
发布日期:2025-08-10
-
新增读队列与默认 API 队列分离机制(默认开启):
引入独立的读请求处理队列,将消费读取流量与常规 API 请求隔离,避免高负载场景下相互干扰,提升系统整体调度效率与服务稳定性。 -
修复动态变配导致配置失效问题:
优化配置热更新逻辑,确保在动态调整参数时状态正确同步,防止因配置丢失引发的服务异常,提升运行时可维护性。 -
修复限流指标统计不准确问题:
完善限流模块的监控数据采集机制,修正多线程环境下计数偏差,确保Throttle相关指标真实反映当前流量控制状态,增强可观测性与运维判断依据。 -
修复 Topic 变更导致无法写入问题:
解决Topic 在状态变更期间因元数据校验异常导致的写入阻塞问题,保障流程的连续性与写入可用性。 -
优化 ListOffsets 机制,支持在异常场景下返回特殊位点:
增强 ListOffsets 接口容错能力,在分区不可用状态下仍可返回预设位点或缓存中的位点,提升客户端(如 Sarama)在异常场景下的兼容性与可用性。 -
优化日志打印格式与内容:
统一日志输出规范,增加关键上下文信息(如请求类型、耗时等),去除冗余日志,提升问题定位效率和系统可观测性。 -
增强 HA 机制,避免 ZooKeeper 闪断导致 HA 失效:
提升高可用切换的容错能力,增加对 ZK 会话短暂中断的容忍机制,防止因网络抖动或 ZK 瞬时不可用导致主备切换失败,保障集群快速恢复能力。 -
优化 NameServer 连接管理机制:
调整客户端与 NameServer 的连接策略,降低异常状态下对网络线程的阻塞影响,提升系统在 NameServer 故障或延迟时的鲁棒性。 -
合并修复 4 个开源社区事务与幂等性相关关键 Issue:
同步 Apache Kafka 社区多个核心缺陷修复,涵盖:-
KAFKA-8448:修复 LocalTopic 内存泄漏
-
KAFKA-9307:修复 ZK Session 过期导致事务异常
-
KAFKA-9839:优化事务协调器状态机
-
KAFKA-8764:修复幂等生产者序列号重置问题
显著提升事务与幂等功能的稳定性与兼容性。
-