本文介紹雲訊息佇列 Kafka 版各小版本的發布內容。
V3(3.3.1版本系列)
v3.6.0.2
發布日期:2025-12-15
-
新增 Prometheus 監控指標,協助客戶更全面地掌握叢集負載與運行狀態。
-
引入 HA 退避重試機制,在網路抖動或短暫節點異常情境下有效提升系統穩定性與恢複可靠性。
-
增加事務自動清理機制與歷史事務忽略載入機制,解決因到期事務導致的事務狀態異常問題。
v3.5.0.2
發布日期:2025-08-25
-
修複記憶體池生命週期管理問題,避免資源泄漏,保障長時間運行穩定性。
-
最佳化高可用(HA)切換耗時,進一步縮短故障恢復。
-
顯著提升大 IO 情境下的吞吐效能,更好地支援高吞吐寫入與消費情境。
-
新增 Topic 級禁寫控制能力,支援在營運或應急情境下靈活暫停寫入。
-
支援預讀緩衝大小動態調整,無需重啟即可最佳化不同負載下的讀取效能。
v3.4.2.4
發布日期:2025-05-12
-
最佳化隱藏檔建立逾時時的處理邏輯,提升極端情境下的容錯能力。
-
最佳化 Kafka 核心啟動流程,加快執行個體初始化速度。
-
最佳化儲存層預熱機制,提升冷啟動後首次讀寫的響應速度。
v3.4.2.3
發布日期:2025-04-29
-
修複特定並發情境下 Leader 選舉失敗的問題,保障服務高可用性。
-
最佳化 ZooKeeper 會話心跳檢測精度,減少誤判導致的非必要切換。
-
改進狀態上報機制,提升監控系統對 ISR 變化的感知即時性。
-
最佳化底層檔案 List 介面效能。
v3.4.2.2
發布日期:2025-04-22
-
修複多項關鍵問題,包括:日誌載入異常、服務關閉時大量索引檔案開啟導致的磁碟壓力等。
-
升級底層相依元件,提升整體可靠性。
-
服務端監控指標增強,提升問題發現速度。
-
最佳化叢集擴縮容過程中的流量調度策略,減少對線上業務的影響。
v3.4.2.1
發布日期:2025-03-31
-
支援動態建立內部系統 Topic,增強運行時靈活性。
-
支援全鏈路 TraceID 透傳,便於分布式環境下的請求追蹤與問題定位。
-
最佳化 Topic 刪除流程,提升中繼資料清理效率。
v3.4.0.5
發布日期:2025-01-10
-
最佳化高可用(HA)切換過程的可觀測性,提升故障診斷效率。
-
改進儲存層 I/O 調度策略,減少高並發讀寫下的尾部延遲。
-
修複非同步任務逾時處理機制,避免請求非預期阻塞。
-
修正 Leader Epoch 在 Leader 未變更情境下的異常增長問題。
v3.4.0.3
發布日期:2024-11-05
-
新增高可用通道支援,提升網路傳輸效率與穩定性。
-
修複高可用快速恢複過程中的記憶體流失問題。
-
支援為新建立的 Topic 指定預設儲存類型,簡化配置。
-
服務端多種檢測指標最佳化,提升對異常叢集的早期識別能力。
v3.4.0.1
發布日期:2024-09-26
-
新增高可用快速恢複能力,顯著縮短故障 Leader 切換時間。
-
隔離冷讀與熱讀,提升讀取效能與穩定性。
-
修複堆外記憶體流失問題,保障長期運行穩定性。
-
新增自適應限流策略,應對高負載情境。
-
增強關鍵警示日誌標識,提升應急響應效率。
v3.2.0.3
發布日期:2024-04-15
-
最佳化高可用(HA)切換過程的可觀測性,提升故障診斷效率。
-
修複快照檔案清理邏輯中的多個邊界問題,保障中繼資料一致性。
-
修正 Leader Epoch 在 Leader 未變更情境下的異常增長問題。
-
支援動態建立內部系統 Topic,增強運行時靈活性。
-
最佳化底層檔案 List 介面效能。
-
修複非同步任務逾時處理機制,避免非預期阻塞。
V2(2.6.2、2.2.0、0.10.x版本系列)
v5.2.4.1
發布日期:2025-10-17
-
代碼邏輯最佳化與記憶體效能提升:
對核心模組的代碼邏輯進行了重構與最佳化,有效降低記憶體開銷,提升系統整體資源使用率和運行效率。 -
新增最小消費位點緩衝機制:
引入最小消費位點的 Cache 緩衝功能,支援快速查詢與返回,顯著提升位點擷取的響應效能,降低後端儲存壓力。 -
消費位點介面弱化對其他組件的依賴:
最佳化消費位點查詢流程,實現對其他組件的弱依賴設計,增強系統在其他組件異常或網路波動情境下的可用性與穩定性。 -
修複 Socket 記憶體池泄漏問題:
定位並修複了 Socket 層記憶體池在特定情境下未正確釋放導致的記憶體流失問題,進一步提升長時間運行下的系統可靠性與穩定性。
v5.2.3.1
發布日期:2025-01-15
-
功能最佳化
-
核心邏輯最佳化,降低 Fetch 請求頻次:
重構訊息拉取流程,最佳化 Fetch 請求觸發機制,有效減少不必要的 Fetch 次數,降低 Broker 端負載與網路開銷。 -
讀寫隊列最佳化,提升系統隔離性:
改進讀寫請求的隊列調度策略,增強冷資料讀取與其他核心 API 請求之間的資源隔離,顯著降低冷讀對關鍵路徑效能的幹擾。 -
增強核心可觀測性:
新增關鍵路徑的監控指標與日誌埋點,提升系統運行狀態的可觀測性,便於問題定位與效能調優。
-
-
問題修複
-
修複異常宕機導致消費位點回退問題:
最佳化位點持久化機制,確保在 Broker 異常宕機情境下,消費位點能夠正確恢複,避免訊息重複消費。 -
修複重名 Topic 導致無法寫入問題:
修正 Topic 中繼資料管理邏輯,解決因命名衝突導致的寫入失敗問題,提升叢集的穩定性與相容性。 -
修複 ZK Session 到期引發的事務異常(KAFKA-9307):
最佳化 ZooKeeper 會話管理機制,增強事務狀態機器對 Session 逾時的容錯能力,避免因短暫串連抖動導致事務中斷。 -
修複 LocalTopic 記憶體流失問題(KAFKA-8448):
定位並修複 LocalTopic 在長期運行中因引用未釋放導致的記憶體流失問題,提升系統長時間啟動並執行穩定性與資源管理能力。
-
v5.2.2.9
發布日期:2024-12-02
-
修複事務標記訊息導致
__consumer_offsets內部 Topic 持續膨脹問題(KAFKA-8335):
定位並修複了因異動訊息的控制訊息(transaction marker)未被及時清理,導致__consumer_offsetsTopic 的分段日誌無法正常合并與到期的問題。最佳化了事務狀態寫入與清理機制,確保內部 Topic 的儲存增長處於可控範圍,避免磁碟空間異常消耗,提升系統長期啟動並執行穩定性。
v5.2.2.8
發布日期:2024-07-04
-
進一步最佳化核心 TTL 刪除機制,降低對磁碟讀取效能的影響:
重構 TTL(Time-to-Live)資料到期處理邏輯,將清理操作與讀路徑進一步解耦,減少後台刪除任務對磁碟 I/O 的競爭,顯著降低對讀取延遲的影響,提升系統在高負載情境下的穩定性和響應效能。 -
增強核心日誌可觀測性:
完善關鍵路徑的日誌輸出,統一日誌格式並增加上下文資訊(如請求類型、耗時等),提升問題排查效率與營運監控能力,助力快速診斷異常情境。
v5.2.2.5
發布日期:2024-03-28
-
最佳化核心 TTL 刪除邏輯,降低對磁碟讀效能的影響:
重構 TTL(Time-to-Live)資料清理機制,最佳化後台到期任務的調度策略與 I/O 處理方式,減少大容量情境下大量刪除操作對磁碟讀取的資源競爭。通過引入更精細化的清理節流量控制,有效緩解因集中刪除導致的讀延遲抖動,顯著提升系統在高負載環境下的穩定性和響應效能。
v5.2.2.4
發布日期:2023-08-14
-
修複因分區傾斜導致 LocalTopic 無法刪除的問題定位並解決了在分區分布不均(分區傾斜)的異常情境下,LocalTopic 因中繼資料狀態不一致而導致刪除流程卡滯或失敗的問題。通過增強刪除邏輯的容錯機制與狀態校正,確保 LocalTopic 在各類部署情境下均可被正常回收,提升資源管理的可靠性與系統健壯性。
v5.2.2.2
發布日期:2023-03-29
-
修複中繼資料資訊異常刪除問題:
定位並修複了在特定情境下核心中繼資料被錯誤清理的問題,強化了中繼資料生命週期管理與刪除條件校正邏輯,確保 Topic、分區及副本等關鍵配置資訊在非預期操作下仍保持完整,提升系統的穩定性與資料安全性。 -
支援 Sarama 用戶端在節點宕機時擷取 Offset 列表:
增強 Broker 高可用能力,最佳化中繼資料返回邏輯,使 Sarama 等用戶端在部分節點故障時仍可正常查詢消費位點列表,提升用戶端在叢集異常情境下的容錯性與可用性。 -
修正新增分區介面的錯誤提示資訊:
最佳化Add Partitions介面的異常反饋機制,統一併明確錯誤碼與響應訊息,提升營運診斷效率,協助使用者更準確地識別操作失敗原因。
v5.2.2.1
發布日期:2022-10-09
-
增強核心可觀測性:
完善核心關鍵路徑的監控指標與日誌埋點,新增對訊息讀寫、分區狀態、資源使用等核心維度細粒度觀測能力,提升系統運行透明度,助力故障排查與效能調優。 -
最佳化自動建立 Topic 效能,提升建立效率:
重構自動建 Topic 流程,減少中繼資料初始化和同步開銷,顯著縮短 Topic 建立回應時間,提升高並發情境下的系統響應能力與使用者體驗。 -
支援內部管控用戶端自動建立 Topic 的過濾機制:
新增對內部管控類用戶端的自動建 Topic 行為進行精細化控制,通過白名單或策略過濾,防止非預期或非法的 Topic 自動建立,增強叢集安全治理與營運可控性。
v5.2.2.0
發布日期:2022-03-15
-
修複異常讀取情境下的並發安全問題:
定位並解決了在異常讀取路徑中因多線程競爭導致的資源存取違規問題,通過引入細部鎖定機制和狀態校正,保障高並發情境下讀取邏輯的執行緒安全性與系統穩定性。 -
新增規整化負載平衡策略,最佳化資源分布:
推出更智能的規整平衡(Rebalancing)策略,最佳化分區與副本在 Broker 間的分布均勻性,減少負載傾斜,提升叢集整體資源使用率與服務穩定性。 -
僅允許實際 Leader 節點執行遠程讀取操作:
增強副本角色校正機制,限制遠程讀請求僅由當前分區的實際 Leader 處理,避免因角色狀態不一致引發的資料讀取異常,提升資料一致性與叢集安全性。 -
修複主機名稱擷取異常問題:
最佳化主機名稱擷取調用邏輯,增強在容器化或特殊網路環境下主機名稱解析的健壯性,確保節點標識正確註冊,避免因主機名稱為空白或錯誤導致的註冊失敗與通訊異常。 -
新增同步模式下對指定 ZooKeeper 執行個體讀寫功能,防止資料不一致:
引入對固定 ZooKeeper 節點的顯式讀寫支援,在關鍵中繼資料操作中強制使用主用 ZK 執行個體進行同步訪問,避免跨 ZK 執行個體讀取造成的短暫資料不一致,提升組態管理的可靠性。 -
最佳化映射壓縮機制並完善監控指標上報:
改進特定情境下的流量引流資料壓縮邏輯,降低記憶體與網路開銷;同時修複並增強核心監控指標的準確性與即時性,提升流量統計與可觀測效能力。
v5.1.1.2
發布日期:2025-10-10
-
修複 Leader Epoch 回退問題:
修複了在特定故障恢複情境下 Leader Epoch 異常回退的問題,增強 Epoch 遞增的單調性保障,避免因中繼資料不一致導致的重複消費或資料丟失,提升副本狀態機器的可靠性。 -
修複 Replica 資源泄漏問題:
定位並解決 Replica 對象在 Broker 下線或分區遷移過程中未及時釋放的問題,最佳化資源回收機制,防止記憶體與控制代碼持續累積,提升系統長期運行穩定性。
v5.1.1.1
發布日期:2025-08-10
-
新增讀隊列與預設 API 隊列分離機制(預設開啟):
引入獨立的讀請求處理隊列,將消費讀取流量與常規 API 請求隔離,避免高負載情境下相互幹擾,提升系統整體調度效率與服務穩定性。 -
修複動態變更配置導致配置失效問題:
最佳化配置熱更新邏輯,確保在動態調整參數時狀態正確同步,防止因配置丟失引發的服務異常,提升運行時可維護性。 -
修複限流指標統計不準確問題:
完善限流模組的監控資料擷取機制,修正多線程環境下計數偏差,確保Throttle相關指標真實反映當前流量控制狀態,增強可觀測性與營運判斷依據。 -
修複 Topic 變更導致無法寫入問題:
解決Topic 在狀態變更期間因中繼資料校正異常導致的寫入阻塞問題,保障流程的連續性與寫入可用性。 -
最佳化 ListOffsets 機制,支援在異常情境下返回特殊位點:
增強 ListOffsets 介面容錯能力,在分區不可用狀態下仍可返回預設位點或緩衝中的位點,提升用戶端(如 Sarama)在異常情境下的相容性與可用性。 -
最佳化日誌列印格式與內容:
統一日誌輸出規範,增加關鍵上下文資訊(如請求類型、耗時等),去除冗餘日誌,提升問題定位效率和系統可觀測性。 -
增強 HA 機制,避免 ZooKeeper 閃斷導致 HA 失效:
提升高可用切換的容錯能力,增加對 ZK 會話短暫中斷的容忍機制,防止因網路抖動或 ZK 瞬時不可用導致主備切換失敗,保障叢集快速恢複能力。 -
最佳化 NameServer 串連管理機制:
調整用戶端與 NameServer 的串連策略,降低異常狀態下對網路線程的阻塞影響,提升系統在 NameServer 故障或延遲時的魯棒性。 -
合并修複 4 個開源社區事務與等冪性相關關鍵 Issue:
同步 Apache Kafka 社區多個核心缺陷修複,涵蓋:-
KAFKA-8448:修複 LocalTopic 記憶體流失
-
KAFKA-9307:修複 ZK Session 到期導致事務異常
-
KAFKA-9839:最佳化事務協調器狀態機器
-
KAFKA-8764:修複等冪生產者序號重設問題
顯著提升事務與等冪功能的穩定性與相容性。
-