本文介紹匯入Kafka資料到Log Service所涉及的使用限制。
採集限制
| 限制項 | 說明 |
| 壓縮格式 | Kafka Producer採用的壓縮格式需被限制為gzip、zstd、lz4或snappy。其他壓縮格式的Kafka資料會被丟棄。 資料處理流量觀測儀錶盤中的寫失敗條數代表被丟棄的資料條數。如何查看,請參見查看匯入配置。 |
| 最大Topic數量 | 單個資料匯入配置最大支援指定10,000個Topic。 |
| 單條日誌大小 | 單條日誌最大為3 MB。單條日誌大小超過限制時,該日誌會被丟棄。 資料處理流量觀測儀錶盤中的寫失敗條數代表被丟棄的資料條數。如何查看,請參見查看匯入配置。 |
| 起始位置 | 僅支援指定最早和最晚位置。不支援從指定時間的位置開始匯入。 |
配置限制
| 限制項 | 說明 |
| 資料匯入配置數量 | 單個Project允許建立的所有類型的匯入配置總數最大為100個。如果您有更大的使用需求,請提工單申請。 |
| 頻寬節流設定 | 資料匯入任務通過VPC網路讀取阿里雲Kafka叢集的資料時,預設支援的最大網路頻寬為128 MB/s。如果您需要更大的頻寬,請提工單申請。 |
效能限制
| 限制項 | 說明 |
| 並發子任務數量 | Log Service後台會自動根據Topic數量,建立多個匯入子任務進行並發匯入。每個子任務最大支援50 MB/s的處理速度(解壓後的資料)。
如果您有更大的使用需求,請提工單申請。 |
| Topic Partition數量 | Kafka Topic的Partition數量越多,越利於通過擴容子任務來提升處理吞吐。 針對資料量較大的Topic,您可以適當增加其Partition數量(建議不低於16個)。 |
| Logstore Shard數量 | Log Service的寫效能取決於目標Logstore的Shard數量(單個Shard支援5 MB/s的寫入)。當資料量較大時,建議增加目標Logstore的Shard數量。具體操作,請參見管理Shard。 |
| 資料是否壓縮 | 當資料量較大時,建議在寫資料到Kafka時就進行壓縮,這樣可顯著節省通過網路讀取的資料量。 網路傳輸階段往往比解壓資料階段更耗時,特別是採用公網匯入資料時。 |
| 網路 | 如果是VPC環境下的阿里雲Kafka叢集,您可通過VPC網路讀取資料,節省公網流量且傳輸速度快(達到100 MB/s以上的頻寬)。 採用公網匯入資料時,網路的效能和頻寬無法保障,容易出現匯入延遲問題。 |
其他限制
| 限制項 | 說明 |
| 中繼資料同步延遲 | 匯入任務每10分鐘與Kafka叢集同步一次叢集的中繼資料資訊。對於新增的Topic、Partitons,匯入其中繼資料會存在10分鐘左右的延遲。 說明 採用最遲策略讀取資料時,對於新增Topic,最初寫入的資料(最大10分鐘的資料)將被跳過。 |
| Topic Offset有效時間 | Topic Offset的最大有效時間為7天,即如果有一個Topic在7天沒有讀取到資料,之前的Offset會被丟棄。後續有新資料時,按照匯入配置中的起始位置的設定來決定要使用的Offset。 |