全部產品
Search
文件中心

Simple Log Service:匯入Kafka資料

更新時間:Jun 30, 2024

本文介紹匯入Kafka資料到Log Service所涉及的使用限制。

採集限制

限制項說明
壓縮格式Kafka Producer採用的壓縮格式需被限制為gzip、zstd、lz4或snappy。其他壓縮格式的Kafka資料會被丟棄。

資料處理流量觀測儀錶盤中的寫失敗條數代表被丟棄的資料條數。如何查看,請參見查看匯入配置

最大Topic數量單個資料匯入配置最大支援指定10,000個Topic。
單條日誌大小單條日誌最大為3 MB。單條日誌大小超過限制時,該日誌會被丟棄。

資料處理流量觀測儀錶盤中的寫失敗條數代表被丟棄的資料條數。如何查看,請參見查看匯入配置

起始位置僅支援指定最早和最晚位置。不支援從指定時間的位置開始匯入。

配置限制

限制項說明
資料匯入配置數量單個Project允許建立的所有類型的匯入配置總數最大為100個。如果您有更大的使用需求,請提工單申請。
頻寬節流設定資料匯入任務通過VPC網路讀取阿里雲Kafka叢集的資料時,預設支援的最大網路頻寬為128 MB/s。如果您需要更大的頻寬,請提工單申請。

效能限制

限制項說明
並發子任務數量Log Service後台會自動根據Topic數量,建立多個匯入子任務進行並發匯入。每個子任務最大支援50 MB/s的處理速度(解壓後的資料)。
  • Topic數量超過2,000時,Log Service會建立16個子任務。
  • Topic數量超過1,000時,Log Service會建立8個子任務。
  • Topic數量超過500時,Log Service會建立4個子任務。
  • Topic數量小於等於500時,Log Service會建立2個子任務。

如果您有更大的使用需求,請提工單申請。

Topic Partition數量Kafka Topic的Partition數量越多,越利於通過擴容子任務來提升處理吞吐。

針對資料量較大的Topic,您可以適當增加其Partition數量(建議不低於16個)。

Logstore Shard數量Log Service的寫效能取決於目標Logstore的Shard數量(單個Shard支援5 MB/s的寫入)。當資料量較大時,建議增加目標Logstore的Shard數量。具體操作,請參見管理Shard
資料是否壓縮當資料量較大時,建議在寫資料到Kafka時就進行壓縮,這樣可顯著節省通過網路讀取的資料量。

網路傳輸階段往往比解壓資料階段更耗時,特別是採用公網匯入資料時。

網路如果是VPC環境下的阿里雲Kafka叢集,您可通過VPC網路讀取資料,節省公網流量且傳輸速度快(達到100 MB/s以上的頻寬)。

採用公網匯入資料時,網路的效能和頻寬無法保障,容易出現匯入延遲問題。

其他限制

限制項說明
中繼資料同步延遲匯入任務每10分鐘與Kafka叢集同步一次叢集的中繼資料資訊。對於新增的Topic、Partitons,匯入其中繼資料會存在10分鐘左右的延遲。
說明 採用最遲策略讀取資料時,對於新增Topic,最初寫入的資料(最大10分鐘的資料)將被跳過。
Topic Offset有效時間Topic Offset的最大有效時間為7天,即如果有一個Topic在7天沒有讀取到資料,之前的Offset會被丟棄。後續有新資料時,按照匯入配置中的起始位置的設定來決定要使用的Offset。