全部產品
Search
文件中心

E-MapReduce:將Kafka資料匯入JindoFS

更新時間:Jul 01, 2024

Kafka廣泛用於日誌收集、監控資料彙總等情境,支援離線或流式資料處理、即時資料分析等。本文主要介紹Kafka資料匯入到JindoFS的幾種方式。

常見Kafka資料匯入方式

  • 通過Flume匯入

    推薦使用Flume方式匯入到JindoFS,利用Flume對HDFS的支援,替換路徑到JindoFS即可完成。

    a1.sinks = emr-jfs
    
    ...
    
    a1.sinks.emr-jfs.type = hdfs
    a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d
    a1.sinks.emr-jfs.hdfs.rollInterval = 10
    a1.sinks.emr-jfs.hdfs.rollSize = 0
    a1.sinks.emr-jfs.hdfs.rollCount = 0
    a1.sinks.emr-jfs.hdfs.fileType = DataStream
  • 通過調用Kafka API匯入

    對於MapReduce、Spark以及其他調用Kafka API匯入資料的方式,只需引用Hadoop FileSystem,然後使用JindoFS的路徑寫入即可。

  • 通過Kafka Connector匯入

    使用Kafka HDFS Connector也可以把Kafka資料匯入到Hadoop生態,將sink的輸出路徑替換成JindoFS的路徑即可。