Kafka廣泛用於日誌收集、監控資料彙總等情境,支援離線或流式資料處理、即時資料分析等。本文主要介紹Kafka資料匯入到JindoFS的幾種方式。
常見Kafka資料匯入方式
- 通過Flume匯入
推薦使用Flume方式匯入到JindoFS,利用Flume對HDFS的支援,替換路徑到JindoFS即可完成。
a1.sinks = emr-jfs ... a1.sinks.emr-jfs.type = hdfs a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d a1.sinks.emr-jfs.hdfs.rollInterval = 10 a1.sinks.emr-jfs.hdfs.rollSize = 0 a1.sinks.emr-jfs.hdfs.rollCount = 0 a1.sinks.emr-jfs.hdfs.fileType = DataStream - 通過調用Kafka API匯入
對於MapReduce、Spark以及其他調用Kafka API匯入資料的方式,只需引用Hadoop FileSystem,然後使用JindoFS的路徑寫入即可。
- 通過Kafka Connector匯入
使用Kafka HDFS Connector也可以把Kafka資料匯入到Hadoop生態,將sink的輸出路徑替換成JindoFS的路徑即可。