Kafka資料匯入JindoFS的多種方式-開源巨量資料平台 E-MapReduce-阿里雲

Kafka廣泛用於日誌收集、監控資料彙總等情境，支援離線或流式資料處理、即時資料分析等。本文主要介紹Kafka資料匯入到JindoFS的幾種方式。

常見Kafka資料匯入方式

通過Flume匯入

推薦使用Flume方式匯入到JindoFS，利用Flume對HDFS的支援，替換路徑到JindoFS即可完成。

a1.sinks = emr-jfs

...

a1.sinks.emr-jfs.type = hdfs
a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d
a1.sinks.emr-jfs.hdfs.rollInterval = 10
a1.sinks.emr-jfs.hdfs.rollSize = 0
a1.sinks.emr-jfs.hdfs.rollCount = 0
a1.sinks.emr-jfs.hdfs.fileType = DataStream

通過調用Kafka API匯入
對於MapReduce、Spark以及其他調用Kafka API匯入資料的方式，只需引用Hadoop FileSystem，然後使用JindoFS的路徑寫入即可。
通過Kafka Connector匯入
使用Kafka HDFS Connector也可以把Kafka資料匯入到Hadoop生態，將sink的輸出路徑替換成JindoFS的路徑即可。