Kafka广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。

常见Kafka数据导入方式

  • 通过Flume导入

    推荐使用Flume方式导入到JindoFS,利用Flume对HDFS的支持,替换路径到JindoFS即可完成。

    a1.sinks = emr-jfs
    
    ...
    
    a1.sinks.emr-jfs.type = hdfs
    a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d
    a1.sinks.emr-jfs.hdfs.rollInterval = 10
    a1.sinks.emr-jfs.hdfs.rollSize = 0
    a1.sinks.emr-jfs.hdfs.rollCount = 0
    a1.sinks.emr-jfs.hdfs.fileType = DataStream
  • 通过调用Kafka API导入

    对于MapReduce、Spark以及其他调用Kafka API导入数据的方式,只需引用Hadoop FileSystem,然后使用JindoFS的路径写入即可。

  • 通过Kafka Connector导入

    使用Kafka HDFS Connector也可以把Kafka数据导入到Hadoop生态,将sink的输出路径替换成JindoFS的路径即可。