ログを収集し、モニタリングデータを集約している場合、Apache Kafka を使用してオフラインデータとストリーミングデータを処理し、リアルタイムで分析できます。 ここでは、Kafkaから JindoFS (JindoFileSystem) にデータをインポートする方法について説明します。

インポート方法

  • Flume の使用

    Apache Flume は、データを HDFS (Hadoop Distributed File System) に移動するために用いられるシステムです。 Flume を使用して、Kafka から JindoFS にデータをインポートすることを推奨します。 この機能を実装するには、jfs.type パラメーターを hdfs に設定し、jfs.hdfs.path パラメーターを JindoFS のディレクトリに設定します。

    a1.sinks = emr-jfs
    
    ...
    
    a1.sinks.emr-jfs.type = hdfs
    a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d
    a1.sinks.emr-jfs.hdfs.rollInterval = 10
    a1.sinks.emr-jfs.hdfs.rollSize = 0
    a1.sinks.emr-jfs.hdfs.rollCount = 0
    a1.sinks.emr-jfs.hdfs.fileType = DataStream
  • Kafka API の呼び出し

    MapReduce や Spark などの一部のエンジンでは、Kafka API を呼び出して、データを Kafka から HDFS にエクスポートすることができます。 この場合、HDFS を参照し、エクスポート先として JindoFS のディレクトリを設定することだけが必要となります。

  • Kafka HDFS コネクターの使用

    Kafka HDFS コネクターを使用して、シンクエクスポートパスを JindoFS のディレクトリに設定することにより、Kafka から HDFS にデータをエクスポートすることもできます。