ログを収集し、モニタリングデータを集約している場合、Apache Kafka を使用してオフラインデータとストリーミングデータを処理し、リアルタイムで分析できます。 ここでは、Kafkaから JindoFS (JindoFileSystem) にデータをインポートする方法について説明します。
インポート方法
- Flume の使用
Apache Flume は、データを HDFS (Hadoop Distributed File System) に移動するために用いられるシステムです。 Flume を使用して、Kafka から JindoFS にデータをインポートすることを推奨します。 この機能を実装するには、jfs.type パラメーターを hdfs に設定し、jfs.hdfs.path パラメーターを JindoFS のディレクトリに設定します。
a1.sinks = emr-jfs ... a1.sinks.emr-jfs.type = hdfs a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d a1.sinks.emr-jfs.hdfs.rollInterval = 10 a1.sinks.emr-jfs.hdfs.rollSize = 0 a1.sinks.emr-jfs.hdfs.rollCount = 0 a1.sinks.emr-jfs.hdfs.fileType = DataStream
- Kafka API の呼び出し
MapReduce や Spark などの一部のエンジンでは、Kafka API を呼び出して、データを Kafka から HDFS にエクスポートすることができます。 この場合、HDFS を参照し、エクスポート先として JindoFS のディレクトリを設定することだけが必要となります。
- Kafka HDFS コネクターの使用
Kafka HDFS コネクターを使用して、シンクエクスポートパスを JindoFS のディレクトリに設定することにより、Kafka から HDFS にデータをエクスポートすることもできます。