本ページでは、Flink を使用してJindoFileSystem (JindoFS) でデータを処理する方法について説明します。

JindoFS の使用方法

Flink ジョブの入出力ディレクトリを、JindoFS でサポートされている名前空間のディレクトリに設定できます。 そうすることで、Flink ジョブは JindoFS のデータを読み書きできます。

たとえば、ジョブデータを Hadoop 分散ファイルシステム (Hadoop Distributed File System: HDFS) に保存するには、次のコマンドを実行します。

flink run -m yarn-cluster -yD taskmanager.network.memory.fraction=0.4 -yD akka.ask.timeout=60s -yjm 2048 -ytm 2048 -ys 4 -yn 14 -c xxx.xxx.FlinkWordCount -p 56 XXX.jar --input hdfs:///test//large-input-flink --output hdfs:///runjob/test/large-output-flink"

ジョブデータを JindoFS に保存するには、次のコマンドを実行します。

flink run -m yarn-cluster -yD taskmanager.network.memory.fraction=0.4 -yD akka.ask.timeout=60s -yjm 2048 -ytm 2048 -ys 4 -yn 14 -c xxx.xxx.FlinkWordCount -p 56 XXX.jar --input jfs://emr-jfs/test/large-input-flink --output jfs://emr-jfs/test/large-output-flink"