Spark は、メソッドを呼び出したり、Spark SQL を使用して JindoFileSystem (JindoFS) に保存されているテーブルからデータを読み取ることにより、JindoFS のデータを処理します。
JindoFS の設定
たとえば、emr-jfs という名前の名前空間は、次の設定で作成されています。
- jfs.namespaces = emr-jfs
- jfs.namespaces.emr-jfs.uri = oss://oss-bucket/oss-dir
- jfs.namespaces.emr-jfs.mode = block
JindoFS でのデータ処理
- メソッド呼び出し
Spark による JindoFS での読み書き操作は、他のファイルシステムでの操作と同様です。 たとえば、JindoFS のデータにアクセスするには、耐障害型分散データセット (RDD) 操作で jfs プレフィックスの付いたディレクトリを使用します。
val a = sc.textFile("jfs://emr-jfs/README.md")
JindoFS にデータを書き込むには、次のメソッドを呼び出します。
scala> a.collect().saveAsTextFile("jfs://emr-jfs/output")
- Spark SQL の使用
データベース、テーブル、パーティションを作成するときに、JindoFS のディレクトリに保存場所を指定するパラメーターを設定します。 詳細については、「Hive を使用して JindoFS のデータを照会する」をご参照ください。 設定すると、JindoFS に保存されているテーブルからデータを照会できます。