JindoFS でのデータ処理に Spark を使用する - E-MapReduce - Alibaba Cloud ドキュメントセンター

Spark は、次のいずれかの方法を使用して JindoFileSystem（JindoFS）のデータを処理します。メソッドを呼び出す、Spark SQL を使用して JindoFS に格納されているテーブルからデータを読み取る。

JindoFS の構成

たとえば、emr-jfs という名前のネームスペースは、次の構成で作成されます。

メソッドの呼び出し
JindoFS で Spark によって実行される読み取りおよび書き込み操作は、他のファイルシステムでの操作と似ています。たとえば、JindoFS のデータにアクセスするには、次の Resilient Distributed Dataset（RDD）操作で jfs プレフィックスが付いたディレクトリを使用します。
```
val a = sc.textFile("jfs://emr-jfs/README.md")
```
JindoFS にデータを書き込むには、次のメソッドを呼び出します。
```
scala> a.collect().saveAsTextFile("jfs://emr-jfs/output")
```
Spark SQL の使用
データベース、テーブル、またはパーティションを作成するときに、ストレージの場所を JindoFS のディレクトリに設定するパラメーターを構成します。詳細については、「Hive を使用して JindoFS のデータをクエリする」をご参照ください。その後、JindoFS に格納されているテーブルからデータをクエリできます。