Spark は、メソッドを呼び出したり、Spark SQL を使用して JindoFileSystem (JindoFS) に保存されているテーブルからデータを読み取ることにより、JindoFS のデータを処理します。

JindoFS の設定

たとえば、emr-jfs という名前の名前空間は、次の設定で作成されています。

  • jfs.namespaces = emr-jfs
  • jfs.namespaces.emr-jfs.uri = oss://oss-bucket/oss-dir
  • jfs.namespaces.emr-jfs.mode = block

JindoFS でのデータ処理

  • メソッド呼び出し

    Spark による JindoFS での読み書き操作は、他のファイルシステムでの操作と同様です。 たとえば、JindoFS のデータにアクセスするには、耐障害型分散データセット (RDD) 操作で jfs プレフィックスの付いたディレクトリを使用します。

    val a = sc.textFile("jfs://emr-jfs/README.md")
    file_data

    JindoFS にデータを書き込むには、次のメソッドを呼び出します。

    scala> a.collect().saveAsTextFile("jfs://emr-jfs/output")
  • Spark SQL の使用

    データベース、テーブル、パーティションを作成するときに、JindoFS のディレクトリに保存場所を指定するパラメーターを設定します。 詳細については、「Hive を使用して JindoFS のデータを照会する」をご参照ください。 設定すると、JindoFS に保存されているテーブルからデータを照会できます。