すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:JindoFS でのデータ処理に Spark を使用する

最終更新日:Jan 11, 2025

Spark は、次のいずれかの方法を使用して JindoFileSystem(JindoFS)のデータを処理します。メソッドを呼び出す、Spark SQL を使用して JindoFS に格納されているテーブルからデータを読み取る。

JindoFS の構成

たとえば、emr-jfs という名前のネームスペースは、次の構成で作成されます。

  • jfs.namespaces=emr-jfs
  • jfs.namespaces.emr-jfs.oss.uri=oss://oss-bucket/oss-dir
  • jfs.namespaces.emr-jfs.mode=block

JindoFS でのデータ処理

  • メソッドの呼び出し

    JindoFS で Spark によって実行される読み取りおよび書き込み操作は、他のファイルシステムでの操作と似ています。たとえば、JindoFS のデータにアクセスするには、次の Resilient Distributed Dataset(RDD)操作で jfs プレフィックスが付いたディレクトリを使用します。

    val a = sc.textFile("jfs://emr-jfs/README.md")
    rdd_data

    JindoFS にデータを書き込むには、次のメソッドを呼び出します。

    scala> a.collect().saveAsTextFile("jfs://emr-jfs/output")
  • Spark SQL の使用

    データベース、テーブル、またはパーティションを作成するときに、ストレージの場所を JindoFS のディレクトリに設定するパラメーターを構成します。詳細については、「Hive を使用して JindoFS のデータをクエリする」をご参照ください。その後、JindoFS に格納されているテーブルからデータをクエリできます。