すべてのプロダクト
Search
ドキュメントセンター

Object Storage Service:EMRクラスターでSparkを使用してOSS-HDFSに格納されたデータを処理する

最終更新日:Feb 26, 2024

このトピックでは、E-MapReduce (EMR) クラスターでSparkを使用して、OSS-HDFSに格納されているデータを処理する方法について説明します。

前提条件

  • EMR V3.42.0以降、またはEMR V5.8.0以降のクラスターが作成されています。 詳細については、「クラスターの作成」をご参照ください。

  • バケットのOSS-HDFSが有効になり、OSS-HDFSに対するアクセス許可が付与されます。 OSS-HDFSを有効にする方法の詳細については、「OSS-HDFSの有効化とアクセス許可の付与」をご参照ください。

手順

  1. EMRクラスターにログインします。

    1. EMRコンソールにログインします。 左側のナビゲーションウィンドウで、[ECS上のEMR] をクリックします。

    2. 作成したEMRクラスターをクリックします。

    3. [ノード] タブをクリックし、ノードグループの左側にある [+] をクリックします。

    4. ECSインスタンスのIDをクリックします。 [インスタンス] ページで、インスタンスIDの横にある [接続] をクリックします。

    SSHキーペアまたはSSHパスワードを使用してWindowsまたはLinuxでクラスターにログインする方法の詳細については、「クラスターにログインする」をご参照ください。

  2. ターミナルで次のコマンドを実行して、Spark Shellを起動します。

    スパークシェル
  3. Sparkを使用してOSS-HDFSにアクセスします。

    1. テーブルを作成します。

      spark.sql("CREATE TABLE test_oss ('c1' 文字列) OPTIONS (PATH 'oss:// examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
    2. テーブルにデータを挿入します。

      spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
    3. テーブルのデータを照会します。

      spark.sql("SELECT c1 FROM test_oss")