すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:PySpark 開発のクイックスタート

最終更新日:Nov 09, 2025

ビジネスロジックを含む Python スクリプトを作成し、それを EMR Serverless Spark にアップロードすることで、PySpark ジョブを開発できます。このトピックでは、開発プロセスをガイドするための例を示します。

前提条件

手順

ステップ 1: テストファイルの準備

EMR Serverless Spark では、オンプレミスまたはスタンドアロンの開発プラットフォームで Python ファイルを開発し、そのファイルを EMR Serverless Spark に送信して実行できます。このクイックスタートでは、PySpark ジョブにすぐに慣れることができるように、テストファイルを提供しています。次のステップで使用するために、テストファイルをダウンロードしてください。

DataFrame.pyemployee.csv をクリックして、テストファイルをダウンロードします。

説明
  • DataFrame.py ファイルには、Apache Spark フレームワークを使用して OSS のデータを処理するコードが含まれています。

  • employee.csv ファイルには、従業員の名前、部署、給与などのデータリストが含まれています。

ステップ 2: テストファイルのアップロード

  1. Python ファイルを EMR Serverless Spark にアップロードします。

    1. リソースのアップロードページに移動します。

      1. EMR コンソールにログインします。

      2. 左側のナビゲーションウィンドウで、[EMR Serverless] > [Spark] を選択します。

      3. [Spark] ページで、対象のワークスペースの名前をクリックします。

      4. EMR Serverless Spark ページで、左側のナビゲーションウィンドウにある [ファイル] をクリックします。

    2. [ファイル] ページで、[ファイルのアップロード] をクリックします。

    3. [ファイルのアップロード] ダイアログボックスで、アップロードエリアをクリックして Python ファイルを選択するか、ファイルをエリアにドラッグします。

      この例では、DataFrame.py ファイルをアップロードします。

  2. データファイル (employee.csv) を Object Storage Service (OSS) コンソールにアップロードします。詳細については、「ファイルのアップロード」をご参照ください。

ステップ 3: ジョブの開発と実行

  1. EMR Serverless Spark ページの左側のナビゲーションウィンドウで、[データ開発] をクリックします。

  2. [開発] タブで、image アイコンをクリックします。

  3. 表示されるダイアログボックスで、名前を入力し、[タイプ] に [バッチジョブ] > [PySpark] を選択し、[OK] をクリックします。

  4. 右上隅で、キューを選択します。

    キューの追加方法の詳細については、「リソースキューの管理」をご参照ください。

  5. 新しいジョブタブで、次のパラメーターを設定します。他のパラメーターはデフォルト設定のままにします。次に、[実行] をクリックします。

    パラメーター

    説明

    メイン Python リソース

    前のステップで [ファイル] ページにアップロードした Python ファイルを選択します。この例では、DataFrame.py を選択します。

    実行パラメーター

    OSS にアップロードされたデータファイル (employee.csv) のパスを入力します。例: oss://<yourBucketName>/employee.csv。

  6. ジョブの実行後、下の [実行記録] セクションで、ジョブの [アクション] 列にある [ログプローブ] をクリックします。

  7. [ログプローブ] タブで、ログ情報を表示できます。

    image

ステップ 4: ジョブの公開

重要

公開されたジョブは、ワークフローのノードとして使用できます。

  1. ジョブの実行後、右側の [公開] をクリックします。

  2. [ジョブの公開] ダイアログボックスで、リリース情報を入力し、[OK] をクリックします。

ステップ 5: Spark UI の表示

ジョブが正常に実行された後、Spark UI でそのステータスを表示できます。

  1. 左側のナビゲーションウィンドウで、[ジョブ履歴] をクリックします。

  2. [アプリケーション] ページで、対象のジョブの [アクション] 列にある [Spark UI] をクリックします。

  3. Spark ジョブページで、ジョブの詳細を表示できます。

    image

参考