すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ノートブック開発の開始

最終更新日:Nov 09, 2025

EMR Serverless Spark は、ノートブックを使用したインタラクティブな開発をサポートしています。このトピックでは、ノートブックを作成して実行する方法について説明します。

前提条件

手順

ステップ 1: テストファイルの準備

このトピックでは、ノートブックジョブに慣れるためのテストファイルを提供します。テストファイルをダウンロードして、次のステップで使用できます。

employee.csv をクリックしてテストファイルをダウンロードします。

説明

employee.csv ファイルには、従業員の名前、部署、給与のデータが含まれています。

ステップ 2: テストファイルのアップロード

データファイル (employee.csv) を Object Storage Service (OSS) コンソールにアップロードします。詳細については、「ファイルのアップロード」をご参照ください。

ステップ 3: ノートブックの開発と実行

  1. EMR Serverless Spark ページで、左側のナビゲーションウィンドウの [データ開発] をクリックします。

  2. ノートブックを作成します。

    1. [開発] タブで、image アイコンをクリックします。

    2. 表示されるダイアログボックスで、名前を入力し、タイプとして [インタラクティブ開発] > [ノートブック] を選択し、[OK] をクリックします。

  3. 右上隅で、実行中のノートブックセッションインスタンスを選択します。

    ドロップダウンリストから [ノートブックセッションの作成] を選択して、新しいノートブックセッションインスタンスを作成することもできます。ノートブックセッションの詳細については、「ノートブックセッションの管理」をご参照ください。

    説明

    複数のノートブックで単一のノートブックセッションインスタンスを共有できます。これにより、ノートブックごとに新しいセッションインスタンスを作成することなく、複数のノートブックから同時に同じセッションリソースにアクセスして使用できます。

  4. データを処理して可視化します。

    PySpark ジョブの実行

    1. 新しいノートブックの Python セルに次のコードをコピーします。

      # 単純な DataFrame を作成します。OSS パスをステップ 2 でアップロードしたファイルのパスに置き換えます。
      df = spark.read.option("delimiter", ",").option("header", True).csv("oss://path/to/file")
      # DataFrame の最初の数行を表示します。
      df.show(5)
      # 単純な集約操作を実行して、各部署の給与合計を計算します。
      sum_salary_per_department = df.groupBy("department").agg({"salary": "sum"}).show()
    2. [すべてのセルを実行] をクリックしてノートブックを実行します。

      セルの前にある image アイコンをクリックして、特定のセルを実行することもできます。

      image

    3. (オプション) Spark UI を表示します。

      セッションのドロップダウンリストで、現在のノートブックセッションの image アイコンにカーソルを合わせ、[Spark UI] をクリックします。Spark Jobs ページにリダイレクトされ、Spark ジョブ情報を表示できます。

      image

    サードパーティライブラリを使用したビジュアル分析の実行

    説明

    ノートブックセッションには、matplotlib、numpy、pandas ライブラリがプリインストール済みです。他のサードパーティライブラリの使用方法の詳細については、「ノートブックでサードパーティの Python ライブラリを使用する」をご参照ください。

    1. matplotlib ライブラリを使用してデータを可視化します。

      import matplotlib.pyplot as plt
      
      l = sc.parallelize(range(20)).collect()
      plt.plot(l)
      plt.ylabel('some numbers')
      plt.show()
    2. [すべてのセルを実行] をクリックしてノートブックを実行します。

      セルの前にある image アイコンをクリックして、特定のセルを実行することもできます。

      image

ステップ 4: ノートブックの公開

  1. ノートブックの実行が完了したら、右上隅の [公開] をクリックします。

  2. 公開ダイアログボックスで、パラメーターを設定し、[OK] をクリックしてノートブックを新しいバージョンとして保存します。