EMR Serverless Spark は、ノートブックを使用したインタラクティブな開発をサポートしています。このトピックでは、ノートブックを作成して実行する方法について説明します。
前提条件
Alibaba Cloud アカウントを持っていること。詳細については、「Alibaba Cloud アカウントの登録」をご参照ください。
必要なロールが付与されていること。詳細については、「Alibaba Cloud アカウントにロールを付与する」をご参照ください。
ワークスペースとノートブックセッションインスタンスが作成されていること。詳細については、「ワークスペースの作成」および「ノートブックセッションの管理」をご参照ください。
手順
ステップ 1: テストファイルの準備
このトピックでは、ノートブックジョブに慣れるためのテストファイルを提供します。テストファイルをダウンロードして、次のステップで使用できます。
employee.csv をクリックしてテストファイルをダウンロードします。
employee.csv ファイルには、従業員の名前、部署、給与のデータが含まれています。
ステップ 2: テストファイルのアップロード
データファイル (employee.csv) を Object Storage Service (OSS) コンソールにアップロードします。詳細については、「ファイルのアップロード」をご参照ください。
ステップ 3: ノートブックの開発と実行
EMR Serverless Spark ページで、左側のナビゲーションウィンドウの [データ開発] をクリックします。
ノートブックを作成します。
[開発] タブで、
アイコンをクリックします。表示されるダイアログボックスで、名前を入力し、タイプとして を選択し、[OK] をクリックします。
右上隅で、実行中のノートブックセッションインスタンスを選択します。
ドロップダウンリストから [ノートブックセッションの作成] を選択して、新しいノートブックセッションインスタンスを作成することもできます。ノートブックセッションの詳細については、「ノートブックセッションの管理」をご参照ください。
説明複数のノートブックで単一のノートブックセッションインスタンスを共有できます。これにより、ノートブックごとに新しいセッションインスタンスを作成することなく、複数のノートブックから同時に同じセッションリソースにアクセスして使用できます。
データを処理して可視化します。
PySpark ジョブの実行
新しいノートブックの Python セルに次のコードをコピーします。
# 単純な DataFrame を作成します。OSS パスをステップ 2 でアップロードしたファイルのパスに置き換えます。 df = spark.read.option("delimiter", ",").option("header", True).csv("oss://path/to/file") # DataFrame の最初の数行を表示します。 df.show(5) # 単純な集約操作を実行して、各部署の給与合計を計算します。 sum_salary_per_department = df.groupBy("department").agg({"salary": "sum"}).show()[すべてのセルを実行] をクリックしてノートブックを実行します。
セルの前にある
アイコンをクリックして、特定のセルを実行することもできます。
(オプション) Spark UI を表示します。
セッションのドロップダウンリストで、現在のノートブックセッションの
アイコンにカーソルを合わせ、[Spark UI] をクリックします。Spark Jobs ページにリダイレクトされ、Spark ジョブ情報を表示できます。
サードパーティライブラリを使用したビジュアル分析の実行
説明ノートブックセッションには、matplotlib、numpy、pandas ライブラリがプリインストール済みです。他のサードパーティライブラリの使用方法の詳細については、「ノートブックでサードパーティの Python ライブラリを使用する」をご参照ください。
matplotlib ライブラリを使用してデータを可視化します。
import matplotlib.pyplot as plt l = sc.parallelize(range(20)).collect() plt.plot(l) plt.ylabel('some numbers') plt.show()[すべてのセルを実行] をクリックしてノートブックを実行します。
セルの前にある
アイコンをクリックして、特定のセルを実行することもできます。
ステップ 4: ノートブックの公開
ノートブックの実行が完了したら、右上隅の [公開] をクリックします。
公開ダイアログボックスで、パラメーターを設定し、[OK] をクリックしてノートブックを新しいバージョンとして保存します。