このトピックでは、Sparkジョブを構成する方法について説明します。
前提条件
プロジェクトが作成されていること。詳細については、「プロジェクトの管理」をご参照ください。手順
- [データプラットフォーム]タブに移動します。
- Alibaba Cloudアカウントを使用して、Alibaba Cloud EMRコンソールにログオンします。
- 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
- [データプラットフォーム]タブをクリックします。
- [プロジェクト]セクションで、プロジェクトを見つけて、[アクション]列の[ジョブの編集]をクリックします。
- Sparkジョブを作成します。
- 左側の[ジョブの編集]ペインで、操作を実行するフォルダーを右クリックし、[ジョブの作成]を選択します。
- [ジョブの作成]ダイアログボックスで、[名前]と[説明]を指定し、Spark[ジョブの種類]ドロップダウンリストからを選択します。このオプションは、Sparkジョブが作成されることを示します。Sparkジョブを送信するには、次のコマンド構文を使用できます。
spark-submit [options] --class [MainClass] xxx.jar args - [OK]をクリックします。
- ジョブの内容を編集します。
- [コンテンツ]フィールドに、ジョブの送信に必要なコマンドラインパラメーターを指定します。spark-submitに続くパラメーターのみが必要です。次の例は、SparkジョブとPySparkジョブを送信するために必要なパラメーターを指定する方法を示しています。
- Sparkジョブを作成します。Wordcountという名前のSparkジョブを作成します。パラメーター構成の例:
- コマンドラインに次のコマンドを入力します。
spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32 - [コンテンツ]フィールドに次のコマンドを入力します。
--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32重要 ジョブがJARパッケージとしてOSSに保存されている場合は、ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jarパスを使用してJARパッケージを参照できます。ページの下部にある[+ OSSパスを入力]をクリックします。[OSSファイル]ダイアログボックスで、[ファイルプレフィックス]を[OSSREF]に設定し、[ファイルパス]を指定します。システムは、OSSのSparkスクリプトのパスを自動的に入力します。
- コマンドラインに次のコマンドを入力します。
- PySparkジョブを作成します。ScalaおよびJava Sparkジョブに加えて、EMRでPython Sparkジョブを作成できます。Python-Kmeansという名前のPySparkジョブを作成します。パラメーター構成の例:
--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32重要- Pythonスクリプトのリソースは、ossrefプロトコルを使用して参照できます。
- Pythonツールキットは、PySparkジョブを使用してインストールすることはできません。
- Sparkジョブを作成します。
- [保存]をクリックします。
- [コンテンツ]フィールドに、ジョブの送信に必要なコマンドラインパラメーターを指定します。