Serverless Spark ワークスペースの作成 - E-MapReduce (EMR)

ワークスペースは、EMR Serverless Spark の基本単位です。ジョブ、メンバー、ロール、権限を管理するための境界を提供します。ジョブを実行するには、事前にワークスペースを作成する必要があります。

前提条件

アカウントと権限

Alibaba Cloud アカウント (root ユーザー) を登録済みで、実名認証を完了しています。
ワークスペースを作成する際に使用するアカウントに、必要な権限が付与されている必要があります。
- Alibaba Cloud アカウント：必要なロールをアカウントに付与してください。詳細については、「Alibaba Cloud アカウントへのロールの割り当て」をご参照ください。
- RAM ユーザーまたは RAM ロール：RAM ユーザーまたは RAM ロールに、AliyunEMRServerlessSparkFullAccess、AliyunOSSFullAccess、および AliyunDLFFullAccess ポリシーをアタッチします。その後、EMR Serverless Spark の アクセス制御 ページでその RAM ユーザーまたは RAM ロールを追加し、管理者ロールを付与します。詳細については、「RAM ユーザーへの権限付与」および「ユーザーとロールの管理」をご参照ください。

必要なサービス

Data Lake Formation (DLF)：ワークスペースを作成する前に、DLF を有効化してください。DLF は、Spark ジョブのメタデータを保存・管理します。詳細については、「クイックスタート」をご参照ください。サポートされているリージョンについては、「リージョンとエンドポイント」をご参照ください。
Object Storage Service (OSS)：OSS を有効化し、バケットを作成してください。このバケットは、タスクログ、実行中のイベント、リソースなどの保存先となるワークスペースディレクトリとして使用されます。詳細については、「OSS の有効化」および「バケットの作成」をご参照ください。

ワークスペースの作成

EMR コンソールにログインします。
左側のナビゲーションウィンドウで、EMR Serverless > Spark を選択します。
上部のナビゲーションバーで、ワークスペースを作成するリージョンを選択します。
重要
ワークスペース作成後にリージョンを変更することはできません。
[ワークスペースの作成] をクリックします。

ワークスペースのパラメーターを設定します。

パラメーター	説明	例
リージョン	データが保存されているリージョンを選択することを推奨します。	中国 (杭州)
課金方法	サブスクリプションおよび従量課金の課金方法がサポートされています。	従量課金
ワークスペース名	1～64 文字の名前を入力します。名前には、中国語文字、英数字、ハイフン (-)、アンダースコア (_) のみを使用できます。ワークスペース名は、同一の Alibaba Cloud アカウント内で一意である必要があります。既存のワークスペース名を入力した場合、別の名前を入力するようシステムからプロンプトが表示されます。	emr-serverless-spark
最大クォータ	ワークスペース内でジョブを処理するために同時に使用できる計算ユニット (CU) の最大数です。	1000
ワークスペースディレクトリ	タスクログ、実行中のイベント、リソースなどのデータファイルを保存するパスです。ネイティブな Hadoop 分散ファイルシステム (HDFS) インターフェイスとの互換性を確保するには、OSS-HDFS が有効化されたバケットを選択してください。HDFS が不要なシナリオでは、標準の OSS バケットでも問題ありません。	emr-oss-hdfs
メタデータストレージ用 DLF	メタデータを保存・管理するためのデータカタログです。DLF を有効化すると、UID に基づいたデフォルトのデータカタログが自動的に選択されます。別のデータカタログを使用する場合は、(1) [カタログの作成] をクリックし、カタログ ID を入力して、[OK] をクリックします。(2) ドロップダウンリストから該当のカタログを選択します。	emr-dlf
実行ロール	EMR Serverless Spark がジョブを実行する際に使用する RAM ロールです。デフォルトのロールは AliyunEMRSparkJobRunDefaultRole です。このロールにより、OSS や DLF など他のクラウドプロダクトのリソースへのアクセスが許可されます。より詳細な権限制御を行う場合は、カスタムの実行ロールを使用してください。詳細については、「実行ロール」をご参照ください。	AliyunEMRSparkJobRunDefaultRole
(オプション) 高度な設定 > タグ	タグはクラウドリソースの識別および分類に使用されます。各ワークスペースには最大 20 個のタグを設定できます。各タグはキーと値で構成されます。また、タグはコスト配分や従量課金リソースの詳細な管理にも活用できます。タグはワークスペース作成時に付与することも、後からワークスペース一覧ページで追加・変更することも可能です。詳細については、「タグとは」をご参照ください。	カスタムタグのキーと値を入力します

説明

コードの実行環境は、環境の所有者によって管理・設定されます。

[ワークスペースの作成] をクリックします。

次のステップ

ワークスペースの準備が完了したら、ジョブの開発を開始してください。SparkSQL ジョブの開発については、「SparkSQL 開発のクイックスタート」をご参照ください。