ワークスペースは、EMR Serverless Spark の基本単位です。ジョブ、メンバー、ロール、権限を管理するための境界を提供します。ジョブを実行するには、事前にワークスペースを作成する必要があります。
前提条件
アカウントと権限
Alibaba Cloud アカウント (root ユーザー) を登録済みで、実名認証を完了しています。
ワークスペースを作成する際に使用するアカウントに、必要な権限が付与されている必要があります。
Alibaba Cloud アカウント:必要なロールをアカウントに付与してください。詳細については、「Alibaba Cloud アカウントへのロールの割り当て」をご参照ください。
RAM ユーザーまたは RAM ロール:RAM ユーザーまたは RAM ロールに、AliyunEMRServerlessSparkFullAccess、AliyunOSSFullAccess、および AliyunDLFFullAccess ポリシーをアタッチします。その後、EMR Serverless Spark の アクセス制御 ページでその RAM ユーザーまたは RAM ロールを追加し、管理者ロールを付与します。詳細については、「RAM ユーザーへの権限付与」および「ユーザーとロールの管理」をご参照ください。
必要なサービス
Data Lake Formation (DLF):ワークスペースを作成する前に、DLF を有効化してください。DLF は、Spark ジョブのメタデータを保存・管理します。詳細については、「クイックスタート」をご参照ください。サポートされているリージョンについては、「リージョンとエンドポイント」をご参照ください。
Object Storage Service (OSS):OSS を有効化し、バケットを作成してください。このバケットは、タスクログ、実行中のイベント、リソースなどの保存先となるワークスペースディレクトリとして使用されます。詳細については、「OSS の有効化」および「バケットの作成」をご参照ください。
ワークスペースの作成
EMR コンソールにログインします。
左側のナビゲーションウィンドウで、EMR Serverless > Spark を選択します。
上部のナビゲーションバーで、ワークスペースを作成するリージョンを選択します。
重要ワークスペース作成後にリージョンを変更することはできません。
[ワークスペースの作成] をクリックします。
ワークスペースのパラメーターを設定します。
パラメーター 説明 例 リージョン データが保存されているリージョンを選択することを推奨します。 中国 (杭州) 課金方法 サブスクリプション および 従量課金 の課金方法がサポートされています。 従量課金 ワークスペース名 1~64 文字の名前を入力します。名前には、中国語文字、英数字、ハイフン (-)、アンダースコア (_) のみを使用できます。ワークスペース名は、同一の Alibaba Cloud アカウント内で一意である必要があります。既存のワークスペース名を入力した場合、別の名前を入力するようシステムからプロンプトが表示されます。 emr-serverless-spark 最大クォータ ワークスペース内でジョブを処理するために同時に使用できる計算ユニット (CU) の最大数です。 1000 ワークスペースディレクトリ タスクログ、実行中のイベント、リソースなどのデータファイルを保存するパスです。ネイティブな Hadoop 分散ファイルシステム (HDFS) インターフェイスとの互換性を確保するには、OSS-HDFS が有効化されたバケットを選択してください。HDFS が不要なシナリオでは、標準の OSS バケットでも問題ありません。 emr-oss-hdfs メタデータストレージ用 DLF メタデータを保存・管理するためのデータカタログです。DLF を有効化すると、UID に基づいたデフォルトのデータカタログが自動的に選択されます。別のデータカタログを使用する場合は、(1) [カタログの作成] をクリックし、カタログ ID を入力して、[OK] をクリックします。(2) ドロップダウンリストから該当のカタログを選択します。 emr-dlf 実行ロール EMR Serverless Spark がジョブを実行する際に使用する RAM ロールです。デフォルトのロールは AliyunEMRSparkJobRunDefaultRole です。このロールにより、OSS や DLF など他のクラウドプロダクトのリソースへのアクセスが許可されます。より詳細な権限制御を行う場合は、カスタムの実行ロールを使用してください。詳細については、「実行ロール」をご参照ください。 AliyunEMRSparkJobRunDefaultRole (オプション) 高度な設定 > タグ タグはクラウドリソースの識別および分類に使用されます。各ワークスペースには最大 20 個のタグを設定できます。各タグはキーと値で構成されます。また、タグはコスト配分や従量課金リソースの詳細な管理にも活用できます。タグはワークスペース作成時に付与することも、後からワークスペース一覧ページで追加・変更することも可能です。詳細については、「タグとは」をご参照ください。 カスタムタグのキーと値を入力します 説明コードの実行環境は、環境の所有者によって管理・設定されます。
[ワークスペースの作成] をクリックします。
次のステップ
ワークスペースの準備が完了したら、ジョブの開発を開始してください。SparkSQL ジョブの開発については、「SparkSQL 開発のクイックスタート」をご参照ください。