ワークスペースは Serverless Spark の基本単位であり、ジョブ、メンバー、ロール、権限の管理に使用されます。すべてのジョブ開発はワークスペースで実行する必要があります。したがって、ジョブ開発を開始する前にワークスペースを作成する必要があります。このトピックでは、EMR Serverless Spark ページでワークスペースをすばやく作成する方法について説明します。
前提条件
Alibaba Cloud アカウントを登録し、実名認証を完了していること。
ワークスペースの作成に使用するアカウントに必要な権限が付与されていること。
Alibaba Cloud アカウントを使用してワークスペースを作成する場合、詳細については、「Alibaba Cloud アカウントへのロールの割り当て」をご参照ください。
Resource Access Management (RAM) ユーザーまたは RAM ロールを使用してワークスペースを作成する場合は、AliyunEMRServerlessSparkFullAccess、AliyunOSSFullAccess、および AliyunDLFFullAccess アクセスポリシーが RAM ユーザーまたは RAM ロールにアタッチされていることを確認してください。次に、EMR Serverless Spark の [リソースアクセスマネジメント] ページで RAM ユーザーまたは RAM ロールを追加し、管理者ロールを付与します。詳細については、「RAM ユーザーへの権限付与」および「ユーザーとロールの管理」をご参照ください。
Data Lake Formation (DLF) が有効化されていること。詳細については、「クイックスタート」をご参照ください。サポートされているリージョンの一覧については、「リージョンとエンドポイント」をご参照ください。
Object Storage Service (OSS) が有効化され、バケットが作成されていること。詳細については、「OSS の有効化」および「バケットの作成」をご参照ください。
注意事項
コードのランタイム環境は、環境のオーナーによって管理および設定されます。
手順
EMR Serverless Spark ページに移動します。
EMR コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
上部のナビゲーションバーで、目的のリージョンを選択します。
重要ワークスペースの作成後にリージョンを変更することはできません。
[ワークスペースの作成] をクリックします。
EMR Serverless Spark ページで、パラメーターを設定します。
パラメーター
説明
例
リージョン
データが保存されているリージョンを選択することをお勧めします。
中国 (杭州)
課金方法
[サブスクリプション] と [従量課金] の課金方法がサポートされています。
従量課金
ワークスペース名
名前は 1~64 文字で、中国語の文字、英字、数字、ハイフン (-)、アンダースコア (_) のみを含めることができます。
説明同じ Alibaba Cloud アカウント内のワークスペース名は一意である必要があります。既存のワークスペースの名前を入力すると、別の名前を入力するように求めるプロンプトがシステムに表示されます。
emr-serverless-spark
最大瞬間クォータ
ワークスペース内のジョブの処理に同時に使用できる計算ユニット (CU) の最大数。
1000
ワークスペースのベースパス
タスクログ、実行イベント、リソースなどのデータファイルを保存するために使用されるパス。
OSS-HDFS が有効になっているバケットを選択することをお勧めします。これにより、ネイティブの Hadoop 分散ファイルシステム (HDFS) インターフェイスとの互換性が提供されます。アプリケーションシナリオに HDFS が含まれていない場合は、標準の OSS バケットを選択できます。
emr-oss-hdfs
メタデータサービスとしての DLF
メタデータを保存および管理するために使用されます。
DLF を有効にすると、システムによってデフォルトのデータカタログが選択されます。デフォルトのデータカタログには、UID の名前が付けられます。クラスターごとに異なるデータカタログを使用する場合は、データカタログを作成できます。
[データカタログの作成] をクリックします。表示されるダイアログボックスで、[カタログ ID] を入力し、[OK] をクリックします。
ドロップダウンリストから、作成したデータカタログを選択します。
emr-dlf
実行ロール
EMR Serverless Spark がジョブの実行に使用するロールの名前。デフォルトのロールは AliyunEMRSparkJobRunDefaultRole です。
EMR Spark はこのロールを使用して、OSS や DLF などの他のクラウドプロダクトのリソースにアクセスします。実行ロールの権限を制御したい場合は、カスタム実行ロールを使用できます。詳細については、「実行ロール」をご参照ください。
AliyunEMRSparkJobRunDefaultRole
(オプション) 詳細設定
タグ: タグはクラウドリソースを識別するために使用されます。タグを使用して、同じ特性を持つクラウドリソースをさまざまなディメンションから分類、検索、集計できます。これにより、リソース管理の効率が向上します。各ワークスペースには最大 20 個のタグをアタッチできます。各タグは、多様な管理ニーズを満たすために、カスタムのタグキーとタグ値で構成されます。タグを使用して、コスト配分や従量課金リソースの詳細な管理を行うこともできます。
ワークスペースの作成時にタグをアタッチしたり、ワークスペースの作成後にいつでもワークスペースリストページでタグを追加または変更したりできます。リソースにタグをアタッチすることで、リソースの分類と運用の最適化を簡単に実装できます。
タグの詳細については、「タグとは」をご参照ください。
カスタムのタグキーとタグ値を入力します
[ワークスペースの作成] をクリックします。
参考
ワークスペースを作成したら、SparkSQL ジョブなどのジョブ開発を開始できます。詳細については、「SparkSQL 開発のクイックスタート」をご参照ください。