DataWorksサービスのワークスペースレベルでグローバルYARNキューを設定できます。グローバルYARNキューは、デフォルトでE-MapReduce(EMR)タスクを実行するために使用されます。また、指定されたDataWorksサービスで単一のタスクを実行するように設定したYARNキューよりも、グローバルYARNキューの優先順位を高くするかどうかを指定することもできます。このトピックでは、グローバルYARNキューを設定する方法について説明します。
背景情報
YARNは分散リソース管理システムです。Hadoopシステムのコアコンポーネントであり、Hadoopクラスタ内のリソースを管理し、クラスタ内のジョブをスケジュールおよび監視するために使用されます。 EMR YARNの詳細については、YARNスケジューラ。 を参照してください。
DataWorksでは、次のいずれかの方法を使用して、ノードのスケジュールに使用されるYARNキューを設定できます。
方法 1:グローバルYARNキューを設定する
ワークスペースレベルで、EMRタスクを実行するためにDataWorksサービスが使用するグローバルYARNキューを設定し、グローバルYARNキューの優先順位を、同じDataWorksサービスで単一のタスクを実行するように設定したYARNキューよりも高くするかどうかを指定できます。 詳細については、このトピックのグローバルYARNキューの設定セクションを参照してください。
方法 2:DataWorksサービスで単一のタスクを実行するようにYARNキューを設定する
DataStudioでは、次の手順を実行して、EMR HiveノードまたはEMR SparkノードのYARNキューを設定できます。EMR HiveノードまたはEMR Sparkノードの設定タブに移動します。 右側のナビゲーションペインで、[詳細設定] をクリックします。 [詳細設定]タブで、queueパラメータを設定して、EMR HiveノードまたはEMR Sparkノードでタスクを実行するために使用するYARNキューを指定します。
Data Qualityでは、EMRテーブルのパーティションの監視ルールを設定するときに、[キュー] パラメータを設定してYARNキューを指定できます。 詳細については、「単一テーブルの監視ルールを設定する」を参照してください。
他のDataWorksサービスで単一のタスクを実行するために使用する YARNキューを指定することはできません。
制限
YARNキューを設定するには、次のアカウントとロールのみを使用できます。
Alibaba Cloudアカウント
RAMユーザーまたはAliyunDataWorksFullAccess ポリシーがアタッチされているRAMロール
RAMユーザーで、[ワークスペース管理者] ロールが割り当てられているユーザー
EMRクラスタの最大アプリケーション優先度を変更する必要があります。
DataWorksでEMRタスクを実行するために使用されるYARNキューの優先度を変更する場合は、EMRクラスタの
yarn.cluster.max-application-priority
設定項目をyarn-site.xml
ファイルに追加し、デフォルト値0
をより大きい値に置き換える必要があります。 設定項目を追加しない場合、またはデフォルト値を置き換えない場合、DataWorksの優先度設定はEMRタスクに反映されません。説明変更が完了したら、変更を有効にするためにYARNサービスを再起動する必要があります。
グローバルYARNキューは、DataStudio、Data Quality、DataAnalysis、およびOperation Centerに対してのみ設定できます。
前提条件
EMRクラスタがDataWorksに登録されていること。 詳細については、「EMRクラスタをDataWorksに登録する」を参照してください。
グローバルYARNキューの設定
グローバルYARNキューを設定するページに移動します。
SettingCenterページに移動します。
DataWorksコンソール にログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションペインで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターに移動] をクリックします。
SettingCenterページの左側のナビゲーションペインで、[クラスタ管理] をクリックします。 [クラスタ管理] ページが表示されます。
目的の EMRクラスタを見つけ、[YARNリソースキュー] タブをクリックします。
グローバルYARNキューを設定します。
YARN リソースキューの編集[YARNリソースキュー] タブの右上隅にある をクリックして、DataWorksサービスのグローバルYARNキューとキューの優先順位を設定します。
説明設定はワークスペース全体に適用されます。 パラメータを設定する前に、ワークスペースを確認する必要があります。
パラメータ
説明
リソースキュー
DataWorksサービスでEMRタスクを実行するために使用するグローバルYARNキュー。EMRコンソールの EMR on ECSページ に移動して、既存のYARNキューを取得できます。
グローバル設定を優先
DataWorksサービスに設定したグローバルYARNキューの優先順位を、同じDataWorksサービスで単一のタスクを実行するように設定したYARNキューよりも高くするかどうかを指定します。 [はい]を選択すると、現在のワークスペースのDataWorksサービスのタスクを実行するためにグローバルYARNキューが使用されます。
グローバル設定: SettingCenter ページに移動します。 左側のナビゲーションペインで、クラスタ管理クラスター管理をクリックします。 [クラスタ管理]ページで、目的のEMRクラスタを見つけ、YARNリソースキューYARN リソースキュー タブをクリックします。
説明グローバルYARNキューは、DataStudio、Data Quality、DataAnalysis、およびOperation Centerに対してのみ設定できます。
DataWorksサービスの単一タスクの個別設定:
DataStudioでは、次の手順を実行して、EMR HiveノードまたはEMR SparkノードのYARNキューを設定できます。EMR HiveノードまたはEMR Sparkノードの設定タブに移動します。 右側のナビゲーションペインで、[詳細設定] をクリックします。 [詳細設定]タブで、queueパラメータを設定して、EMR HiveノードまたはEMR Sparkノードでタスクを実行するために使用するYARNキューを指定します。
Data Qualityでは、EMRテーブルのパーティションの監視ルールを設定するときに、[キュー] パラメータを設定してYARNキューを指定できます。 詳細については、「単一テーブルの監視ルールを設定する」を参照してください。
他のDataWorksサービスで単一のタスクを実行するために使用する YARNキューを指定することはできません。