すべてのプロダクト
Search
ドキュメントセンター

DataWorks:グローバル Spark パラメーターを構成する

最終更新日:Aug 25, 2025

DataWorks サービスのワークスペースレベルでグローバル Spark パラメーターを構成できます。グローバル Spark パラメーターは、デフォルトでタスクを実行するために使用されます。Apache Spark - 大規模データ分析のための統合エンジン を参照して、カスタムグローバル Spark パラメーターを構成し、ワークスペースレベルで構成されたグローバル Spark パラメーターが、DataStudio、DataAnalysis、オペレーションセンターなど、特定の DataWorks サービスで単一のタスクを実行するために構成された Spark パラメーターよりも優先順位が高いかどうかを指定できます。このトピックでは、グローバル Spark パラメーターを構成する方法について説明します。

背景情報

Apache Spark は、大量のデータを処理する分析エンジンです。DataWorks では、次のいずれかの方法を使用して、ノードのスケジュールに使用される Spark パラメーターを構成できます。

  • 方法 1:グローバル Spark パラメーターを構成する

    ワークスペースレベルで、DataWorks サービスが EMR タスクを実行するために使用するグローバル Spark パラメーターを構成し、グローバル Spark パラメーターが同じ DataWorks サービスで単一のタスクを実行するために構成する Spark パラメーターよりも高い優先順位を持っているかどうかを指定できます。詳細については、このトピックのグローバル Spark パラメーターを構成するセクションをご参照ください。

  • 方法 2:DataWorks サービスで単一のタスクを実行するために Spark パラメーターを構成する

    • Data Studio では、ノード編集ページの右側の [スケジューリング] セクションで、個々の Hive および Spark ノードタスクの Spark プロパティパラメーターを構成できます。

    • 他の DataWorks サービスで単一のタスクを実行するために使用する Spark プロパティを構成することはできません。

制限

  • グローバル Spark パラメーターを構成するには、次のアカウントとロールのみを使用できます。

    • Alibaba Cloud アカウント

    • RAM ユーザーまたは AliyunDataWorksFullAccess ポリシーがアタッチされている RAM ロール

    • RAM ユーザーで、[ワークスペース管理者] ロールが割り当てられているユーザー

  • Spark パラメーターは、EMR SparkEMR Spark SQL、および EMR Spark Streaming ノードに対してのみ有効です。

    説明

    DataWorks で Spark の Ranger 権限制御を有効にする場合は、グローバル Spark パラメーターを構成する際に、spark.hadoop.fs.oss.authorization.method=ranger を追加して、Ranger 権限制御が有効になるようにしてください。

  • DataWorks コンソールの [設定センター] ページまたは EMR コンソール で、Spark 関連の構成を更新できます。 同じ Spark プロパティの構成が DataWorks コンソールと EMR コンソールで異なる場合、DataWorks コンソールの [設定センター] ページの Spark プロパティの構成が、DataWorks でコミットしたタスクに使用されます。

  • グローバル Spark パラメーターは、Data Studio、Data Quality、DataAnalysis、およびオペレーションセンターに対してのみ構成できます。

前提条件

EMR クラスタが DataWorks に登録されていること。詳細については、「Data Studio:EMR 計算リソースをバインドする」をご参照ください。

グローバル Spark パラメーターを構成する

  1. グローバル Spark パラメーターを構成するためのページに移動します。

    1. 設定センターページに移動します。

      DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターに移動] をクリックします。

    2. 設定センターページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。

    3. オープンソースクラスタページで、目的の EMR クラスタを見つけ、[Spark 関連パラメーター] タブをクリックします。

      image.png

  2. グローバル Spark パラメーターを構成します。

    [Spark 関連パラメーター] タブの右上隅にある [Spark 関連パラメーターの編集] をクリックして、DataWorks サービスのグローバル Spark パラメーターとパラメーターの優先度を設定します。

    説明

    構成はワークスペース全体でグローバルに有効になります。 パラメーターを構成する前に、ワークスペースを確認する必要があります。

    パラメーター

    説明

    Spark プロパティ名と Spark プロパティ値

    DataWorks サービスで EMR タスクを実行するために構成する Spark プロパティ。Spark の構成 および Kubernetes での Spark の実行 を参照して、Spark プロパティを構成できます。

    グローバル設定を優先

    グローバル構成が DataWorks サービスの単一タスクの個別構成よりも優先されるかどうかを指定します。 このチェックボックスをオンにすると、ノードのタスクが実行されるときに、グローバルに構成された Spark プロパティが使用されます。

    • グローバル構成: [設定センター] ページに移動します。 左側のナビゲーションウィンドウで、[計算リソース] をクリックします。 オープンソースクラスタページで、目的の EMR クラスタを見つけ、[Spark 関連パラメーター] タブをクリックします。

      説明

      グローバル Spark パラメーターは、Data Studio、Data Quality、DataAnalysis、およびオペレーションセンターに対してのみ構成できます。

    • DataWorks サービスの単一タスクの個別構成:

      • Data Studio では、ノード編集ページの右側の [スケジューリング] セクションで、個々の Hive および Spark ノードタスクの Spark プロパティパラメーターを構成できます。

      • 他の DataWorks サービスで単一のタスクを実行するために使用する Spark プロパティを構成することはできません。