すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataWorks での EMR タスク開発の注意事項

最終更新日:Jun 30, 2025

DataWorks では、E-MapReduce (EMR) コンピュートエンジンに基づいて、Hive、MR、Presto、Spark SQL などのノードを作成できます。 DataWorks コンソールで、EMR ノードを構成し、ノードでのタスクの定期的なスケジューリングを有効にし、ノードのメタデータを管理して、データが効率的かつ安定した方法で生成および管理されるようにすることができます。 このトピックでは、DataWorks での EMR タスク開発の注意事項について説明します。 使用上の注意は、基本的な開発プロセス、料金の説明、環境の準備、および権限管理を網羅しています。

背景情報

EMR は、Alibaba Cloud が提供するビッグデータ処理ソリューションです。

EMR は、オープンソースの Apache Hadoop および Apache Spark に基づいて開発されています。 EMR を使用すると、Hadoop および Spark エコシステムの周辺システムを使用して、データを簡単に分析および処理できます。 Alibaba Cloud は、さまざまなユーザーのビジネス要件を満たすために、ECS 上の EMR、ACK 上の EMR、および EMR Serverless StarRocks を提供しています。 詳細については、「製品概要」ディレクトリのトピックをご参照ください。

サポートされている EMR クラスタタイプ

DataWorks コンソールでクラスタを使用してタスクを実行する前に、EMR クラスタを DataWorks に登録する必要があります。 DataWorks コンソールで EMR 関連の操作を実行する前に、必要な EMR クラスタを作成する必要があります。 次のタイプの EMR クラスタを DataWorks に登録できます。EMR クラスタから DataWorks へ:

説明

クラスタを DataWorks に登録できない場合は、チケットを送信して、テクニカルサポートにご連絡ください。

制限事項

  • タスクタイプ: DataWorks コンソールでは EMR Flink タスクを実行できません。

  • タスクの実行: サーバーレスリソースグループ (推奨) またはスケジューリング用の旧バージョンの専用リソースグループを使用して、EMR タスクを実行できます

  • タスクガバナンス:

    • EMR Hive、EMR Spark、および EMR Spark SQL ノードの SQL タスクのみを使用して、データ系列を生成できます。 EMR クラスタのバージョンが V3.43.1、V5.9.1、または V3.43.1 または V5.9.1 より後のマイナーバージョンである場合、クラスタに基づいて作成された先行ノードのテーブルレベル系列とフィールドレベル系列を表示できます。

      説明

      Spark ベースの EMR ノードの場合、EMR クラスタのバージョンが V5.8.0、V3.42.0、または V5.8.0 または V3.42.0 より後のマイナーバージョンである場合、Spark ベースの EMR ノードを使用して、テーブルレベル系列とフィールドレベル系列を表示できます。 EMR クラスタのバージョンが V5.8.0 または V3.42.0 より前のマイナーバージョンである場合、Spark 2.x を使用する Spark ベースの EMR ノードのみを使用して、テーブルレベル系列を表示できます。

    • DataWorks で DataLake クラスタまたはカスタムクラスタのメタデータを管理する場合は、最初にクラスタで EMR-HOOK を構成する必要があります。 目的のクラスタで EMR-HOOK を構成しないと、メタデータはリアルタイムで表示できず、監査ログは生成できず、データ系列は DataWorks に表示できません。 また、EMR ガバナンスタスクを実行できません。 EMR-HOOK は、EMR Hive および EMR Spark SQL サービス用に構成できます。 詳細については、「Hive 拡張機能を使用してデータ系列と履歴アクセス情報を記録する」および「Spark SQL 拡張機能を使用してデータ系列と履歴アクセス情報を記録する」をご参照ください。

  • サポートされているリージョン: EMR Serverless Spark は、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深圳)、シンガポール、ドイツ (フランクフルト)、および米国 (シリコンバレー) リージョンで使用できます。

  • Kerberos 認証が有効になっている EMR クラスタの場合、リソースグループが関連付けられている vSwitch の CIDR ブロックに対して、EMR クラスタのセキュリティグループに UDP ポートのインバウンドルールを追加する必要があります。

    説明

    インバウンドルールを追加するには、次の操作を実行します。EMR コンソールにログオンします。 EMR クラスタの [基本情報]image タブに移動します。 [基本情報] タブの [セキュリティ] セクションで、 パラメータの右側にある アイコンをクリックします。 [セキュリティグループ] ページの [セキュリティグループの詳細] タブで、 セクションの [インバウンド]アクセスルール タブをクリックします。 [インバウンド] タブで、[ルールの追加] をクリックします。 [プロトコルタイプ] パラメータを [カスタム UDP] に設定し、[ポート範囲] パラメータを EMR クラスタの /etc/krb5.conf ファイルで指定された構成に設定し、[承認オブジェクト] パラメータをリソースグループが関連付けられている vSwitch の CIDR ブロックに設定します。

前提条件

  • DataWorks がアクティブ化され、ワークスペースが作成されていること。 詳細については、「DataWorks をアクティブ化する」および「ワークスペースを管理する」をご参照ください。

  • EMR クラスタが作成されていること。 詳細については、「クラスタを作成する」をご参照ください。

    説明

    DataWorks でさまざまな EMR サービスを使用して EMR タスクを実行できます。 EMR サービスの最適な構成はさまざまです。 EMR クラスタを作成する場合は、この Topic の[付録: EMR クラスタ構成の推奨事項] セクションを参照して、ビジネス要件に基づいて EMR サービスを選択できます。

  • DataWorks サーバーレス リソースグループが購入されます。

    デフォルトでは、DataWorks リソースグループは、購入後、他のクラウドサービスのネットワークに接続されていません。EMR クラスタを使用するには、EMR クラスタを特定のリソースグループに接続する必要があります。

    説明
    • DataWorks は、汎用的に使用されるサーバーレス リソースグループをリリースしており、このタイプのリソースグループを購入することをお勧めします。サーバーレス リソースグループは、データ同期やタスクスケジューリングなど、さまざまなタスクタイプが使用されるシナリオに適しています。サーバーレス リソースグループの購入方法については、「サーバーレス リソースグループを作成して使用する」をご参照ください。新規ユーザーは、サーバーレス リソースグループのみを購入できます。

    • 旧バージョンの専用リソースグループを購入済みの場合は、そのリソースグループを使用して EMR タスクを実行することもできます。選択できる旧バージョンの専用リソースグループは、実行するタスクのタイプによって異なります。たとえば、データ同期タスクを実行するには、データ統合専用の リソースグループを使用する必要があります。データスケジューリングタスクを実行するには、スケジューリング専用の リソースグループを使用する必要があります。詳細については、「旧バージョンのリソースグループを使用する」ディレクトリのトピックをご参照ください。

使用方法に関する注意事項

次の表に、DataWorks での EMR タスク開発に関する使用上の注意点を示します。

番号

説明

課金

DataWorks で EMR タスクを開発する場合、DataWorks リソースだけでなく、他の Alibaba Cloud サービスのリソースについても課金されます。

環境の準備

DataWorks で EMR タスクを開発する前に、ビジネス要件に基づいて特定のエディションの DataWorks とリソースグループを購入し、EMR クラスタを登録し、開発環境を準備する必要があります。

権限管理

DataWorks は、プロダクトレベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。ビジネス要件に基づいて異なるユーザーに異なる権限を付与し、きめ細かい権限管理を実装できます。

データ統合

DataWorks Data Integration を使用すると、EMR Hive からデータを読み書きできます。DataWorks は、バッチ同期、フル同期と増分同期など、さまざまなデータ同期シナリオを提供します。

データモデリングと開発

DataWorks は、大量の無秩序で複雑なデータを構造化および管理するために使用されるデータモデリングサービスを提供します。また、DataWorks は、スケジュール実行されるタスクを開発するための DataStudio サービスも提供します。タスクが開発された後、オペレーションセンターに移動して、タスクの監視と O&M 操作を実行できます。

データガバナンス

DataWorks を使用すると、EMR メタデータを管理し、EMR データを管理できます。

データ分析とサービス

DataWorks DataAnalysis は、EMR データ分析およびサービス共有機能を提供します。

オープンプラットフォーム

DataWorks は、アプリケーションシステムを DataWorks と迅速に統合できるオープン性機能を提供します。DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーションシステムのビジネスステータスの変更に迅速に対応できます。

課金

1. DataWorks リソースの料金

このセクションでは、DataWorks の請求に含まれる料金について説明します。DataWorks の課金項目については、「課金概要」をご参照ください。

料金

説明

ご利用の DataWorks エディションの料金

DataWorks でタスクを開発するには、DataWorks をアクティブ化する必要があります。DataWorks Standard Edition、DataWorks Professional Edition、または DataWorks Enterprise Edition をアクティブ化した場合、エディション購入時にエディションの料金が請求されます。

タスクのスケジュールに使用するスケジューリングリソースの料金

タスクが開発された後、タスクをスケジュールするにはスケジューリングリソースが必要です。サーバーレス リソースグループ、または旧バージョンの専用スケジューリングリソースグループを購入して、リソースグループの料金を支払うことができます。サーバーレス リソースグループの購入をお勧めします。

説明

購入したサーバーレス リソースグループは、タスクのスケジュールとデータ同期に使用できます。

データの同期に使用するリソースの料金

データ同期タスクは、スケジューリングリソースと同期リソースを消費します。サーバーレス リソースグループ、または旧バージョンのデータ統合専用リソースグループを購入して、リソースグループの料金を支払うことができます。サーバーレス リソースグループの購入をお勧めします。

2. 他の Alibaba Cloud サービスのリソースの料金

このセクションでは、DataWorks の請求に含まれない料金について説明します。

重要

他の Alibaba Cloud サービスのリソースについては、Alibaba Cloud サービスの課金ロジックに基づいて課金されます。詳細については、Alibaba Cloud サービスの課金ドキュメントをご参照ください。EMR コンピュートエンジンの課金詳細については、「課金」ディレクトリのトピックをご参照ください。

料金

説明

データベース料金

データベースからデータを読み書きするためにデータ同期タスクを実行すると、データベース料金が発生する場合があります。

コンピューティングおよびストレージ料金

特定タイプのコンピューティングエンジンのタスクを実行すると、このタイプのコンピューティングエンジンのコンピューティングおよびストレージ料金が発生する場合があります。

ネットワークサービス料金

DataWorks と他の関連サービス間にネットワーク接続を確立すると、ネットワークサービス料金が発生する場合があります。たとえば、Express Connect、EIP(Elastic IP Address)、インターネット共有帯域幅などのサービスを使用して DataWorks と他の関連サービス間にネットワーク接続を確立すると、ネットワークサービス料金が請求される場合があります。

環境の準備

1. リソースの準備

項目

説明

参照資料

DataWorks エディションの選択

DataWorks Basic Edition を使用すると、EMR データの開発中に次の基本操作を実行できます。データをクラウドに移行する、データを開発する、EMR タスクをスケジュールする、データを管理する。より高度なデータガバナンスとデータセキュリティ ソリューションを使用する場合は、DataWorks Standard Edition、DataWorks Professional Edition、DataWorks Enterprise Edition などの高度なエディションの DataWorks を購入できます。。

DataWorks エディション間の違い

リソースグループの選択

EMR タスクを実行するには、サーバーレス リソースグループまたは旧バージョンの排他的リソースグループのみを使用できます。サーバーレス リソースグループを使用することをお勧めします。

2. 開発環境の準備

DataStudio で EMR タスクを開発する前に、EMR クラスタを DataWorks ワークスペースに登録する必要があります。ユーザーをワークスペースにメンバーとして追加する必要があります。これにより、共同データ開発が容易になります。

項目

説明

参照資料

データ同期環境の準備

EMR サービスに基づくデータ同期タスクを実行する前に、EMR サービスを DataWorks にデータソースとして追加する必要があります。

サポートされているデータソースの種類と同期操作

データ開発の 環境を準備するおよび分析

DataWorks で EMR タスクを定期的にスケジュールできるようにするには、EMR クラスタをデータソースとして DataWorks に追加する必要があります。 その後、データソースを使用して、データ開発、データ分析、定期的なタスク スケジューリングなどの操作を実行できます。

EMR クラスタを DataWorks に登録する

共同開発環境の準備

RAM ユーザーがワークスペースで互いに協力してデータを開発できるようにするには、次の操作を実行する必要があります。

  • RAM ユーザーを現在のワークスペースにメンバーとして追加し、ワークスペースの RAM ユーザーに開発ロールを割り当てます。

  • ワークスペース メンバーを目的の EMR クラスタに追加します。

権限管理

DataWorks は、プロダクトレベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。ビジネス要件に基づいて、異なるユーザーに異なる権限を付与できます。権限管理の詳細は次のとおりです。

1. データアクセス権限の管理

EMR タスクを開発するためにメンバーとして DataWorks ワークスペースに追加された RAM ユーザーと EMR クラスタアカウント間のマッピングを設定して、RAM ユーザーがマッピングされた EMR クラスタアカウントの権限を持つようにすることができます。詳細については、「テナントメンバーアカウントと EMR クラスタアカウント間のマッピングを設定する」をご参照ください。テナントメンバーアカウントと EMR クラスタアカウント間のマッピングを設定する

DataWorks では、Data Lake Formation(DLF)の権限を視覚的に管理できます。たとえば、権限の申請、権限申請の処理、権限の監査を行うことができます。これにより、フルマネージド データレイクの権限を一元的に管理できます。ワークスペースに追加された EMR データソースのメタデータ ストレージ サービスとして DLF が指定されている場合、DataWorks セキュリティセンターで権限を申請および管理できます。詳細については、「DLF の権限を管理する」をご参照ください。

2. サービスと機能の権限の管理

RAM ユーザーとして DataWorks でデータを開発する前に、RAM ユーザーにワークスペースレベルのロールを割り当てて、特定の権限を付与する必要があります。詳細については、「RAM ユーザーの権限を管理するためのベストプラクティス」をご参照ください。

  • グローバルレベルのサービスの権限を管理する を参照して、ユーザーがデータマップにアクセスできないようにするなど、DataWorks サービスモジュールの権限を管理したり、ユーザーがワークスペースを削除できるようにするなど、DataWorks コンソールでの操作の実行権限を管理したりできます。グローバルレベル サービスの権限を管理するDataWorks サービスモジュール(ユーザーのデータマップへのアクセス禁止など)の権限を管理したり、DataWorks コンソール(ユーザーによるワークスペースの削除の許可など)での操作の実行権限を管理したりできます。

  • ワークスペースレベルのサービスの権限を管理するには、ワークスペースレベルのサービスに対する権限の管理を参照してください。たとえば、ユーザーが DataStudio にアクセスして開発操作を実行できるようにしたり、ユーザーがデータセキュリティガードにアクセスできないようにするなど、DataWorks ワークスペースレベルのサービスモジュールに対する権限を管理できます。また、DataWorks グローバルレベルのサービスモジュールに対する権限も管理できます。

はじめに

DataWorks は複数のサービスを提供します。DataStudio で実行するようにスケジュールされたタスクを開発できます。タスクが開発された後、本番環境のオペレーションセンターに移動して、タスクの監視と O&M 操作を実行できます。DataWorks はまた、データ開発操作を標準化し、データ開発のセキュリティを確保するために、タスク開発とデプロイのプロセスコントロールを提供します。

1. データ統合

DataWorks Data Integration を使用すると、EMR Hive からデータを読み書きできます。別のタイプのデータソースから Hive データソースにデータを同期したり、Hive データソースから別のタイプのデータソースにデータを同期したりするには、事前に Hive サービスを DataWorks にデータソースとして追加する必要があります。さらに、DataWorks は、バッチ同期、フル同期、増分同期など、さまざまなデータ同期シナリオを提供します。ビジネス要件に基づいてシナリオを選択できます。詳細については、「Data Integration」をご参照ください。

2. データモデリングと開発

モジュール

説明

参照

データモデリング

データモデリングは、エンドツーエンドのデータガバナンスの最初のステップです。データモデリングは、Alibaba データ中台のモデリング方法論を使用し、データウェアハウス計画、データ標準、ディメンションモデリング、およびデータメトリックモジュールを使用して、ビジネスの観点から企業のビジネスデータを解釈し、企業内の担当者がデータウェアハウスの仕様に準拠したビジネスデータの測定と解釈のアイデアを迅速に理解して共有できるようにします。

詳細については、「データモデリングの概要」をご参照ください。

DataStudio

DataWorks は、EMR コンピュートエンジンの機能をカプセル化します。このようにして、EMR コンピュートエンジンを使用して、EMR データの同期と開発タスクを実行できます。

  • データ同期: DataStudio は、特定のバッチ同期シナリオとリアルタイム同期シナリオのみをサポートしています。データ同期シナリオの詳細については、「Data Integration の概要」をご参照ください。

  • データ開発: 複雑なコマンドラインを使用する必要なく、DataWorks でさまざまなタイプのタスクを開発し、システムが定期的にスケジュールできるようにすることができます。

DataWorks で特定タイプのコンピュートエンジンの汎用ノードとノードを使用して、複雑なロジックを処理できます。

DataWorks は、次のタイプの汎用ノードをサポートしています。

  • ワークフローの管理に使用されるゼロロードノード

  • 外部スケジューリングシステムを使用して DataWorks 内のノードのスケジューリングをトリガーするシナリオ、OSS オブジェクト検査ノード、および FTP チェックノードで使用される HTTP トリガーノード

  • ノードの入力パラメーターと出力パラメーターを渡すために使用される代入ノード、およびパラメーターノード

  • ループでノードコードを実行するために使用される Do-while ノード、代入ノードの出力をループで走査して出力を判断するために使用される For-each ノード、および分岐ノード

  • 一般的な Shell ノードや MySQL データベースノードなどのその他のノード

ノードのタスクが開発された後、ビジネス要件に基づいて次の操作を実行できます。

  • ノードのスケジューリングプロパティを構成する

    DataWorks がノードのタスクを定期的に実行するようにするには、スケジューリングの依存関係やスケジューリングパラメーターなど、ノードのスケジューリングプロパティを構成する必要があります。

  • ノードをデバッグする

    本番環境のノードのタスクが効率的に実行され、計算リソースの無駄を防ぐために、タスクをデプロイする前にタスクをデバッグして実行することをお勧めします。

  • ノードをデプロイする

    ノードのタスクは、本番環境にデプロイされた後にのみ、実行するようにスケジュールできます。したがって、タスクが開発された後、タスクを本番環境にデプロイする必要があります。タスクがデプロイされた後、[オペレーションセンター][自動トリガーノード] ページでタスクを表示および管理できます。

  • ノードを管理する

    タスクのデプロイとデプロイ解除、複数のタスクのスケジューリングプロパティの同時変更など、ノードのタスクでさまざまな操作を実行できます。

  • プロセス管理を実行する

    DataWorks は、タスクで実行される操作の正確性とセキュリティを確保するために、タスク開発とデプロイのプロセスコントロールを提供します。たとえば、DataWorks は、コードレビュー、強制スモークテスト、およびコードレビューロジックのカスタマイズ機能を提供します。

オペレーションセンター

オペレーションセンターは、エンドツーエンドのビッグデータ O&M および監視プラットフォームです。オペレーションセンターでは、タスクのステータスを表示し、例外が発生したタスクで O&M 操作を実行できます。たとえば、オペレーションセンターでインテリジェント診断を実行したり、タスクを再実行したりできます。オペレーションセンターは、重要なタスクの制御不能な出力時間や膨大なタスクの監視の難しさなどの問題を解決するために使用できるインテリジェントベースライン機能を提供します。この機能は、タスク出力の適時性を確保するのに役立ちます。

詳細については、「自動トリガーノードで基本的な O&M 操作を実行する」をご参照ください。

Data Quality

Data Quality は、エンドツーエンドのデータ R&D プロセスでデータの可用性を確保し、ビジネスに信頼できるデータを効率的に提供します。Data Quality は、効果的な監視ルールベースの品質チェックと、監視ルールとタスクスケジューリングプロセスの組み合わせにより、データ品質の問題をできるだけ早く特定し、データ品質の問題のエスカレーションを防ぐのに役立ちます。

詳細については、「Data Quality の概要」をご参照ください。

3. データガバナンス

EMR クラスタを DataWorks に登録すると、DataWorks は EMR コンピュートエンジンからメタデータを自動的に収集します。データマップの概要 を参照して、メタデータを表示できます。また、データガバナンスセンターの概要 を参照して、DataWorks によって検出された問題を表示し、関連するデータガバナンス操作を実行できます。データマップの概要 でメタデータを表示します。また、Data Governance Center の概要を参照し、DataWorks によって検出された問題を表示し、関連するデータガバナンス操作を実行できます。

モジュール

説明

参照

データマップ

データマップは、基盤となる統合メタデータサービスに基づいて、データオブジェクトの管理、ソート、クイック検索、および詳細な理解機能を提供するエンタープライズグレードのデータ管理プラットフォームです。

詳細については、「データマップの概要」をご参照ください。

セキュリティセンター

データセキュリティガード

承認センター

セキュリティセンターは、データ資産の分類、機密データの識別、データ関連の承認の管理、機密データのマスキング、機密データへのアクセスの監査、リスクの識別と対応を網羅するエンドツーエンドのデータセキュリティガバナンスプラットフォームです。セキュリティセンターは、データセキュリティガバナンスの問題を特定するのに役立ちます。

データガバナンスセンター

データガバナンスセンターは、データ関連分野での経験に基づくルールに基づいて、複数のガバナンスフィールドに対して管理されるべき項目を自動的に識別し、イベント発生前の問題防止とイベント発生後の問題解決を網羅するガバナンスおよび最適化ソリューションを提供します。 データガバナンスセンターは、データガバナンスを積極的にかつ体系的に完了するのに役立ちます。

データガバナンスセンターの概要

4. データ分析とサービス

DataAnalysis と DataService Studio は、企業向けのデータ処理および分析機能を提供し、企業が統一的に管理されている API を使用してデータにアクセスし、共有できるように設計されています。

モジュール

説明

参照資料

DataAnalysis

DataWorks の DataAnalysis モジュールは、SQL ベースの分析をオンラインで実行し、ビジネス要件を把握し、データを編集および共有するのに役立ちます。また、クエリ結果をチャートカードとして保存し、チャートカードに基づいて視覚化されたデータレポートを迅速に生成して、日次レポートを作成できます。

詳細については、「DataAnalysis の概要」をご参照ください。

DataService Studio

DataService Studio は、企業向けの包括的なデータサービスおよび共有機能を提供するように設計されており、企業が内部システムと外部システムの API サービスを一元的に管理するのに役立ちます。

詳細については、「DataService Studio の概要」をご参照ください。

5. オープン プラットフォーム

DataWorks は、アプリケーションシステムを DataWorks と迅速に統合できるオープン機能を提供します。DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーションシステムのビジネス ステータスの変更に迅速に対応できます。

項目

説明

参照資料

OpenAPI

OpenAPI モジュールを使用すると、DataWorks API 操作を呼び出すことができるため、アプリケーションを DataWorks と統合できます。 これにより、ビッグデータ処理の促進、手動操作と O&M 操作の削減、データリスクの最小化、企業のコスト削減に役立ちます。

OpenAPI

OpenEvent

OpenEvent モジュールを使用すると、アプリケーションに関連する DataWorks 変更イベントをサブスクライブできるため、変更をできるだけ早く検出して対応できます。

OpenEvent の概要

拡張機能

OpenEvent モジュールを使用して、DataWorks ワークスペースで生成されたイベントメッセージをサブスクライブできます。 Extensions モジュールを使用して、ローカルプログラムを拡張機能として登録し、拡張ポイントイベントとプロセスを管理できます。

拡張機能の概要

付録: EMR クラスタ構成の推奨事項

DataWorks で EMR タスクを実行するために、さまざまな EMR サービスを使用できます。 EMR サービスの最適な構成はさまざまです。 EMR クラスタを作成する際は、ビジネス要件に基づいて EMR サービスを選択できます。

  • Kyuubi

    本番環境で Kyuubi を構成する場合は、kyuubi_java_opts パラメータを 10g 以上の値に設定し、kyuubi_beeline_opts パラメータを 2g 以上の値に設定することをお勧めします。

  • Spark

    • Spark のデフォルトのメモリサイズは小さくなっています。spark-submit CLI でメモリサイズを構成するために使用するコマンドを追加して、デフォルトのメモリサイズを変更できます。

    • 使用する EMR クラスタの規模に基づいて、Spark 用に構成されている次のパラメータを変更できます: spark.driver.memoryspark.driver.memoryOverheadspark.executor.memory

    重要

    DataWorks の EMR Hive ノード、EMR Spark ノード、および EMR Spark SQL ノードのみを使用して系統を生成できます。 EMR Hive ノードは、テーブルレベルおよびカラムレベルの系統を生成するために使用できます。 Spark ベースの EMR ノードは、テーブルレベルの系統のみを生成するために使用できます。

    Spark の構成方法の詳細については、「Spark メモリ管理」をご参照ください。

  • HDFS

    使用する EMR クラスタの規模に基づいて、HDFS 用に構成されている次のパラメータを変更できます: hadoop_namenode_heapsizehadoop_datanode_heapsizehadoop_secondary_namenode_heapsizehadoop_namenode_opts