すべてのプロダクト
Search
ドキュメントセンター

DataWorks:エンジン O&M 機能を使用する

最終更新日:Jan 11, 2025

E-MapReduce(EMR)コンピュートエンジンで実行される DataWorks タスクインスタンスには、複数の EMR ジョブが含まれています。 EMR ジョブは順番に実行されます。 DataWorks が提供するエンジン O&M 機能を使用して、各 EMR ジョブの詳細を表示し、実行に失敗したジョブを見つけて削除できます。 これにより、失敗したジョブが、ジョブが属する DataWorks タスクインスタンスと、その子孫インスタンスの実行に影響を与えるのを防ぎます。

制限事項

  • DataWorks では、EMR ジョブに対してのみ O&M を実行できます。 O&M データを取得するには、チケットを送信して、EMR 実行パッケージをアップグレードする必要があります。

  • [エンジンメンテナンス] は、EMR クラスターを DataWorks ワークスペースに登録した後でのみ、[オペレーションセンター] ページの左側のナビゲーションペインに表示されます。

  • スケジューリング用に専用のリソースグループを購入した場合は、チケットを送信して、リソースグループの構成をアップグレードする必要があります。 構成をアップグレードしないと、特定のフィールドの値は [エンジン O&M] ページにハイフン(-)として表示されます。

注意事項

特定の EMR サービスのタスクは、タスクの実行時に YARN アプリケーションを再利用できます。 YARN アプリケーションが再利用されると、タスクが異なる DataWorks サービスで実行されるときに、[ジョブ ID](アプリケーション ID)がエンジン O&M ページに表示されます。

説明

たとえば、EMR Kyuubi エンジンの共有レベルを指定する kyuubi.engine.share.level パラメーターは、デフォルトで USER に設定されています。これは、各ユーザーがエンジンを使用することを示しています。同じユーザーがエンジンで開始したすべてのジョブは、同じアプリケーション ID を共有します。 DataWorks DataStudio で EMR Kyuubi タスクを実行すると、タスクのアプリケーション ID が生成されます。 DataAnalysis でタスクを分析する場合、エンジン O&M ページでタスクの新しいアプリケーション ID は生成されません。 DataStudio でタスクを実行するときに生成されたアプリケーション ID が再利用されます。 YARN アプリケーションの使用方法は、EMR サービスの種類によって異なります。

  • エンジン O&M ページには、DataWorks で EMR ジョブを初めて実行するときに生成されたアプリケーション ID のみが表示されます。

  • EMR ジョブが属する DataWorks タスクインスタンスが正常に実行された場合、または実行に失敗した場合でも、対応する YARN アプリケーションは RUNNING 状態のままになっている可能性があります。 たとえば、アイドルセッションのタイムアウト期間を指定する kyuubi.session.engine.idle.timeout パラメーターを使用して、目的の YARN アプリケーションを一定期間保持するかどうかを決定します。 kyuubi.session.engine.idle.timeout パラメーターが PT30M に設定されている場合、対応する YARN アプリケーションは、EMR Kyuubi ジョブの実行が完了した後も 30 分間保持されます。 EMR on ECS ページにアクセスして、Kyuubi のパラメーター設定を表示できます。

前提条件

EMR クラスターが DataWorks ワークスペースに登録され、関連する EMR タスクが DataWorks で実行されています。

EMR エンジン O&M ページに移動する

  1. DataWorks コンソールにログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションペインで、[データ開発とガバナンス] > [オペレーションセンター] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[オペレーションセンターに移動] をクリックします。

  2. オペレーションセンター ページの左側のナビゲーションペインで、[その他] > [エンジンメンテナンス] > [e-mapreduce] を選択します。

EMR ジョブを表示する

EMR エンジン O&M ページでは、現在のリージョンのすべての DataWorks ワークスペースで作成された EMR ジョブのリストを表示できます。 また、ビジネス要件に基づいてジョブの詳細を表示し、ジョブで O&M 操作を実行することもできます。引擎运维界面

  • エリア 1 で EMR ジョブを検索します。

    EMR エンジン O&M ページの上部で、ジョブ ID やジョブタイプなど、さまざまな条件を指定して EMR ジョブを検索できます。

    説明
    • デフォルトでは、[EMR エンジン O&M] ページには過去 3 日間のデータが表示されます。

    • DataWorks インスタンス ID で EMR ジョブを検索する場合は、[dataworks インスタンス ID] フィールドに、オペレーションセンターで実行されているインスタンスの ID のみを入力できます。 [ジョブ ID] または [dataworks インスタンス ID] で EMR ジョブを検索する場合は、過去 7 日間に EMR ジョブが属していたインスタンスのみをクエリできます。

  • エリア 2 で EMR ジョブに対して O&M 操作を実行します。

    このセクションでは、選択したジョブの詳細を表示し、ビジネス要件に基づいてジョブに対して O&M 操作を実行できます。

    機能

    説明

    ジョブ詳細の表示

    ジョブ ID、ジョブステータス、実行時間、ジョブソース、ジョブが属する DataWorks タスクインスタンスなど、EMR ジョブに関する基本情報を表示できます。

    • ジョブステータス:

      • NEW: EMR ジョブが新しく作成されました。

      • NEW_SAVING: EMR ジョブは保存中です。

      • SUBMITTED: EMR ジョブは実行のために送信されました。

      • ACCEPTED: ジョブを実行するための送信されたリクエストは、スケジューリングシステムによって承認されています。

      • RUNNING: EMR ジョブは実行中です。

        説明

        EMR ジョブが長時間 RUNNING 状態になっている場合は、EMR ジョブが属する DataWorks タスクインスタンスを手動で終了できます。 これにより、EMR ジョブがリソースを占有し、子孫インスタンスに影響を与えるのを防ぎます。

      • FINISHED: EMR ジョブの実行が完了しました。

      • SUCCESSED: EMR ジョブは正常に実行されました。

      • FAILED: EMR ジョブの実行に失敗しました。 EMR ジョブが FAILED 状態の場合は、できるだけ早く問題を特定してトラブルシューティングする必要があります。 これにより、EMR ジョブが、ジョブが属する DataWorks タスクインスタンスと、その子孫タスクインスタンスの実行に影響を与えるのを防ぐことができます。 ジョブ ID またはジョブが属する DataWorks インスタンスの ID をクリックして詳細ページに移動し、問題のトラブルシューティングを行うことができます。

      • KILLED: EMR ジョブは、ジョブを実行したユーザーまたは管理者によって終了されました。

    • DataWorks インスタンス ID:

      DataWorks インスタンス ID: 異なる EMR ジョブが同じ DataWorks タスクインスタンスに属している場合があります。 EMR ジョブが異なる時点で実行を開始する場合、EMR ジョブは異なる DataWorks タスクインスタンスに属すると見なされます。 EMR ジョブが同じ [dataworks タスクインスタンス]に属しているかどうかを判断するには、各 EMR ジョブの [ノードインスタンス ID] 列の ID を確認します。

      説明

      Data Quality、DataStudio、DataAnalysis など、特定の DataWorks サービスで実行されるようにトリガーされたタスクのインスタンス ID は生成されません。 この場合、対応するジョブの [ノードインスタンス ID] 列にはハイフン(-)が表示されます。

    • EMR ジョブタイプ: MapReduce タイプと Spark タイプの EMR ジョブのみを表示できます。

    • 実行時間順にソート: ジョブを [開始時間] または [終了時間] で昇順または降順にソートできます。 これにより、EMR ジョブの実行シーケンス、実行時間、およびステータスを明確に表示できます。

    • ジョブソース: EMR ジョブが実行されている DataWorks サービスを表示できます。 [アクション] 列のボタンをクリックして、インスタンスが実行されるようにトリガーされたサービスページに移動し、インスタンスの詳細を表示できます。

    • キュー使用率(%): 現在のジョブの実行時に、クラスターリソースマネージャー YARN によって割り当てられたキューリソースの割合。

    EMR ジョブが属するインスタンスに対する操作の実行

    • DataWorks タスクインスタンスを終了します。

      EMR ジョブが長時間 RUNNING 状態になっている場合は、ジョブを手動で終了できます。 内部エラーが原因で EMR ジョブが長時間 RUNNING 状態になっている可能性があり、ジョブを自動的に終了できません。 ジョブがリソースを占有し、他のジョブの実行に影響を与えるのを防ぐには、ジョブを手動で終了し、できるだけ早く問題のトラブルシューティングを行う必要があります。

      • 単一ジョブの終了: 終了するジョブを見つけ、[アクション] 列の [実行中を終了] をクリックします。

      • 複数ジョブの同時終了: 終了するジョブを選択し、EMR エンジン O&M ページの左下隅にある [dataworks ノードインスタンスの停止] をクリックして、選択したジョブが属する DataWorks タスクインスタンスを一度に終了します。

      重要
      • [ワークスペース管理者]O&M ロールが割り当てられているユーザー、およびタスク所有者のみがタスクインスタンスを終了できます。

      • 複数の EMR ジョブが同じ DataWorks タスクインスタンスに属しており、EMR ジョブの 1 つを終了すると、DataWorks タスクインスタンスは FAILED 状態になります。

      • 実行状態の DataWorks タスクインスタンスのみを終了できます。

      • DataWorks タスクインスタンスで実行中の EMR ジョブを終了すると、DataWorks タスクインスタンスは FAILED 状態になります。 この場合、DataWorks タスクインスタンスの子孫インスタンスはブロックされます。 実行中の EMR ジョブを終了する場合は注意してください。

    • サービスページに移動してインスタンスの詳細を表示する

      EMR ジョブが属するインスタンスの詳細を表示する場合は、EMR エンジン O&M ページで EMR ジョブを見つけ、[アクション] 列の DataStudio などのサービスに対応するボタンをクリックして、インスタンスが実行されるようにトリガーされたサービスページに移動します。

      説明
      • DataAnalysis: ファイル所有者のみが DataAnalysis ページに移動して SQL クエリファイルを表示できます。

      • DataStudio: DataStudio で実行されるようにトリガーされたインスタンスの場合、現在のワークスペースのすべての開発者が DataStudio ページでインスタンスを表示できます。 インスタンスの実行履歴を表示できるのは、インスタンスの実行をトリガーしたユーザーのみです。