CPU、メモリ、GPU の詳細なメトリックを使用して、Data Science Workshop (DSW) インスタンスのリソース使用量を監視します。また、Cloud Monitor または Application Real-Time Monitoring Service (ARMS) を使用して、アラートと通知を設定することもできます。GPU 使用率がしきい値を超えるなど、リソースメトリックに異常が発生した場合、システムはアラートをトリガーし、インスタンスの負荷状況をリアルタイムで追跡するのに役立ちます。
適用範囲
監視は、汎用コンピューティングリソースや Lingjun リソースなどのサブスクリプションリソースから作成された DSW インスタンスでのみサポートされます。パブリックリソースから作成された DSW インスタンスでは、監視はサポートされていません。
監視方法の概要
DSW は複数の監視方法を提供しています。ニーズやユースケースに最も適した方法を選択できます。
監視方法 | 特徴 | シナリオ | 課金情報 |
| 開発またはデバッグ中に単一インスタンスのリアルタイムのリソースステータスを表示します。 | 無料 | |
| 本番環境における DSW インスタンスの定常的かつ自動化された監視と異常アラートの設定。 | Cloud Monitor は別途課金されます。詳細については、「CloudMonitor の課金」をご参照ください。 | |
| 監視ダッシュボードのカスタマイズ、多次元データ分析の実行、または DSW 監視の統合された ARMS 可観測性システムへの統合。 | ARMS は別途課金されます。詳細については、「ARMS の課金」をご参照ください。 |
DSW コンソールでの監視ページの表示
DSW インスタンスリストページで、インスタンス名をクリックして詳細ページに移動します。Monitoring タブをクリックします。このページには、CPU、メモリ、GPU を含むインスタンスのリソースステータスが表示されます。

Cloud Monitor を使用した監視とアラートの設定
Cloud Monitor は、Alibaba Cloud リソースとインターネットアプリケーションを監視するサービスです。クラウドユーザー向けに、ワンストップのエンタープライズレベルの監視ソリューションを提供します。Cloud Monitor コンソールにログインして、DSW インスタンスのモニタリングデータを表示し、アラート通知を設定できます。Cloud Monitor では、API を介してメトリックデータをサブスクライブし、独自の監視システムやダッシュボードを構築することもできます。
モニタリングデータの表示
Cloud Monitor コンソールにログインします。左側のナビゲーションウィンドウで、[クラウドサービスモニタリング] をクリックします。[PAI-Data Science Workshop (DSW)] を検索して選択し、クエリしたいワークスペースとインスタンスを選択します。
ワークスペース ID を見つけるには、「ワークスペースの管理」をご参照ください。インスタンス ID を見つけるには、「コンソールでの DSW インスタンスへのアクセスと管理」をご参照ください。

監視アラートの設定
監視およびアラート機能を使用して、DSW インスタンスのリソース使用量を監視し、柔軟なアラートルールを設定できます。
アラート連絡先の設定
Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
アラートルールの設定
Cloud Monitor コンソールの左側のナビゲーションウィンドウで、[リソース監視] > [クラウドサービスモニタリング] をクリックします。次に、[PAI-Data Science Workshop (DSW)] を検索して選択します。
[PAI-Data Science Workshop (DSW)] ページで、サービスリージョンを選択し、[アラートルールを作成] をクリックします。

[アラートルールを作成] ページで、次の主要なパラメーターを設定し、[OK] をクリックします。パラメーターの詳細については、「アラートルールの作成」をご参照ください。
パラメーター
説明
プロダクト
[PAI-Data Science Workshop (DSW)] を選択します。
リソース範囲
アラートルールが適用される範囲:
すべてのリソース:アラートルールはすべての DSW リソースに適用されます。
アプリケーショングループ:アラートルールは、指定された DSW アプリケーショングループ内のすべてのリソースに適用されます。
インスタンス:アラートルールは、指定された DSW ワークスペース配下のインスタンスに適用されます。
ルール説明
アラートをトリガーする条件。ルールの説明の設定方法については、「アラートルールの作成」をご参照ください。
サイレント期間
未解決のアラートに対して通知が繰り返される間隔。
有効期間
アラートルールがアクティブな期間。ルールは、この期間中にのみアラートをトリガーする必要があるかどうかをチェックします。
アラート連絡先グループ
アラートの送信先となる連絡先グループ。グループにアラート連絡先が含まれていることを確認してください。
[PAI-Data Science Workshop (DSW)] ページで、[アラートルールを表示] をクリックして、作成されたアラートルールの詳細やアラート履歴などを表示します。
ARMS を使用した監視とアラートの設定
Application Real-Time Monitoring Service (ARMS) は、Alibaba Cloud のクラウドネイティブな可観測性プラットフォームです。ARMS を使用すると、DSW 用の Grafana ダッシュボードをカスタマイズし、Prometheus を使用して柔軟なアラートルールを設定できます。これにより、DSW インスタンスのメトリックを包括的に監視できます。
モニタリングデータのプロビジョニング
次の手順に従います:
ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[統合センター] > [人工知能] をクリックし、次に [Alibaba Cloud PAI-Data Science Workshop (DSW)] をクリックします。

表示されるパネルの [統合を開始] タブで、[データストレージリージョン] を選択し、[アクセス名] を指定してから、[OK] をクリックします。
DSW のプロビジョニングには 1〜2 分かかります。[プレビュー]、[メトリックを収集]、または [アラートルールテンプレート] タブに切り替えて、それぞれ監視ダッシュボード、サポートされているメトリック、またはアラートルールの詳細を表示することもできます。
プロビジョニングが完了したら、左側のナビゲーションウィンドウで、[プロビジョニング] > [統合コンポーネント] を選択して、[Alibaba Cloud PAI-Data Science Workshop (DSW)] コンポーネントを表示します。
Grafana ダッシュボードの表示
ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[プロビジョニング] > [統合コンポーネント] > [Alibaba Cloud PAI-Data Science Workshop (DSW)] > [ダッシュボードリスト] をクリックします。ダッシュボード名をクリックして、組み込みの Grafana ダッシュボードを表示します。

Grafana ダッシュボードページで、ID によって特定の DSW インスタンスのステータスを表示できます。

Prometheus アラートの設定
ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[プロビジョニング] > [統合コンポーネント] > [Alibaba Cloud PAI-Data Science Workshop (DSW)] > [アラートリスト] をクリックして、組み込みのアラートルールを表示します。

組み込みのアラートルールはアラートイベントを生成しますが、通知は送信しません。次の 2 つの方法のいずれかを使用して、メールや他のプラットフォームに通知を送信するように設定できます:
アラートルールを編集して通知を設定します。アラートルールの [操作] 列で、[編集] をクリックして Prometheus アラートルール設定ページを開きます。必要に応じて、アラート条件、内容、通知を設定します。アラート設定の詳細については、「Prometheus アラートルールの作成」をご参照ください。

通知ポリシーを設定して、アラートイベントのマッチングルールを定義します。イベントがルールに一致すると、システムは選択した方法で指定された通知オブジェクトにアラートを送信します。詳細については、「通知ポリシー」をご参照ください。