データ変換ジョブのモニタリングを有効にすると、データ変換中に例外が発生した場合、Log Serviceはアラート通知を送信します。 これは、できるだけ早い機会に例外を処理するのに役立ちます。 このトピックでは、データ変換ジョブのモニタリングを有効にする方法について説明します。
始める前に
データ変換ジョブが作成されます。 詳細については、「t947967.html#task_1181217」をご参照ください。このタスクについて
- データ変換ジョブを作成すると、Log Serviceはデータ変換ジョブ用のデータ変換トラブルシューティングという名前のダッシュボードを自動的に作成します。 [データ変換トラブルシューティング] ダッシュボードの次のメトリクスに注意することをお勧めします。
- システムメトリック: データ消費遅延と関連する例外。
- アプリケーション指標: 受信したログの数と配信されたログの数。
- Log Serviceは、組み込みのアラートモニタリングルール、アクションポリシー、およびデータ変換用のアラートテンプレートを提供します。 次のルールに基づいて組み込みリソースを使用できます。
- 組み込みのアラートモニタリングルールのアラートインスタンスを有効にするには、SQL文を記述する必要はありません。 たとえば、データ変換中に遅延、例外、または障害が発生したときにアラートをトリガーするルールを有効にできます。 詳細については、「データ変換の監視ルール」をご参照ください。
- データ変換の組み込みアクションポリシーで、通知方法とアラートテンプレートを指定できます。
- アラート通知の内容は、データ変換用の組み込みアラートテンプレートで指定できます。
手順1: アクションポリシーの設定
既定では、データ変換の組み込みアラートモニタリングルールは、IDがsls.app.etl.builtinである組み込みアクションポリシーに関連付けられています。 組み込みのアラートモニタリングルールのアラートインスタンスをデータ変換用に有効にする前に、アクションポリシーで1つ以上の通知方法を指定する必要があります。
- Log Service コンソールにログインします。
- [アクションポリシー] タブに移動します。
- [プロジェクト] セクションで、表示するプロジェクト名をクリックします。
- 左側のナビゲーションペインで [アラート] をクリックします。
- [アラートセンター] ページで、 を選択します。
- [アクションポリシー] タブで、IDがsls.app.etl.builtinである組み込みのアクションポリシーを見つけ、[アクション] 列の [編集] をクリックします。
- [アクションポリシーの編集] ダイアログボックスで、[プライマリアクションポリシー] タブをクリックします。 [プライマリアクションポリシー] タブで、[DingTalk-Custom] セクションの [リクエストURL] パラメーターをDingTalkチャットボットのwebhook URLに設定します。 他のパラメーターのデフォルト設定を使用し、[OK] をクリックします。
手順2: アラートインスタンスの有効化
Log Serviceは、組み込みのアラートモニタリングルールを提供します。 ビジネス要件に基づいて、関連するアラートモニタリングルールのアラートインスタンスを有効にできます。
- [アラートセンター] ページで、[アラートルール /インシデント] をクリックします。
- [アラートルール /インシデント] タブで、[SLSデータ変換] をクリックします。
- アラートモニタリングルールリストで、使用するアラートモニタリングルールを見つけ、[操作] 列の [有効化] をクリックします。 アラートインスタンスを有効にすると、Log Serviceはすべてのデータ変換ジョブをリアルタイムで監視します。
- 複数のアラートインスタンスを有効にするには、[追加] をクリックします。
- 特定のデータ変換ジョブのみを監視する場合は、[設定] をクリックし、監視するデータ変換ジョブのIDを指定します。
For情報パラメータについての警告監視ルール、データ変換の監視ルール参照してください。
関連する操作
操作 | 説明 |
---|---|
allowlistsの設定 | 特定のアラートモニタリングジョブの許可リストを設定できます。 このように、これらのルールに基づく特定のデータ変換ジョブによってアラートがトリガーされることはありません。 |
アラートインスタンスの追加 | アラートモニタリングルールにアラートインスタンスを追加できます。 特定のデータ変換ジョブを監視するようにアラートインスタンスを設定することもできます。 |
アラートインスタンスの無効化 | アラートインスタンスを無効にすると、アラートインスタンスの [ステータス] 列の値が [無効] に変わり、アラートインスタンスに基づいてアラートがトリガーされなくなります。 アラートインスタンスの設定は削除されません。 アラートインスタンスを再有効化してデータを監視する場合、アラートインスタンスのパラメーターを再設定する必要はありません。 |
アラートインスタンスの一時停止 | アラートインスタンスを一時停止した場合、指定された期間内にアラートインスタンスに基づいてアラートはトリガーされません。 |
アラートインスタンスの再開 | 一時停止したアラートインスタンスを再開できます。 |
アラートインスタンスの削除 | アラートインスタンスを削除すると、アラートインスタンスの [ステータス] 列の値が [未作成] に変わります。 データ変換ジョブのIDなど、アラートインスタンスの設定が削除されます。 アラートインスタンスを再作成してデータを監視する場合は、アラートインスタンスのパラメーターを再設定する必要があります。 |
アラートインスタンスの変更 | アラートインスタンスのパラメーター (アラート名、監視するデータ変換ジョブのID、しきい値、アクションポリシー、重大度など) を変更できます。 |
データ変換の監視ルール
次の表は、データ変換のためにLog Serviceによって提供される組み込みモニタリングルールの機能、パラメーター、および関連するダッシュボードメトリックを示しています。 表には、アラートをクリアするために使用される処理方法も記載されています。
- データ変換遅延モニタールール
項目 説明 ルール名 データ変換遅延モニター 機能性 このルールは、データ変換ジョブのシャードからデータが消費されるときに発生するレイテンシを監視します。 データ変換中のレイテンシがThresholdパラメーターの値を超えると、アラートがトリガーされます。 パラメーター - ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
デフォルト値: .* この値は、すべてのデータ変換ジョブが監視されることを示します。 複数のジョブIDを縦棒 (|) で区切ります。
- しきい値: データ変換ジョブのレイテンシがこのパラメーターの値を超えると、アラートがトリガーされます。 デフォルト値は 300 です。 単位は秒です。
- アクションポリシー: 現在のアラートモニタリングルールに関連付けられているアクションポリシー。 Log Serviceは、アクションポリシーに基づいて、指定されたユーザーにアラート通知を送信します。 デフォルト値: sls.app.etl.builtin この値は、アラート通知がDingTalkチャットボットのwebhook URLを使用して送信されることを示します。
- 重大度: アラートの重大度。
- 繰り返し間隔: Log Serviceが繰り返しアラートに対して1つのアラート通知を送信する間隔。 各期間中、Log Serviceは繰り返しアラートの繰り返しアラート通知を送信しません。 たとえば、[繰り返し間隔] パラメーターを1時間、2時間、または3 mに設定した場合、繰り返しアラートがトリガーされても、Log Serviceは1日、2時間、または3分以内に1つのアラート通知のみを送信します。
関連ダッシュボード データ変換のトラブルシューティング > シャード消費遅延 (秒) Handling方法 次のルールに基づいて、トリガーされたアラートをクリアできます。 - ソースLogstoreのデータ量が大幅に増加した場合は、ビジネス要件に基づいて次の操作を実行します。
- 変換速度 (ライン /秒) メトリックの値が増加し、シャード消費遅延 (秒) メトリックの値が減少すると、ソースLogstoreのデータ量が増加するため、データ変換ジョブは自動的にリソースをスケールアップします。 この場合、5分間待ってから、レイテンシが指定されたしきい値より小さいかどうかを確認します。 そうでない場合は、次のステップに進みます。
- Transform speed (lines/s) メトリックの値が増加しない場合、またはシャード消費遅延 (秒) メトリックの値が増加し続ける場合、ソースLogstore内のシャードの数が不足し、データ変換用のリソースの拡張が制限される可能性があります。 この場合、ソースLogstoreのシャードを分割する必要があります。 詳細については、「シャードを分割します。」をご参照ください。 シャードを分割した後、5分間待ってから、レイテンシが指定されたしきい値より小さいかどうかを確認します。 そうでない場合は、次のステップに進みます。
- データ変換エラーモニタールールに基づいてアラートがトリガーされる場合は、まずアラートをクリアする必要があります。 アラートをクリアした後、5分間待ってから、レイテンシが指定されたしきい値よりも小さいかどうかを確認します。 そうでない場合は、次のステップに進みます。
- アラートが持続する場合は、関連するプロジェクト、Logstore、およびデータ変換ジョブIDに関する情報を準備し、 [チケット] を送信してAlibaba Cloudテクニカルサポートに問い合わせてください。
- ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
- データ変換エラー監視ルール
項目 説明 ルール名 データ変換エラーモニター 機能性 このルールは、データ変換ジョブの例外を監視します。 データ変換中に例外が発生すると、アラートがトリガーされます。 パラメーター - ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
デフォルト値: .* この値は、すべてのデータ変換ジョブが監視されることを示します。 複数のジョブIDを縦棒 (|) で区切ります。
- アクションポリシー: 現在のアラートモニタリングルールに関連付けられているアクションポリシー。 Log Serviceは、アクションポリシーに基づいて、指定されたユーザーにアラート通知を送信します。 Default値: sls。アプリetl.builtin。 この値は、アラート通知がDingTalkチャットボットのwebhook URLを使用して送信されることを示します。
- 重大度: アラートの重大度。
- 繰り返し間隔: Log Serviceが繰り返しアラートに対して1つのアラート通知を送信する間隔。 各期間中、Log Serviceは繰り返しアラートの繰り返しアラート通知を送信しません。 たとえば、[繰り返し間隔] パラメーターを1時間、2時間、または3 mに設定した場合、繰り返しアラートがトリガーされても、Log Serviceは1日、2時間、または3分以内に1つのアラート通知のみを送信します。
関連ダッシュボード データ変換トラブルシューティング > 例外の詳細 取り扱い方法 関連するエラーメッセージに基づいて例外を修正します。 - エラーメッセージにUnauthorized、InvalidAccessKeyId、またはSignatureNotMatchが含まれている場合、データ変換ジョブには、ソースLogstoreからデータを読み取り、またはターゲットLogstoreにデータを書き込むために必要な権限がありません。 詳細については、『Authorization overview』をご参照ください。
- エラーメッセージにProjectNotExistまたはLogStoreNotExistが含まれている場合、データ変換ジョブの関連プロジェクトまたはLogstoreは存在しません。 この場合、log Serviceコンソールにログインして、エラーを特定して修正します。
- エラーメッセージにSettingErrorが含まれている場合、データ変換ジョブの設定は無効です。 たとえば、関数で指定されたパラメーターが無効な場合、またはObject Storage Service (OSS) バケットやApsaraDB RDS For MySQLインスタンスなどの外部Alibaba Cloudリソースの設定が無効な場合、エラーが発生します。 詳細については、「関数の概要」をご参照ください。
- エラーメッセージにTransformErrorが含まれている場合、ソースLogstoreの生データは現在のデータ変換ジョブのロジックを満たしていません。 このエラーは、新しいタイプのデータがソースLogstoreにインポートされたときに発生する可能性があります。 この場合は、エラーメッセージに基づいて生データを見つけ、データ変換ジョブを更新してから、再試行してください。 詳細については、「t1253393.html#task_1580295」をご参照ください。
- ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
- データ変換フロー (絶対値) モニタールール
項目 説明 ルール名 データ変換フロー (絶対値) モニター 機能性 このルールは、5分以内にデータ変換ジョブによって変換されたログの平均数を監視します。 変換されたログの平均数がThresholdパラメーターの値未満の場合、アラートがトリガーされます。 パラメーター - ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
デフォルト値: .* この値は、すべてのデータ変換ジョブが監視されることを示します。 複数のジョブIDを縦棒 (|) で区切ります。
- Threshold: Ifの平均数変換ログこのパラメータの値未満である、アラートはトリガされます。 デフォルト値: 40000 単位: ライン /秒。
- アクションポリシー: 現在のアラートモニタリングルールに関連付けられているアクションポリシー。 Log Serviceは、アクションポリシーに基づいて、指定されたユーザーにアラート通知を送信します。 デフォルト値: sls.app.etl.builtin この値は、アラート通知がDingTalkチャットボットのwebhook URLを使用して送信されることを示します。
- 重大度: アラートの重大度。
- 繰り返し間隔: Log Serviceが繰り返しアラートに対して1つのアラート通知を送信する間隔。 各期間中、Log Serviceは繰り返しアラートの繰り返しアラート通知を送信しません。 たとえば、[繰り返し間隔] パラメーターを1時間、2時間、または3 mに設定した場合、繰り返しアラートがトリガーされても、Log Serviceは1日、2時間、または3分以内に1つのアラート通知のみを送信します。
関連ダッシュボード データ変換のトラブルシューティング > 変換速度 (ライン /秒) 取り扱い方法 次のルールに基づいて、トリガーされたアラートをクリアできます。 - 変換速度 (ライン /秒) メトリックの値の変化傾向が、ソースLogstoreのデータボリュームの増加または減少傾向と一致する場合、変換されたログの数は、ソースLogstoreのデータボリュームによって制限されます。 そうでない場合は、次のステップに進みます。
- データ変換遅延モニタールールに基づいてアラートがトリガーされる場合は、まずアラートをクリアする必要があります。 アラートをクリアした後、15分待ちます。 レイテンシが1分未満であるが、変換されたデータの量の傾向が、ソースLogstoreのデータボリュームの増減傾向と一致しない場合は、次のステップに進みます。
- アラートが持続する場合は、関連するプロジェクト、Logstore、およびデータ変換ジョブIDに関する情報を準備し、 [チケット] を送信してAlibaba Cloudテクニカルサポートに問い合わせてください。
- ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
- データ変換フロー (デイリー比較) モニタールール
項目 説明 ルール名 データ変換フロー (デイリー比較) モニター Functionality このルールは、前日の同じ期間と比較して5分以内のデータ変換ジョブの変換データの増加率と減少率を監視します。 If増加率は値よりのAsc Thresholdパラメータまたは低下率は値よりのDesc Thresholdパラメータ、アラートはトリガされます。 Parameters - ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
デフォルト値: .* この値は、すべてのデータ変換ジョブが監視されることを示します。 複数のジョブIDを縦棒 (|) で区切ります。
- Asc Threshold: 変換されたデータの1日の増加率がこのパラメーターの値よりも大きい場合、アラートがトリガーされます。 デフォルト値: 40%
- Desc Threshold: 変換されたデータの1日の減少率がこのパラメーターの値よりも大きい場合、アラートがトリガーされます。 デフォルト値: 20%
- アクションポリシー: アラート通知の送信に使用されるアクションポリシー。 アクションポリシーには、通知方法とアラートテンプレートが含まれます。 デフォルト値: sls.app.etl.builtin この値は、アラート通知がDingTalkチャットボットのwebhook URLを使用して送信されることを示します。
- 重大度: アラートの重大度。
- 繰り返し間隔: Log Serviceが繰り返しアラートに対して1つのアラート通知を送信する間隔。 各期間中、Log Serviceは繰り返しアラートの繰り返しアラート通知を送信しません。 たとえば、[繰り返し間隔] パラメーターを1時間、2時間、または3 mに設定した場合、繰り返しアラートがトリガーされても、Log Serviceは1日、2時間、または3分以内に1つのアラート通知のみを送信します。
関連ダッシュボード データ変換のトラブルシューティング > 変換速度 (ライン /秒) 取り扱い方法 次のルールに基づいて、トリガーされたアラートをクリアできます。 - 変換速度 (ライン /秒) メトリックの値の変化傾向が、ソースLogstoreのデータボリュームの増加または減少傾向と一致する場合、変換されたログの数は、ソースLogstoreのデータボリュームによって制限されます。 そうでない場合は、次のステップに進みます。
- データ変換遅延モニタールールに基づいてアラートがトリガーされる場合は、まずアラートをクリアする必要があります。 アラートをクリアした後、15分待ちます。 レイテンシが1分未満であるが、変換されたデータの量の傾向が、ソースLogstoreのデータボリュームの増減傾向と一致しない場合は、次のステップに進みます。
- アラートが持続する場合は、関連するプロジェクト、Logstore、およびデータ変換ジョブIDに関する情報を準備し、 [チケット] を送信してAlibaba Cloudテクニカルサポートに問い合わせてください。
- ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
- データ変換の失敗した行の監視ルール
項目 説明 ルール名 データ変換の失敗した回線モニター 機能性 このルールは、データ変換ジョブによって15分以内に変換されないログの数を監視します。 データ変換中に変換に失敗したログの数がThresholdパラメーターの値を超えると、アラートがトリガーされます。 パラメーター - ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。
デフォルト値: .* この値は、すべてのデータ変換ジョブが監視されることを示します。 複数のジョブIDを縦棒 (|) で区切ります。
- しきい値: 変換に失敗したログの数がこのパラメーターの値を超えると、アラートがトリガーされます。 デフォルト値は 10 です。
- アクションポリシー: アラート通知の送信に使用されるアクションポリシー。 アクションポリシーには、通知方法とアラートテンプレートが含まれます。 デフォルト値: sls.app.etl.builtin この値は、アラート通知がDingTalkチャットボットのwebhook URLを使用して送信されることを示します。
- 重大度: アラートの重大度。
- Repeat Interval: 間隔でLog Service送信1アラート通知繰り返し。 各期間中、Log Serviceは繰り返しアラートの繰り返しアラート通知を送信しません。 たとえば、[繰り返し間隔] パラメーターを1時間、2時間、または3 mに設定した場合、繰り返しアラートがトリガーされても、Log Serviceは1日、2時間、または3分以内に1つのアラート通知のみを送信します。
関連ダッシュボード データ変換トラブルシューティング > 合計ログが失敗しました 取り扱い方法 次のルールに基づいて、トリガーされたアラートをクリアできます。 - データ変換エラーモニタールールで提供されている方法を使用して、アラートを消去します。 エラーメッセージが報告されない場合は、次の手順に進みます。
- アラートが持続する場合は、関連するプロジェクト、Logstore、およびデータ変換ジョブIDに関する情報を準備し、 [チケット] を送信してAlibaba Cloudテクニカルサポートに問い合わせてください。
- ジョブID: 監視するデータ変換ジョブのID。 例: dd2de8e7e23f3e42ffbb32fe05710372。