データ変換ジョブの監視 - Simple Log Service - Alibaba Cloud ドキュメントセンター

メトリックデータ

データ変換 (新バージョン) ジョブの実行メトリックを取得するには、Simple Log Service (SLS) の [ジョブ実行ログ] を有効にする必要があります。 [ジョブ実行ログ] を有効にする方法の詳細については、「サービスログの管理」をご参照ください。

ダッシュボード

データ変換ジョブを作成すると、SLS がジョブの詳細ページにダッシュボードを自動的に追加し、そこでオペレーションメトリックを表示できます。

操作手順

Log Serviceコンソールにログインします。
[プロジェクト] セクションで、管理するプロジェクトをクリックします。
左側のナビゲーションウィンドウで、[ジョブ管理] > [データ変換] を選択します。
対象のデータ変換ジョブをクリックし、ステータス セクションでダッシュボードを表示します。

全体的なメトリック

ダッシュボードには、次の主要なメトリックが含まれています：

処理レート：データ処理レート。単位はイベント/秒です。デフォルトでは、このメトリックは 1 時間の期間内の 1 分間のウィンドウで計算されます。
- ingest：ソース Logstore のすべてのシャードから読み取られたイベント数。
- deliver：送信先 Logstore に正常に書き込まれたイベント数。
- 失敗：ソース Logstore から読み取られたものの、変換中に失敗したイベント数。
読み取りイベント合計：ソース Logstore のすべてのシャードから読み取られたイベントの総数。デフォルトの統計期間は 1 日です。
配信イベント合計：すべての送信先 Logstore に正常に書き込まれたイベントの総数。デフォルトの統計期間は 1 日です。
失敗イベント合計：ソース Logstore から読み取られ、変換中に失敗したイベントの総数。デフォルトの統計期間は 1 日です。
イベント配信率：ソース Logstore から読み取られた合計イベント数に対する、送信先 Logstore に正常に配信されたイベントの比率。デフォルトの統計期間は 1 日です。

シャード詳細

このセクションでは、ジョブがソース Logstore からデータを読み取る際に 1 分間隔で収集されるシャードレベルのメトリックが表示されます。

シャード消費レイテンシー (秒)：各シャードについて、最新のイベントの取り込み時刻と現在処理中のイベントの取り込み時刻との時間差 (秒) です。これは処理の遅延を示します。
アクティブなシャードの統計：デフォルトの統計期間は 1 時間です。
- shard：シャードの ID。
- ingest：シャードから読み取られた未加工イベントの数。
- 失敗：シャードから読み取られ、変換中に失敗した未加工イベントの数。

ランタイム例外

エラーの詳細は message フィールドで確認できます。

たとえば、エラー詳細ページのログテーブルには、time、level、action、message の 4 つの列が含まれています。 level が ERROR で action が deliver の場合、message フィールドに {"Code":"InvalidArgs","Message":"failed to get sts token: ...The role not exists: acs:ram::*:role/test-role."} のようなエラーが表示されることがあります。このメッセージは、指定された RAM ロールが存在しないため、システムが STS トークンの取得に失敗したことを示します。

アラートルール

データ変換ジョブを監視するには、「メトリックデータ」で説明しているオペレーションメトリックを使用します。 SLS のアラート機能を使用して、処理レイテンシー、例外、トラフィックの変更の監視などのシナリオに対するアラートルールを作成できます。アラート機能の詳細については、「アラート」をご参照ください。アラートルールを作成するには、「ログベースのアラートルールの作成」をご参照ください。

重要

データ変換ジョブのアラートルールを作成するときは、クエリが、ジョブのオペレーションログが保存されているプロジェクトと Logstore をターゲットにしていることを確認してください。詳細については、「サービスログの管理」をご参照ください。

[クエリと分析] ダイアログボックスで、[高度な設定] タブをクリックします。 [タイプ] を [Logstore] に、[認可方式] を [デフォルト] に設定します。ターゲットの [リージョン] を選択し、[project] と [logstore] の名前を入力します。必要に応じて、[専用 SQL] ( [自動]、[有効]、または [無効] から選択できます) と [時間範囲] を設定します。その後、[確認] をクリックします。

処理レイテンシーの監視

項目	説明
目的	データ変換ジョブのシャード消費レイテンシーを監視します。処理レイテンシーが指定されたしきい値を超えると、アラートがトリガーされます。
関連するダッシュボードメトリック	「シャード消費レイテンシー (秒)」をご参照ください。
分析クエリのサンプル	次のクエリの `{job_name}` をお使いのデータ変換ジョブの名前に置き換えてください。 `__topic__: etl_metrics and job_name: {job_name} and "_etl_:connector_meta.action": ingest \| select split_part( "_etl_:connector_meta.task_name", '#', 2 ) as shard, max_by("_etl_:connector_metrics.lags", __time__) as lags group by shard having shard is not null limit all`
アラートルールの設定	トリガー条件を [データが式に一致] に設定します。評価式を `lags > 120` に設定します。これにより、レイテンシーしきい値は 120 秒に設定されます。 [時間範囲] を 5 分に設定します。 [チェック頻度] を 5 分に設定します。説明メトリックの定期的更新 (1 分ごと) や急なデータスパイクに起因するレイテンシーによる誤報を避けるため、これらの設定を使用することを推奨します。
アラートの解決方法	これらのアラートを解決するには：ジョブが最近作成され、履歴データを処理している場合、バックログの処理に時間がかかることがあります。レイテンシーを 1 時間監視します。アラートのしきい値を下回らない場合は、次の手順に進みます。ソース Logstore のデータ量が大幅に増加した場合：処理レート (イベント/秒) が増加し、シャード消費レイテンシー (秒) が減少する場合、これはソース Logstore のデータが増加したため、データ変換ジョブがリソースを自動的にスケーリングしていることを示します。レイテンシーが正常範囲に戻るかどうかを 5 分間監視します。戻らない場合は、次の手順に進みます。処理レート (イベント/秒) が増加しないか、シャード消費レイテンシー (秒) が依然として上昇傾向にある場合、ソース Logstore のシャード数が不足しており、データ変換リソースのスケーリングが制限されている可能性があります。ソース Logstore のシャードを手動で分割する必要があります。具体的な手順については、「シャードの管理」をご参照ください。分割完了後、5 分間観察してレイテンシーがアラート範囲内に収まるかどうかを確認します。収まらない場合は、次の手順に進みます。処理例外に関するアクティブなアラートがある場合は、まずそのアラートを解決します。問題を解決した後、5 分間観察してレイテンシーがアラートのしきい値を下回るかどうかを確認します。

処理例外の監視

項目	説明
目的	データ変換ジョブ中に例外が発生した場合にアラートをトリガーします。
関連するダッシュボードメトリック	「ランタイム例外」をご参照ください。
分析クエリのサンプル	次のクエリの `{job_name}` をお使いのデータ変換ジョブの名前に置き換えてください。 `__topic__: etl_metrics and job_name: {job_name} and "_etl_:connector_metrics.error": * \| select distinct "_etl_:connector_metrics.error" as errors`
アラートルールの設定	トリガー条件を [データが返される] に設定します。 [時間範囲] を 10 分に設定します。 [チェック頻度] を 10 分に設定します。
アラートの解決方法	エラーメッセージに基づいてトラブルシューティングを行います：エラーメッセージに `Invalid SPL query` が含まれている場合、ジョブの SPL クエリに構文エラーがあります。エラーメッセージの詳細に基づいてクエリを修正します。詳細については、「SPL 構文」をご参照ください。エラーメッセージに `Unauthorized`、`InvalidAccessKeyId`、または `SignatureNotMatch` が含まれている場合、ジョブにはソース Logstore からデータを読み取るか、送信先 Logstore にデータを書き込むために必要な権限がありません。詳細については、「認可」をご参照ください。エラーメッセージに `ProjectNotExist` または `LogStoreNotExist` が含まれている場合、指定されたプロジェクトまたは Logstore が存在しません。 Simple Log Service コンソールにログインして、問題を確認し解決します。

書き込みデータ量比率の監視 (期間比較)

項目	説明
目的	データ配信率 (書き込み量 vs 読み取り量) の期間比較の変動に基づいてアラートをトリガーします。このルールは、現在の比率を前日および前週の同期間と比較し、変動が設定された増減のしきい値を超えた場合にアラートをトリガーします。
関連するダッシュボードメトリック	イベント配信率：ソース Logstore から読み取られた合計イベント数に対する、送信先 Logstore に正常に配信されたイベントの比率。デフォルトの統計期間は 1 日です。
分析クエリのサンプル	アラートルールを作成する際に、[クエリと分析] ダイアログボックスに次のクエリを入力します。次のクエリの `{job_name}` をお使いのデータ変換ジョブの名前に置き換えてください。 __topic__: etl_metrics and job_name: {job_name} \| select round(diff [1], 1) as percent, round(coalesce(diff [4], 0), 1) as ratio_1d, round(coalesce(diff [5], 0), 1) as ratio_1w from( select compare(percent, 86400, 604800) as diff FROM ( select deliver /(ingest + 0.0001) as percent from( select sum( if( "_etl_:connector_meta.action" = 'ingest', "_etl_:connector_metrics.native_bytes", 0 ) ) as ingest, sum( if( "_etl_:connector_meta.action" = 'deliver', "_etl_:connector_metrics.native_bytes", 0 ) ) as deliver FROM log ) ) )
アラートルールの設定	トリガー条件を [データが式に一致] に設定します。評価式を `(ratio_1d > 1.2 \|\| ratio_1d < 0.8) && (ratio_1w > 1.2 \|\| ratio_1w < 0.8)` に設定します。これにより、日次/週次の増減のしきい値が 20% に設定されます。 [時間範囲] を 1 時間に設定します。 [チェック頻度] を 1 時間に設定します。説明元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。
アラートの解決方法	これらのアラートを解決するには：ソース Logstore のデータ量が変更された場合は、新しいデータパターンが取り込まれていないか、または既存のデータストリームが中断されていないかを確認します。これが当てはまり、その結果のデータ変更がメトリックと一致する場合、アラートはソースデータパターンの変更が原因です。そうでない場合は、次の手順に進みます。処理レイテンシーまたは例外に関するアクティブなアラートがある場合は、まずそれらを解決します。

ソースイベント数の監視 (期間比較)

項目	説明
目的	データ変換ジョブによって読み取られたイベント数が、前日および前週と比較して大幅に変化した場合にアラートをトリガーします。イベント数が減少しきい値を下回るか、増加しきい値を超えると、アラートがトリガーされます。
関連するダッシュボードメトリック	読み取りイベント合計：ソース Logstore のすべてのシャードから読み取られたイベントの総数。デフォルトの統計期間は 1 日です。
分析クエリのサンプル	アラートルールを作成する際に、[クエリと分析] ダイアログボックスに次のクエリを入力します。次のクエリの `{job_name}` をお使いのデータ変換ジョブの名前に置き換えてください。 `__topic__: etl_metrics and job_name: {job_name} and "_etl_:connector_meta.action": ingest \| select diff [1] as events, round(coalesce(diff [4], 0), 1) as ratio_1d, round(coalesce(diff [5], 0), 1) as ratio_1w from( select compare(events, 86400, 604800) as diff FROM ( select sum("_etl_:connector_metrics.events") as events FROM log ) )`
アラートルールの設定	トリガー条件をデータが式に一致に設定し、評価式を `(ratio_1d > 1.2 \|\| ratio_1d < 0.8) && (ratio_1w > 1.2 \|\| ratio_1w < 0.8)` に設定します。これにより、日次/週次の増減のしきい値が 20% に設定されます。 [時間範囲] を 1 時間に設定します。 [チェック頻度] を 1 時間に設定します。説明元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。
アラートの解決方法	これらのアラートを解決するには：このメトリックの傾向がソース Logstore のイベント数の増減と一致する場合、その変化はソースデータ量が原因です。そうでない場合は、次の手順に進みます。処理レイテンシーまたは例外に関するアクティブなアラートがある場合は、まずそれらを解決します。

配信イベント数の監視 (期間比較)

項目	説明
目的	データ変換ジョブによって書き込まれたイベント数が、前日および前週と比較して大幅に変化した場合にアラートをトリガーします。イベント数が減少しきい値を下回るか、増加しきい値を超えると、アラートがトリガーされます。
関連するダッシュボードメトリック	配信イベント合計
分析クエリのサンプル	アラートルールを作成する際に、[クエリと分析] ダイアログボックスに次のクエリを入力します。次のクエリの `{job_name}` をお使いのデータ変換ジョブの名前に置き換えてください。 `__topic__: etl_metrics and job_name: {job_name} and "_etl_:connector_meta.action": deliver \| select diff [1] as events, round(coalesce(diff [4], 0), 1) as ratio_1d, round(coalesce(diff [5], 0), 1) as ratio_1w from( select compare(events, 86400, 604800) as diff FROM ( select sum("_etl_:connector_metrics.events") as events FROM log ) )`
アラートルールの設定	トリガー条件を [条件式に一致] に設定します。評価式を `(ratio_1d > 1.2 \|\| ratio_1d < 0.8) && (ratio_1w > 1.2 \|\| ratio_1w < 0.8)` に設定します。これにより、日次/週次の増減のしきい値が 20% に設定されます。 [時間範囲] を 1 時間に設定します。 [チェック頻度] を 1 時間に設定します。説明元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。
アラートの解決方法	これらのアラートを解決するには：このメトリックの傾向がソース Logstore のデータ量の増減と一致する場合、その変化はソースデータ量が原因です。そうでない場合は、次の手順に進みます。処理レイテンシーまたは例外に関するアクティブなアラートがある場合は、まずそれらを解決します。