このトピックでは、データ変換ジョブのオペレーションメトリック、データ変換ダッシュボードの表示方法、およびジョブ監視の設定方法について説明します。
メトリックデータ
データ変換 (新バージョン) ジョブの実行メトリックを取得するには、Simple Log Service (SLS) の [ジョブ実行ログ] を有効にする必要があります。 [ジョブ実行ログ] を有効にする方法の詳細については、「サービスログの管理」をご参照ください。
ダッシュボード
データ変換ジョブを作成すると、SLS がジョブの詳細ページにダッシュボードを自動的に追加し、そこでオペレーションメトリックを表示できます。
操作手順
Log Serviceコンソールにログインします。
[プロジェクト] セクションで、管理するプロジェクトをクリックします。
左側のナビゲーションウィンドウで、 を選択します。
-
対象のデータ変換ジョブをクリックし、ステータス セクションでダッシュボードを表示します。
全体的なメトリック
ダッシュボードには、次の主要なメトリックが含まれています:

-
処理レート:データ処理レート。単位はイベント/秒です。 デフォルトでは、このメトリックは 1 時間の期間内の 1 分間のウィンドウで計算されます。
-
ingest:ソース Logstore のすべてのシャードから読み取られたイベント数。
-
deliver:送信先 Logstore に正常に書き込まれたイベント数。
-
失敗:ソース Logstore から読み取られたものの、変換中に失敗したイベント数。
-
-
読み取りイベント合計:ソース Logstore のすべてのシャードから読み取られたイベントの総数。 デフォルトの統計期間は 1 日です。
-
配信イベント合計:すべての送信先 Logstore に正常に書き込まれたイベントの総数。 デフォルトの統計期間は 1 日です。
-
失敗イベント合計:ソース Logstore から読み取られ、変換中に失敗したイベントの総数。 デフォルトの統計期間は 1 日です。
-
イベント配信率:ソース Logstore から読み取られた合計イベント数に対する、送信先 Logstore に正常に配信されたイベントの比率。 デフォルトの統計期間は 1 日です。
シャード詳細
このセクションでは、ジョブがソース Logstore からデータを読み取る際に 1 分間隔で収集されるシャードレベルのメトリックが表示されます。

-
シャード消費レイテンシー (秒):各シャードについて、最新のイベントの取り込み時刻と現在処理中のイベントの取り込み時刻との時間差 (秒) です。 これは処理の遅延を示します。
-
アクティブなシャードの統計:デフォルトの統計期間は 1 時間です。
-
shard:シャードの ID。
-
ingest:シャードから読み取られた未加工イベントの数。
-
失敗:シャードから読み取られ、変換中に失敗した未加工イベントの数。
-
ランタイム例外
エラーの詳細は message フィールドで確認できます。
たとえば、エラー詳細ページのログテーブルには、time、level、action、message の 4 つの列が含まれています。 level が ERROR で action が deliver の場合、message フィールドに {"Code":"InvalidArgs","Message":"failed to get sts token: ...The role not exists: acs:ram::*:role/test-role."} のようなエラーが表示されることがあります。 このメッセージは、指定された RAM ロールが存在しないため、システムが STS トークンの取得に失敗したことを示します。
アラートルール
データ変換ジョブを監視するには、「メトリックデータ」で説明しているオペレーションメトリックを使用します。 SLS のアラート機能を使用して、処理レイテンシー、例外、トラフィックの変更の監視などのシナリオに対するアラートルールを作成できます。 アラート機能の詳細については、「アラート」をご参照ください。 アラートルールを作成するには、「ログベースのアラートルールの作成」をご参照ください。
データ変換ジョブのアラートルールを作成するときは、クエリが、ジョブのオペレーションログが保存されているプロジェクトと Logstore をターゲットにしていることを確認してください。 詳細については、「サービスログの管理」をご参照ください。
[クエリと分析] ダイアログボックスで、[高度な設定] タブをクリックします。 [タイプ] を [Logstore] に、[認可方式] を [デフォルト] に設定します。 ターゲットの [リージョン] を選択し、[project] と [logstore] の名前を入力します。 必要に応じて、[専用 SQL] ( [自動]、[有効]、または [無効] から選択できます) と [時間範囲] を設定します。 その後、[確認] をクリックします。
処理レイテンシーの監視
|
項目 |
説明 |
|
目的 |
データ変換ジョブのシャード消費レイテンシーを監視します。 処理レイテンシーが指定されたしきい値を超えると、アラートがトリガーされます。 |
|
関連するダッシュボードメトリック |
「シャード消費レイテンシー (秒)」をご参照ください。 |
|
分析クエリのサンプル |
次のクエリの
|
|
アラートルールの設定 |
説明
メトリックの定期的更新 (1 分ごと) や急なデータスパイクに起因するレイテンシーによる誤報を避けるため、これらの設定を使用することを推奨します。 |
|
アラートの解決方法 |
これらのアラートを解決するには:
|
処理例外の監視
|
項目 |
説明 |
|
目的 |
データ変換ジョブ中に例外が発生した場合にアラートをトリガーします。 |
|
関連するダッシュボードメトリック |
「ランタイム例外」をご参照ください。 |
|
分析クエリのサンプル |
次のクエリの
|
|
アラートルールの設定 |
|
|
アラートの解決方法 |
エラーメッセージに基づいてトラブルシューティングを行います:
|
書き込みデータ量比率の監視 (期間比較)
|
項目 |
説明 |
|
目的 |
データ配信率 (書き込み量 vs 読み取り量) の期間比較の変動に基づいてアラートをトリガーします。 このルールは、現在の比率を前日および前週の同期間と比較し、変動が設定された増減のしきい値を超えた場合にアラートをトリガーします。 |
|
関連するダッシュボードメトリック |
イベント配信率:ソース Logstore から読み取られた合計イベント数に対する、送信先 Logstore に正常に配信されたイベントの比率。 デフォルトの統計期間は 1 日です。 |
|
分析クエリのサンプル |
アラートルールを作成する際に、**[クエリと分析]** ダイアログボックスに次のクエリを入力します。 次のクエリの
|
|
アラートルールの設定 |
説明
元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。 |
|
アラートの解決方法 |
これらのアラートを解決するには:
|
ソースイベント数の監視 (期間比較)
|
項目 |
説明 |
|
目的 |
データ変換ジョブによって読み取られたイベント数が、前日および前週と比較して大幅に変化した場合にアラートをトリガーします。 イベント数が減少しきい値を下回るか、増加しきい値を超えると、アラートがトリガーされます。 |
|
関連するダッシュボードメトリック |
読み取りイベント合計:ソース Logstore のすべてのシャードから読み取られたイベントの総数。 デフォルトの統計期間は 1 日です。 |
|
分析クエリのサンプル |
アラートルールを作成する際に、**[クエリと分析]** ダイアログボックスに次のクエリを入力します。 次のクエリの
|
|
アラートルールの設定 |
説明
元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。 |
|
アラートの解決方法 |
これらのアラートを解決するには:
|
配信イベント数の監視 (期間比較)
|
項目 |
説明 |
|
目的 |
データ変換ジョブによって書き込まれたイベント数が、前日および前週と比較して大幅に変化した場合にアラートをトリガーします。 イベント数が減少しきい値を下回るか、増加しきい値を超えると、アラートがトリガーされます。 |
|
関連するダッシュボードメトリック |
配信イベント合計 |
|
分析クエリのサンプル |
アラートルールを作成する際に、**[クエリと分析]** ダイアログボックスに次のクエリを入力します。 次のクエリの
|
|
アラートルールの設定 |
説明
元のデータトラフィックの周期的な変動による誤報を避けるため、日次/週次の増減しきい値を少なくとも 20% に設定するか、元のデータトラフィックの周期に合わせて比較期間を調整することを推奨します。 |
|
アラートの解決方法 |
これらのアラートを解決するには:
|