すべてのプロダクト
Search
ドキュメントセンター

Simple Log Service:データ変換タスクの監視とモニタリング (新バージョン)

最終更新日:Nov 13, 2025

このトピックでは、データ変換タスク (新バージョン) の実行時メトリック、データ変換ダッシュボードの表示方法、およびタスク監視の設定方法について説明します。

メトリックデータ

データ変換タスク (新バージョン) のメトリックを表示するには、SLS で [タスク実行ログ] を有効にする必要があります。[タスク実行ログ] を有効にする方法の詳細については、「サービスログの管理」をご参照ください。

ダッシュボード

データ変換タスクを作成すると、Simple Log Service はタスク用のダッシュボードを自動的に作成します。このダッシュボードはタスク詳細ページで利用でき、タスクのメトリックを表示できます。

手順

  1. Simple Log Service コンソールにログインします。

  2. [プロジェクト] セクションで、目的のプロジェクトをクリックします。

    image

  3. 左側のナビゲーションウィンドウで、[ジョブ管理] > [データ変換] を選択します。

  4. ターゲットのデータ変換タスクをクリックします。[実行ステータス] セクションで、ダッシュボードを表示します。

概要メトリック

次のセクションでは、概要メトリックについて説明します。

image.png

  • 処理レート: デフォルトの統計期間は 1 時間、統計ウィンドウは 1 分です。レートは、1 秒あたりのデータ入力数で測定されます。

    • ingest: ソース Logstore のシャードから読み取られたデータエントリの数。

    • deliver: 宛先 Logstore に正常に書き込まれたデータエントリの数。

    • failed: ソース Logstore のシャードから読み取られたが、処理に失敗したデータエントリの数。

  • 読み取りログ合計: ソース Logstore のシャードから読み取られたデータエントリの総数。デフォルトの統計期間は 1 日です。

  • 書き込みログ合計: すべての宛先 Logstore に正常に書き込まれたデータエントリの総数。デフォルトの統計期間は 1 日です。

  • 失敗ログ合計: ソース Logstore のシャードから読み取られたが、処理に失敗したデータエントリの総数。デフォルトの統計期間は 1 日です。

  • 書き込み成功率: 宛先 Logstore に正常に配信されたデータエントリの数と、ソース Logstore から読み取られたデータエントリの数の比率。デフォルトの統計期間は 1 日です。

シャード詳細分析

このセクションでは、データ変換タスクがデータを読み取る各シャードのメトリックを提供します。メトリックは 1 分のウィンドウ内で計算されます。

image.png

  • シャード消費レイテンシー (秒): 最後のデータエントリがシャードに書き込まれた時刻と、データ変換タスクがそのシャードからデータを処理する時刻との差 (秒単位)。

  • アクティブなシャードの統計: デフォルトの統計期間は 1 時間です。

    • shard: 監視対象のシャードの ID。

    • ingest: シャードから読み取られた生データエントリの数。

    • failed: シャードから読み取られたが、処理に失敗した生データエントリの数。

実行時例外

message フィールドで実行時エラーの詳細を表示できます。

image.png

アラートルール

データ変換タスク (新バージョン) の監視は、タスクの実行時メトリックに依存します。詳細については、「メトリックデータ」をご参照ください。Simple Log Service のアラート機能を使用してタスクを監視できます。詳細については、「アラート」をご参照ください。このセクションでは、処理レイテンシー、処理エラー、処理トラフィック (絶対値と相対値の両方) の監視ルールなど、データ変換タスク (新バージョン) のアラートルールについて説明します。アラートルールの作成方法の詳細については、「ログベースのアラートルールの作成」をご参照ください。

重要

データ変換タスク (新バージョン) のアラートルールを作成する場合、クエリで指定されたプロジェクトと Logstore は、タスク実行ログが保存されているものと同じである必要があります。タスク実行ログの保存方法の詳細については、「サービスログの管理」をご参照ください。

image

処理レイテンシーの監視

項目

説明

目的

データ変換タスクのシャード消費レイテンシーを監視します。処理レイテンシーが指定されたしきい値を超えると、アラートがトリガーされます。

関連ダッシュボード

詳細については、「シャード消費レイテンシー」をご参照ください。

サンプル分析 SQL

次のテンプレートで、{job_name} を監視したいデータ変換タスク (新バージョン) の名前に置き換えます。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": ingest
| select
  split_part(
    "_etl_:connector_meta.task_name",
    '#',
    2
  ) as shard,
  max_by("_etl_:connector_metrics.lags", __time__) as lags
group by
  shard
having
  shard is not null
limit
  all

監視ルール

  • [トリガー条件][データ一致] に設定します。評価式は lags>120 です。レイテンシー監視のしきい値は 120 秒です。

  • クエリ間隔: 5 分。

  • チェック頻度: 5 分。

説明

1 分ごとのメトリック更新やトラフィックのバーストによるレイテンシーによって引き起こされる誤検知を防ぐために、上記のようにルールを設定します。

解決策

この問題を解決するには、次の手順に従います。

  1. データ変換タスクが既存データを処理中で、作成されたばかりの場合は、データの処理に時間が必要です。1 時間待ってから、レイテンシーがアラートのしきい値内に収まるかどうかを確認します。収まらない場合は、次のステップに進みます。

  2. ソース Logstore のデータ量が大幅に増加した場合:

    • [処理レート (イベント/秒)] が増加し、[シャード消費レイテンシー (秒)] が減少する場合、データ変換タスクは増加したデータ量を処理するためにリソースを自動的にスケールアウトしています。5 分待ってから、レイテンシーがアラートのしきい値内に収まるかどうかを確認します。収まらない場合は、次のステップに進みます。

    • [処理レート (イベント/秒)] が増加しないか、[シャード消費レイテンシー (秒)] が上昇し続ける場合、ソース Logstore のシャード数が不足している可能性があります。これにより、データ変換タスクのリソースのスケールアウトが制限されます。ソース Logstore のシャードを手動で分割する必要があります。詳細については、「シャードの管理」をご参照ください。シャードを分割した後、5 分待ってから、レイテンシーがアラートのしきい値内に収まるかどうかを確認します。収まらない場合は、次のステップに進みます。

  3. 処理エラーアラートがアクティブな場合は、まずそれを解決します。エラーが解決された後、5 分待ってから、レイテンシーがアラートのしきい値内に収まるかどうかを確認します。

処理エラーの監視

項目

説明

目的

データ変換タスクの処理エラーを監視します。処理エラーが発生すると、アラートがトリガーされます。

関連ダッシュボード

詳細については、「実行時例外」をご参照ください。

サンプル分析 SQL

次のテンプレートで、{job_name} を監視したいデータ変換タスク (新バージョン) の名前に置き換えます。

__topic__: etl_metrics and 
job_name: {job_name} and 
"_etl_:connector_metrics.error": *
| select
  distinct "_etl_:connector_metrics.error" as errors

監視ルール

  • [トリガー条件][データあり] に設定します。

  • クエリ間隔: 10 分

  • チェック頻度: 10 分。

解決策

エラーメッセージに基づいて問題を解決します。

  • エラーメッセージに "Invalid SPL query" が含まれている場合、データ変換タスクに設定された SPL ルールに構文エラーがあります。エラーメッセージに基づいてルールを修正します。詳細については、「SPL 構文」をご参照ください。

  • エラーメッセージに "Unauthorized"、"InvalidAccessKeyId"、または "SignatureNotMatch" が含まれている場合、データ変換タスクにはソース Logstore からデータを読み取るか、宛先 Logstore にデータを書き込むための権限が不足しています。詳細については、「認可」をご参照ください。

  • エラーメッセージに "ProjectNotExist" または "LogStoreNotExist" が含まれている場合、データ変換タスクに関係するプロジェクトまたは Logstore が存在しません。Simple Log Service コンソールにログインして、問題を確認し解決します。

書き込みデータ量比率 (比較) の監視

項目

説明

目的

宛先 Logstore に書き込まれた処理済みデータと、ソース Logstore から読み取られた生データの比率を監視します。比率が指定された前日比または前週比のしきい値を超えて増減した場合にアラートがトリガーされます。

関連ダッシュボード

書き込み成功率: 宛先 Logstore に正常に配信されたデータエントリの数と、ソース Logstore から読み取られたデータエントリの数の比率。デフォルトの統計期間は 1 日です。

サンプル分析 SQL

アラートルールを作成するための [クエリと統計] ダイアログボックスに、次の SQL 文を入力します。

次のテンプレートで、{job_name} を監視したいデータ変換タスク (新バージョン) の名前に置き換えます。

__topic__: etl_metrics and 
job_name: {job_name}
| select
  round(diff [1], 1) as percent,
  round(coalesce(diff [4], 0), 1) as ratio_1d,
  round(coalesce(diff [5], 0), 1) as ratio_1w
from(
    select
      compare(percent, 86400, 604800) as diff
    FROM      (
        select
          deliver /(ingest + 0.0001) as percent
        from(
            select
              sum(
                if(
                  "_etl_:connector_meta.action" = 'ingest',
                  "_etl_:connector_metrics.native_bytes",
                  0
                )
              ) as ingest,
              sum(
                if(
                  "_etl_:connector_meta.action" = 'deliver',
                  "_etl_:connector_metrics.native_bytes",
                  0
                )
              ) as deliver
            FROM              log
          )
      )
  )

監視ルール

  • [トリガー条件][データ一致] に設定します。評価式は (ratio_1d>1.2 || ratio_1d<0.8) && (ratio_1w>1.2 || ratio_1w<0.8) です。前日比および前週比の増減しきい値は両方とも 0.2 です。

  • クエリ間隔: 1 時間

  • チェック頻度: 1 時間。

説明

生データのトラフィックの周期的な変動による誤検知を防ぐために、前日比および前週比の増減しきい値を少なくとも 20% に設定するか、比較期間を生データのトラフィックサイクルに合わせて調整します。

解決策

この問題を解決するには、次の手順に従います。

  1. ソース Logstore のデータ量が変化した場合、新しいパターンのデータが取り込まれたか、または特定のパターンのデータのストリーミングが停止したかを確認します。これが当てはまり、結果として生じるデータの変化が現在のルールのメトリックと一致する場合、その変化はソース Logstore のデータパターンのシフトによって引き起こされたものです。そうでない場合は、次のステップに進みます。

  2. 処理レイテンシーアラートまたは処理エラーアラートがアクティブな場合は、まずそれを解決します。

ソースデータ読み取り量 (比較) の監視

項目

説明

目的

データ変換タスクによって読み取られるデータ量を監視します。量が指定された前日比または前週比のしきい値を超えて増減した場合にアラートがトリガーされます。

関連ダッシュボード

読み取りログ合計: ソース Logstore のシャードから読み取られたデータエントリの総数。デフォルトの統計期間は 1 日です。

サンプル分析 SQL

アラートルールを作成するための [クエリと統計] ダイアログボックスに、次の SQL 文を入力します。

次のテンプレートで、{job_name} を監視したいデータ変換タスク (新バージョン) の名前に置き換えます。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": ingest
| select
  diff [1] as events,
  round(coalesce(diff [4], 0),  1) as ratio_1d,
  round(coalesce(diff [5], 0),  1) as ratio_1w
from(
    select
      compare(events, 86400, 604800) as diff
    FROM      (
        select
          sum("_etl_:connector_metrics.events") as events
        FROM          log
      )
  )

監視ルール

  • [トリガー条件][データ一致] に設定します。評価式は (ratio_1d>1.2 || ratio_1d<0.8) && (ratio_1w>1.2 || ratio_1w<0.8) です。前日比および前週比の増減しきい値は両方とも 20% です。

  • クエリ間隔: 1 時間

  • チェック頻度: 1 時間。

説明

生データのトラフィックの周期的な変動による誤検知を防ぐために、前日比および前週比の増減しきい値を少なくとも 20% に設定するか、比較期間を生データのトラフィックサイクルに合わせて調整します。

解決策

この問題を解決するには、次の手順に従います。

  1. この値の傾向がソース Logstore のデータ量の増減と一致する場合、その変化はソースデータ量によって引き起こされたものです。そうでない場合は、次のステップに進みます。

  2. 処理レイテンシーアラートまたは処理エラーアラートがアクティブな場合は、まずそれを解決します。

結果書き込み量 (比較) の監視

項目

説明

目的

データ変換タスクによって書き込まれるデータ量を監視します。量が指定された前日比または前週比のしきい値を超えて増減した場合にアラートがトリガーされます。

関連ダッシュボード

書き込みログ合計: すべての宛先 Logstore に正常に書き込まれたデータエントリの総数。デフォルトの期間は 1 日です。

サンプル分析 SQL

アラートルールを作成するための [クエリと統計] ダイアログボックスに、次の SQL 文を入力します。

次のテンプレートで、{job_name} を監視したいデータ変換タスク (新バージョン) の名前に置き換えます。

__topic__: etl_metrics and 
job_name: {job_name} and
"_etl_:connector_meta.action": deliver
| select
  diff [1] as events,
  round(coalesce(diff [4], 0),  1) as ratio_1d,
  round(coalesce(diff [5], 0),  1) as ratio_1w
from(
    select
      compare(events, 86400, 604800) as diff
    FROM      (
        select
          sum("_etl_:connector_metrics.events") as events
        FROM          log
      )
  )

監視ルール

  • [トリガー条件][データ一致] に設定します。評価式は (ratio_1d>1.2 || ratio_1d<0.8) && (ratio_1w>1.2 || ratio_1w<0.8) です。前日比および前週比の増減しきい値は両方とも 20% です。

  • クエリ間隔: 1 時間

  • チェック頻度: 1 時間。

説明

生データのトラフィックの周期的な変動による誤検知を防ぐために、前日比および前週比の増減しきい値を少なくとも 20% に設定するか、比較期間を生データのトラフィックサイクルに合わせて調整します。

解決策

この問題を解決するには、次の手順に従います。

  1. この値の傾向がソース Logstore のデータ量の増減と一致する場合、その変化はソースデータ量によって引き起こされたものです。そうでない場合は、次のステップに進みます。

  2. 処理レイテンシーアラートまたは処理エラーアラートがアクティブな場合は、まずそれを解決します。