すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-sysom-monitor の有効化と使用

最終更新日:Mar 26, 2026

System Observer Monitoring (SysOM) は、OS カーネルレベルのコンテナ監視手法です。Container Service for Kubernetes (ACK) を使用すると、SysOM に基づいて OS カーネルレベルでコンテナを監視できます。この機能は、コンテナ化アプリケーションのデプロイと移行をより適切に行い、コンテナを監視するのに役立ちます。

前提条件

開始する前に、以下を確認してください。

ack-sysom-monitor が収集するデータ

ack-sysom-monitor は、拡張 Berkeley Packet Filter (eBPF) テクノロジーを使用してノードおよびコンテナのメトリックを収集し、カーネルレベルでメトリックを強化する SysOM コンポーネントです。標準システムメトリックに加えて、Pod カーネルレベル監視およびノードカーネルレベル監視をサポートする拡張メトリックを提供し、システムジッター、遅延、リソースリーク、Pod メモリ例外などの一般的な問題を特定するのに役立ちます。

課金

ack-sysom-monitor を有効にすると、関連コンポーネントが自動的に監視メトリクスを Managed Service for Prometheus に送信します。これらのメトリックは、カスタムメトリックとして課金されます。

この機能を有効化する前に、カスタムメトリックの課金方法を理解するために、課金概要を読みます。料金は、クラスターのサイズおよび実行中のアプリケーションの数によって異なります。リソース使用量のモニタリングと制御を行うには、リソース使用量の表示を参照します。

ack-sysom-monitor の有効化

  1. ARMS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[インテグレーションセンター] をクリックします。

  3. [インテグレーションセンター]」ページの[インフラストラクチャ]セクションで、[SysOM システム監視]を見つけ、クリックします。

  4. [SysOM System Observation] パネルの [統合の開始] ステップで、統合する ACK クラスターを選択し、[OK] をクリックします。

モニタリングデータの表示

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、対象のクラスターを見つけ、その名前をクリックします。 左側のペインで、[操作] > [Prometheus モニタリング] を選択します。

  3. [Prometheus モニタリング] ページで、[SysOM] タブをクリックします。ack-sysom-monitor は 2 つのモニタリングビューをサポートしています:

    • ノードカーネルレベルのモニタリング[SysOM - Nodes] タブで、各ノードの CPU、メモリ、スケジューリング、ストレージ、ネットワークのメトリックを表示できます。image.png

    • Pod カーネルレベルのモニタリング[SysOM - Pods] タブで、各 Pod のメモリ、CPU、ネットワーク、および I/O メトリックをリアルタイムで表示します。 image.png

次のステップ

課金を停止するには、ack-sysom-monitor コンポーネントをアンインストールします。詳細については、「コンポーネントの管理」をご参照ください。

メトリック

ack-sysom-monitor が提供するすべてのメトリックは、Prometheus データモデルに準拠しています。

以下にリストされているすべてのメトリクスタイプは gauge です。

診断シナリオ

以下の表を使用して、症状からメトリックに移動します。

症状関連メトリック
CPU スロットリングまたはスケジューリング遅延sysom_proc_schedstatsysom_cpu_distsysom_container_cpu_statsysom_container_cpu_cfsquota
高負荷または D状態プロセスの多さsysom_proc_stat_counterssysom_proc_loadavg
メモリプレッシャーまたは OOM イベントsysom_proc_vmstatsysom_container_memory_gdrcm_latencysysom_container_memory_cdrcm_latencysysom_container_memory_cpt_latency
ページキャッシュによるメモリジッターsysom_container_memory_filecache
cgroup リークsysom_cgroups
ディスク I/O レイテンシまたはスループットの問題sysom_proc_diskssysom_container_blkio_stat
ネットワークパケット損失または再送sysom_proc_pkt_statussysom_net_retrans_count
高い TCP RTT または接続異常sysom_net_health_histsysom_net_health_countsysom_net_tcp_count
ソケットまたはバッファ枯渇sysom_sock_stat

ノードメトリック

ノードメトリックには、CPU とスケジューリング、メモリ、ストレージ、ネットワーク、およびその他のシステムメトリックが含まれます。

CPU とスケジューリング

メトリック

タイプ

単位

説明

sysom_proc_cpu_total

gauge

%

ノード全体の CPU アップタイムの内訳 (状態別): ユーザーモード、カーネルモード、softirq、hardirq、アイドル、および iowait。このメトリックを使用して、どの状態が CPU 時間を消費しているかを特定します。

sysom_proc_cpus

gauge

%

個々の CPU コアごとの CPU アップタイムの内訳 (状態別): ユーザーモード、カーネルモード、softirq、hardirq、アイドル、および iowait。このメトリックを使用して、コアごとの不均衡を検出します。

sysom_proc_sirq

gauge

%

各 softirq タイプ (HI、TIMER、NET_TX、NET_RX、BLOCK、IRQ_POLL、TASKLET、SCHED、HRTIMER、および RCU) の発生数。NET_RX または NET_TX の急増は、ネットワーク飽和を示す可能性があります。

sysom_proc_stat_counters

gauge

-

実行中または D状態のプロセス数、システム起動時間、およびコンテキストスイッチ数。D状態のカウントが高い場合は、I/O またはロック競合を示します。

sysom_proc_loadavg

gauge

-

1分、5分、および 15分間隔の平均負荷、実行キュー長、および総プロセス数。このメトリックを使用して、持続的な負荷傾向を評価します。

sysom_proc_schedstat

gauge

ns (ナノ秒)

CPU スケジューリングレイテンシ: 実行キューでプロセスが待機する時間、および CPU タイムスライスの長さ。待機時間の増加は、スケジューリングプレッシャーを示します。

sysom_cpu_dist

gauge

-

CPU スケジューリング間隔の分布 — プロセスが CPU を解放してから再度スケジュールされるまでの待機時間。カウントは 1 µs、10 µs、100 µs、1 ms、10 ms、100 ms、および 1 s でバケット化されます。長いテールレイテンシは、スケジューリングジッターを示します。

メモリ

メトリック

タイプ

単位

説明

sysom_proc_meminfo

gauge

KiB

ノードレベルのメモリ使用量 (カテゴリ別): 合計、空き、利用可能、キャッシュ、バッファ、SReclaimable、および SUnreclaim。このメトリックを使用して、全体的なメモリプレッシャーを把握します。

sysom_proc_vmstat

gauge

-

詳細なメモリページ統計とイベント: 空きページ、ダーティページ、読み書きされたページ、非アクティブリストから再利用されたページ、およびメモリ不足 (OOM) キラーの呼び出し。OOM キラーのアクティビティは、重大なメモリ枯渇を示します。

sysom_proc_buddyinfo

gauge

-

カーネルバディシステムアロケーターの状態: 各メモリゾーンとノードにおけるさまざまなサイズの利用可能なブロック。このメトリックを使用して、割り当て失敗を引き起こす可能性のあるメモリ断片化を検出します。

ストレージ

メトリック

タイプ

単位

説明

sysom_proc_disks

gauge

-

ディスクごとおよびパーティションごとの I/O 統計: 読み取り/書き込みリクエスト数とバイト、マージ数、処理中のリクエスト、およびリクエスト完了までの合計時間。このメトリックを使用して、ディスクスループットとレイテンシの問題を診断します。

sysom_fs_stat

gauge

-

マウントされたファイルシステムごとのファイルシステム使用量: ブロックサイズ、使用済みおよび利用可能なブロック、および使用済みおよび利用可能な inode。このメトリックを使用して、障害を引き起こす前にディスクまたは inode 枯渇を捕捉します。

ネットワーク

メトリック

タイプ

単位

説明

sysom_proc_networks

gauge

-

NIC ごとのデータ転送統計: 受信および送信されたパケットとバイト、ドライバーレベルの破棄、および送信/受信エラー。このメトリックを使用して、NIC レベルのパケット損失を検出します。

sysom_proc_pkt_status

gauge

-

ネットワークプロトコルスタックイベント: パケットドロップ、バッファオーバーフロー、およびアサーション失敗。このメトリックを使用して、スタック内でパケットがどこで失われているかを特定します。

sysom_sock_stat

gauge

-

ソケットとバッファの使用量: 総ソケット数、raw、TCP、および UDP ソケット数、TIME_WAIT または孤立状態の TCP ソケット、および TCP/UDP ソケットメモリ使用量。TIME_WAIT または孤立状態のカウントが高い場合は、アプリケーションロジックまたはシステムパラメーターによって引き起こされる接続処理の問題を示す可能性があります。

sysom_softnets

gauge

-

CPU ごとの NIC ソフト割り込み統計: ソフト割り込みごとの受信および送信パケット数、および受信ソフト割り込みを処理するために net_rx_action が呼び出された回数。

sysom_net_health_hist

gauge

-

ノード上のすべての TCP 接続におけるラウンドトリップタイム (RTT) 分布 (10 ms、100 ms、および 1 s でバケット化)。このメトリックを使用して、TCP レイテンシの劣化を検出します。

sysom_net_health_count

gauge

-

ノード上の TCP 接続の平均 RTT。sysom_net_health_hist と同様です。

sysom_net_retrans_count

gauge

-

TCP 再送統計: タイプ別 (SYN、SYN-ACK、RESET) の再送パケット数 (タイムアウトによる再送を含む)。カウントの増加は、ネットワークの不安定性または輻輳を示します。

sysom_net_tcp_count

gauge

-

TCP 接続統計: アクティブ接続数、受信および送信されたセグメント、再送されたセグメント、および受信失敗。

sysom_net_udp_count

gauge

-

UDP 統計: 受信および送信されたパケット、送信/受信バッファエラー、および利用可能なポートがないためにドロップされたパケット。

sysom_net_ip_count

gauge

-

IP レイヤー統計: 転送、受信、および送信されたパケット。

sysom_net_icmp_count

gauge

-

ICMP 統計: 受信および送信されたパケット、および送信/受信失敗。

その他のシステムメトリック

メトリック

タイプ

単位

説明

sysom_cgroups

gauge

-

サブシステム全体で使用中の cgroup の数: CPU、Cpuacct、Memory、Pids、Blkio、および Devices。減少することなく着実に増加するカウントは、cgroup リークを示す可能性があります。

sysom_uptime

gauge

s (秒)

最後の起動からのシステムアップタイム、およびシステムアイドル時間。

コンテナメトリック

コンテナメトリックには、CPU とスケジューリング、メモリ、I/O、およびネットワークメトリックが含まれます。

CPU とスケジューリング

メトリック

タイプ

単位

説明

sysom_container_cpu_stat

gauge

-

cgroup ごとの CPU スロットリング統計: CPU 制限が適用された回数、総適用回数、および適用総期間。このメトリックを使用して、リソースクォータの調整が必要かどうかを判断します。

sysom_container_cpu_acctstat

gauge

%

コンテナタスクの CPU 使用率 (モード別): ユーザー、カーネル、および合計。このメトリックを使用して、コンテナがカーネル空間とユーザースペースで CPU をどのように消費しているかを把握します。

sysom_container_cpu_cfsquota

gauge

-

コンテナ cgroup の完全公平スケジューラ (CFS) 構成。cfs_period_us (各 CFS タイムウィンドウの長さ) と cfs_quota_us (各ウィンドウ内で cgroup が利用可能な最大 CPU 時間) を示します。このメトリックを使用して、CPU 制限が正しく設定されていることを検証します。

メモリ

メトリック

タイプ

単位

説明

sysom_container_memory_stat

gauge

KiB

コンテナのメモリ使用量 (カテゴリ別): 合計、空き、利用可能、キャッシュ、バッファ、SReclaimable、および SUnreclaim。このメトリックを使用して、コンテナごとの全体的なメモリ消費量を評価します。

sysom_container_memory_filecache

gauge

KiB

コンテナごとのページキャッシュ使用量: 最もページキャッシュを消費している上位 10 ファイル、ファイルサイズ、および占有されている総ページキャッシュ。このメトリックを使用して、ページキャッシュの過剰使用がメモリプレッシャー、レイテンシ、またはジッターを引き起こしているコンテナを特定します。

sysom_container_memory_gdrcm_latency

gauge

メモリリソース不足によるメモリ再利用によって引き起こされる遅延。1~5 ms、5~10 ms、10~100 ms、100~500 ms、500~1,000 ms、および 1,000 ms 超の 6 つの範囲で遅延をカウントします。このメトリックを使用して、コンテナパフォーマンスに影響を与えるノードレベルのメモリプレッシャーを検出します。

sysom_container_memory_cdrcm_latency

gauge

メモリ cgroup の不足に起因するメモリ回収による遅延。sysom_container_memory_gdrcm_latency と同じ 6 つの範囲で遅延をカウントします。

Note

このメトリックは、現在のメモリ cgroup が非ルート cgroup であるか、現在のメモリ cgroup にメモリ制限が構成されている場合にのみ有効です。

sysom_container_memory_cpt_latency

gauge

時刻

コンテナ内のプロセスがメモリを要求したが、ノードにメモリが不足しているか、メモリ断片が過剰に存在する場合にトリガーされるカーネルメモリ調整によって引き起こされる遅延。同じ 6 つの範囲で遅延をカウントします。このメトリックを使用して、コンテナ割り当てに影響を与えるメモリ断片化を検出します。

I/O

メトリック

タイプ

単位

説明

sysom_container_blkio_stat

gauge

-

コンテナのディスクのブロック I/O 統計: 読み取り/書き込みリクエスト数とバイト、キューに入れられたリクエスト数とバイト、およびリクエスト待機時間。このメトリックを使用して、コンテナレベルでの I/O ボトルネックを診断します。

ネットワーク

メトリック

タイプ

単位

説明

sysom_container_network_stat

gauge

-

コンテナごとの仮想 NIC データ転送統計: 受信および送信されたパケットとバイト、およびデバイスレベルの破棄。ネットワークプロトコルスタックによってドロップされたパケットは含まれません。