Nacos エンジンが大規模なサービス登録、構成ディストリビューション、プッシュ通知を処理する場合、パフォーマンスボトルネック、キャパシティ制限、インフラストラクチャの健全性についてリアルタイムで可視化する必要があります。マイクロサービスエンジン (MSE) のモニタリングセンターは、8 つのカテゴリにわたるメトリクスを一元的に追跡するダッシュボードを提供するため、異常を早期検出し、サービスへの影響が発生する前に問題を解決できます。
前提条件
開始する前に、以下の条件を満たしていることを確認してください。
Nacos エンジン(バージョン 2.0.4 以降)が実行中であること
ダッシュボードの選択
MSE では、2 種類のモニタリングダッシュボードが提供されています。より多くのメトリクスをカバーする Grafana ダッシュボードを推奨します。
| ダッシュボード | メトリクスのカバー範囲 | デフォルトの時間範囲 | 推奨対象 |
|---|---|---|---|
| Grafana ダッシュボード | 専用タブで 8 つのメトリクスカテゴリをカバー | 直近 15 分間 | Professional Edition をご利用のすべてのユーザー |
| レガシダッシュボード | 基本的な 3 つのメトリクス(サービス数、プロバイダー数、書き込み RT) | 直近 30 分間 | まだアップグレードを行っていないユーザー |
エンジンが依然としてレガシダッシュボードを使用している場合は、完全な可観測性を確保するために、Grafana ダッシュボードへのアップグレードを行ってください。
Grafana ダッシュボードの有効化
Basic Edition エンジン
Grafana ダッシュボードは、エンジンを Professional Edition にアップグレードすると自動的に有効化されます。詳細については、「Nacos バージョンのアップグレード」をご参照ください。
Professional Edition エンジン(バージョン 2.0.3 以前)
エンジンがバージョン 2.0.3 以前を実行している場合は、Grafana ダッシュボードを手動で有効化します。
MSE コンソールにログインし、上部ナビゲーションバーからリージョンを選択します。
左側ナビゲーションウィンドウで、マイクロサービスレジストリ > インスタンス を選択します。
対象となるインスタンスの名前をクリックします。
左側ナビゲーションウィンドウで、観察分析 をクリックします。
モニタリングダッシュボードのアップグレード をクリックし、画面上の指示に従います。

アップグレードが完了すると、モニタリングセンター ページが利用可能になります。
Grafana ダッシュボードの使用方法
Grafana ダッシュボードでは、目的別に設計されたタブでメトリクスが整理されています。概要 タブから異常を検出し、その後、特定の原因を調査するために関連するタブに移動します。
| 調査目的 | 開始位置 |
|---|---|
| 迅速なヘルスチェック | 概要 および Top N モニタリング |
| サービス登録に関する問題 | レジストリ監視 および プッシュ監視 |
| 構成に関する問題 | 構成センター監視 |
| インフラストラクチャの問題 | JVM 監視 および リソース監視 |
| 接続に関する問題 | 接続数監視 |
モニタリングセンターの開き方
MSE コンソールにログインし、上部ナビゲーションバーからリージョンを選択します。
左側ナビゲーションウィンドウで、マイクロサービスレジストリ > インスタンス を選択します。
インスタンス ページで、対象となるインスタンスの名前をクリックします。
左側ナビゲーションウィンドウで、モニタリングセンター をクリックします。
ダッシュボードのコントロール
時間範囲: デフォルトのモニタリング期間は直近 15 分間です。変更するには、右上隅の時間範囲セレクターをクリックし、事前設定またはカスタム範囲を選択します。
データ粒度: チャート上の任意のポイントにマウスオーバーすると、その時点におけるノードごとのメトリクス値(分単位の精度)が表示されます。
更新: 右上隅の
アイコンをクリックして、現在のデータを再読み込みします。
概要タブ
概要 タブでは、エンジンの健全性について高レベルなサマリーが提供されます。日常的な点検やインシデントの初期診断時に最初に確認するタブとしてご利用ください。
概要セクション
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| ノード数 | クラスター内のエンジンノードの合計数 | 急激な減少はノード障害を示唆します。期待されるクラスターサイズと一致することを確認してください。 |
| 構成数 | エンジンが管理する構成エントリの合計数 | 予期しない変更は、不正な構成更新を示唆する可能性があります。 |
| サービスプロバイダー数 | 登録済みのサービスプロバイダーインスタンスの合計数 | 急激な減少は、プロバイダーインスタンスが意図せず登録解除されていることを示唆しており、デプロイメントの問題やネットワーク障害の可能性があります。 |
| クエリ/秒 | 読み取りリクエストのスループット(QPS) | ベースラインを超える急増はトラフィックスパイクを示唆します。ゼロへの低下はエンジンの可用性喪失を示唆します。 |
| 操作/秒 | 書き込みリクエストのスループット(TPS) | 持続的な急増は、一括更新または異常なクライアント動作を示唆します。 |
| 接続数 | エンジンへのアクティブなクライアント接続数 | ベースラインと比較してください。急激な減少はネットワークパーティショニングを示唆します。 |
使用レベル セクション
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| 水位による設定数 | 構成数がエンジンのキャパシティに対して占める割合 | 100 % に近づく値は、エンジンがキャパシティ制限に達しつつあることを意味します。飽和前にエンジン仕様のアップグレードを実施してください。 |
| サービスプロバイダー水準 | サービスプロバイダー数がエンジンのキャパシティに対して占める割合 | 上記と同じです。使用率が継続的に高い場合は、キャパシティのアップグレードを検討してください。 |
| 水位を用いた接続 | 接続数がエンジンのキャパシティに対して占める割合 | 上記と同じです。接続数の使用率が高いと、新規クライアントが接続できなくなる可能性があります。 |
Eureka クライアントは短時間接続のみをサポートするため、Eureka ベースのアプリケーションでは接続数は報告されません。
レジストリ監視タブ
レジストリ監視 タブでは、サービス登録およびサービス検出のパフォーマンスを追跡します。サービス検出の遅延、登録失敗、またはキャパシティの問題を診断する際にご利用ください。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| サービス数 | 登録済みのサービスの合計数 | 急激な減少は、サービスが予期せず登録解除されていることを示唆します。 |
| サービスプロバイダー数 | サービスプロバイダーインスタンスの合計数 | 期待されるデプロイメント規模と比較してください。不一致は登録失敗を示唆します。 |
| サービスサブスクライバー数 | サービスサブスクライバーインスタンスの合計数 | 急激な増加は、誤設定されたクライアントによるサブスクライバーストームを示唆する可能性があります。 |
| 登録センター TPS | 登録操作に対する書き込みトランザクション/秒 | 持続的な急増と書き込み RT の上昇が同時に発生している場合、リソース競合が発生しています。 |
| 登録センター QPS | 検出操作に対する読み取りクエリ/秒 | この指標の急増は、新規デプロイメントやスケーリングイベントに伴うサービス検出リクエストの増加と相関します。 |
| 登録センター書き込み RT | 書き込み操作の平均応答時間 | 書き込みレイテンシーの上昇は調査が必要です。リソース監視 および JVM 監視 タブを確認し、ボトルネックの原因を特定してください。 |
| 登録センター リアルタイム読み取り | 読み込み操作の平均応答時間 | 書き込み RT と同様です。読み込みレイテンシーの上昇は、負荷の増加またはガーベジコレクションの圧力が原因である可能性があります。 |
Nacos 2.0.4 以降では、Diamond プロトコル(アプリケーション構成管理)を用いたアドレス検出のために、4 つの組み込みサービスが含まれています。ここに表示されるサービス数およびプロバイダー数は、実際の値に 4 を加算したものです。
Eureka クライアントはサービスサブスクリプションをサポートせず、代わりにポーリングクエリを使用します。Eureka ベースのアプリケーションでは、サービスサブスクライバー数は報告されません。
構成センター監視タブ
構成センター監視 タブでは、構成管理のパフォーマンスを追跡します。構成プッシュの遅延、リスナーの蓄積、書き込みボトルネックを調査する際にご利用ください。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| 構成数 | 構成エントリの合計数 | 急激な変化は、一括インポートまたは誤った削除を示唆する可能性があります。 |
| リスナー数の構成 | すべてのエントリにわたる構成リスナーの合計数 | 急増は通常、一括デプロイメントの展開に対応します。持続的な高リスナー数は、プッシュのオーバーヘッドを増加させます。 |
| 構成センター TPS | 構成変更に対する書き込みトランザクション/秒 | 急増と書き込み RT の上昇が同時に発生している場合、エンジンが書き込み負荷下にあります。 |
| 構成センター QPS | 構成照会に対する読み取りクエリ/秒 | 高い QPS は、クライアントがプッシュベースの更新ではなく、過剰に積極的なポーリングを行っていることを示唆します。 |
| 構成センター書き込み RT | 構成書き込みの平均応答時間 | 正常な値は数ミリ秒程度です。値の上昇はリソース競合を示唆します。 |
| 構成センター読み込み RT | 構成読み込みの平均応答時間 | 書き込み RT と同様です。 |
プッシュ監視タブ
プッシュ監視 タブでは、エンジンがサービス変更通知をサブスクライバーに効果的にプッシュする状況を追跡します。健全なプッシュパイプラインは、サービス検出の応答性にとって極めて重要です。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| サービスプッシュ成功確率 | 正常に配信されたプッシュ通知の割合 | 100 % を下回る場合は、直ちに調査が必要です。接続数監視 タブを確認し、接続性の問題がないかを確認したうえで、サブスクライバーが到達可能であることを検証してください。 |
| 時間のかかるサービスプッシュ | プッシュ通知ごとの平均レイテンシー | レイテンシーの上昇は、ネットワーク輻輳または過負荷状態のサブスクライバークライアントを示唆します。 |
| サービスプッシュ TPS | 1 秒あたりに送信されるプッシュ通知数 | デプロイメントまたはスケーリングイベントと相関します。対応するイベントなしに持続的な急増が見られる場合、プッシュストームが発生している可能性があります。 |
| サービス空き割合 | 空のサービスリストを含むプッシュの割合 | ゼロでない比率は、サービスが予期せず登録解除されていることを示唆します。レジストリ監視 タブを確認し、プロバイダー数を検証してください。 |
Eureka クライアントはプッシュベースの通知ではなくポーリングクエリを使用するため、Eureka ベースのアプリケーションではプッシュメトリクスは利用できません。
接続数監視タブ
接続数監視 タブでは、クライアントとエンジン間の接続性を追跡します。接続切断、バージョンの不整合、ネットワークの問題を診断する際にご利用ください。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| クライアントバージョン数 | エンジンに接続している Nacos クライアントのバージョン分布 | 複数の古いバージョンが存在する場合、デプロイメントの一貫性に問題がある可能性があります。互換性の問題を回避するために、クライアントバージョンを標準化してください。 |
| 長リンクの数 | クライアントとエンジン間のアクティブな永続的(長時間)接続数 | 減少はネットワークの問題またはクライアント側の障害を示唆します。リソース監視 タブと併せて、ネットワークトラフィックの異常を確認してください。 |
Eureka クライアントは短時間接続のみをサポートするため、Eureka ベースのアプリケーションでは接続メトリクスは報告されません。
JVM 監視タブ
JVM 監視 タブでは、エンジンの Java 仮想マシン(JVM)に関するガーベジコレクション(GC)およびメモリメトリクスを公開します。GC 圧力またはメモリ枯渇によって引き起こされるレイテンシースパイクを診断する際にご利用ください。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| Young GC 時間 | 若年世代ガーベジコレクションに費やされた総時間 | 持続的な増加は、オブジェクト割り当て率の上昇と相関します。 |
| Young GC 回数 | 若年世代 GC イベントの発生回数 | 負荷下では頻繁な若年世代 GC は正常ですが、急激な増加はメモリリークまたはトラフィックスパイクを示唆します。 |
| フル GC 時間 | フルガーベジコレクションに費やされた総時間 | フル GC は「Stop-the-world」の一時停止を引き起こします。頻繁なフル GC は直接的に応答時間を増加させます。 |
| フル GC 回数 | フル GC イベントの発生回数 | フル GC は「Stop-the-world」の一時停止を引き起こします。頻繁なフル GC は直接的に応答時間を増加させます。このメトリクスが継続的に高水準である場合は、エンジン仕様のアップグレードを検討してください。 |
| ヒープメモリ使用率 | ヒープメモリの使用率(パーセント) | ヒープメモリ使用率が高いと、GC 頻度および応答時間が増加します。使用率が継続的に高い場合は、エンジン仕様のアップグレードを検討してください。 |
リソース監視タブ
リソース監視 タブでは、エンジンノードのインフラストラクチャレベルのメトリクスを提供します。パフォーマンスの問題がリソース制約によって引き起こされているかどうかを判断する際にご利用ください。
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| 流入フロー | インバウンドネットワークトラフィック | 急激な急増はトラフィックスパイクを示唆します。 |
| アウトレットフロー | アウトバウンドネットワークトラフィック | プッシュ TPS と相関します。プッシュ成功確率が低い状態での高いアウトバウンドトラフィックは、ネットワークの飽和を示唆します。 |
| メモリ使用率 | システムメモリの使用率 | 持続的な高使用率は、エンジン仕様のアップグレードが必要であることを示唆します。 |
| CPU 使用率 | CPU 使用率 | 持続的な高使用率は、エンジン仕様のアップグレードが必要であることを示唆します。 |
| ノード数 | クラスター内の現在のノード数 | 減少はノード障害を示唆します。 |
| 負荷インジケーター | システム負荷平均 | CPU コア数に対する負荷平均が高くなると、エンジンが過負荷状態である可能性があります。 |
Top N モニタリングタブ
Top N モニタリング タブでは、最もアクティブなサービスおよび構成がハイライト表示されます。不釣り合いなリソース消費を引き起こすホットスポットを特定する際にご利用ください。
サービス Top N ダッシュボード
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| サービスプロバイダー数 TopN | プロバイダーインスタンス数が最も多いサービス | 単一のサービスが支配的である場合、そのサービスをより小さなサービスに分割することを検討してください。 |
| サービスサブスクライバー数 TopN | サブスクライバーインスタンス数が最も多いサービス | 単一のサービスに過剰なサブスクライバーが集中すると、プッシュのオーバーヘッドが増加します。 |
| IP プッシュ失敗回数 TopN | プッシュ通知失敗回数が最も多いクライアント IP | 繰り返し出現する IP は、ネットワークまたは構成の問題を抱える特定のクライアントを示唆します。 |
TopN ダッシュボードの設定
| メトリクス | 測定内容 | 確認すべきポイント |
|---|---|---|
| 構成変更回数 TopN | 変更頻度が最も高い構成 | 単一の構成に対する頻繁な変更は、誤設定された自動化パイプラインを示唆する可能性があります。 |
| リスナー数の構成 TopN | リスナー数が最も多い構成 | リスナー数が過剰な構成は、プッシュのオーバーヘッドを増加させます。可能な場合は、構成の分割を検討してください。 |
高度な機能
Managed Service for Grafana との統合
高度な可観測性を実現するには、右上隅の Grafana Expert Edition の使用 をクリックして、Managed Service for Grafana コンソールを開きます。これにより、マルチテナント対応の Grafana ダッシュボードおよび追加の可視化・アラート機能を利用できます。
モニタリングページの埋め込み
外部のダッシュボードまたはポータルに特定のモニタリングタブを埋め込むには、右上隅の 新しいウィンドウで開く XX(XX はタブ名)をクリックします。これにより、共有可能な URL を持つ独立したページで該当タブが開きます。
たとえば、レジストリ監視 タブで 新しいウィンドウで開く レジストリ監視 をクリックすると、レジストリ監視ビューが別のブラウザタブで開きます。
レガシダッシュボードの使用方法
Grafana ダッシュボードが有効化されていない場合、レガシダッシュボードでは限定的なメトリクスが提供されます。モニタリング機能の完全なセットを利用するには、Grafana ダッシュボードへのアップグレードを行ってください。
MSE コンソールにログインし、上部ナビゲーションバーからリージョンを選択します。
左側ナビゲーションウィンドウで、マイクロサービスレジストリ > インスタンス を選択します。
インスタンス ページで、対象となるインスタンスの名前をクリックします。
左側ナビゲーションウィンドウで、観察分析 をクリックします。
モニタリング タブをクリックします。以下のメトリクスが表示されます。
メトリクス 測定内容 サービス数 登録済みのサービスの合計数 サービスプロバイダー数 サービスプロバイダーインスタンスの合計数 サービス書き込みインターフェイスの平均応答時間 (RT) (ms) 平均書き込みレイテンシー(ミリ秒)
レガシダッシュボードのコントロール:
時間範囲: デフォルトのモニタリング期間は直近 30 分間です。事前設定オプションには、直近 30 分間、直近 1 時間、直近 6 時間、直近 24 時間 があります。カスタム時間範囲もサポートされています。
ノードフィルタリング: エンジンの 3 つのノードのモニタリングデータが異なる色で表示されます。チャートの凡例でノード名をクリックすると、該当ノードのデータを表示または非表示にできます。少なくとも 1 つのノードは常に表示される必要があります。
データ粒度: チャート上の任意のポイントにマウスオーバーすると、その時点における 3 つのノードのメトリクス値(分単位の精度)が表示されます。
更新: 右上隅の
アイコンをクリックして、現在のデータを再読み込みします。