このページでは、ApsaraDB for MongoDB レプリカセットインスタンスで利用可能な CloudMonitor メトリックの一覧を示します。これらのメトリックを活用して、アラートルールの設定およびインスタンスの健全性監視を行ってください。
事前準備
CloudMonitor の API オペレーションを呼び出す際は、以下のパラメーターを設定してください。
Namespace:
acs_mongodbPeriod:60 の整数倍。デフォルト値は
60です。単位:秒。
すべてのメトリックは、共通のディメンション(userId、instanceId、role)および統計量(Maximum、Minimum、Average)をサポートします。
ディメンション
各メトリックは、CloudMonitor データをフィルターするための以下のディメンションをサポートします。
| ディメンション | 説明 |
|---|---|
userId | 特定の Alibaba Cloud アカウントに対応するデータをフィルターします。 |
instanceId | 特定のレプリカセットインスタンスに対応するデータをフィルターします。 |
role | ノードロールに基づいてデータをフィルターします。このディメンションを活用することで、プライマリノードとセカンダリノードを個別に監視できます。 |
リソース使用率メトリック
| アラートルールでのメトリック名 | 指標 | 単位 | MetricName | 説明 |
|---|---|---|---|---|
| CPU 使用率 | cpu_usage | % | CPUUtilization | クエリパフォーマンスの劣化を引き起こす可能性のある継続的な高 CPU 負荷を検出するために監視します。 |
| メモリ使用率 | mem_usage | % | MemoryUtilization | ディスク I/O の増加や OOM(Out of Memory)状態を引き起こす可能性のあるメモリ圧迫を検出するために監視します。 |
| ディスク使用率 | disk_usage | % | DiskUtilization | インスタンスがディスク領域不足により利用不能になることを防止するために監視します。 |
| IOPS 使用率 | iops_usage | % | IOPSUtilization | ディスクスループットがプロビジョニングされた上限に近づいていることを検出するために監視します。 |
| データが占めるディスクサイズ | data_size | バイト | DataDiskAmount | データの成長を追跡し、キャパシティスケーリングの計画立案に役立てます。 |
| インスタンスが占めるディスクサイズ | ins_size | バイト | InstanceDiskAmount | データ、ログ、インデックスを含むインスタンス全体のディスク消費量を把握するために監視します。 |
| ログが占めるディスクサイズ | log_size | バイト | LogDiskAmount | レプリケーションエラーまたは高書き込み負荷によって引き起こされる異常なログ増加を検出するために監視します。 |
接続メトリック
| アラートルールでのメトリック名 | 指標 | 単位 | MetricName | 説明 |
|---|---|---|---|---|
| 使用中の接続数 | current_conn | カウント | ConnectionAmount | ワークロードに対して現在の接続制限が十分かどうかを判断するために監視します。 |
| 接続使用率 | conn_usage | % | ConnectionUtilization | インスタンスが最大接続数に近づいていることを検出するために監視します。 |
トラフィックメトリック
| アラートルールでのメトリック名 | 指標 | 単位 | MetricName | 説明 |
|---|---|---|---|---|
| 内部インバウンドトラフィック | bytes_in | バイト | IntranetIn | データインジェスト率を追跡し、予期しないトラフィックスパイクを検出するために監視します。 |
| 内部アウトバウンドトラフィック | bytes_out | バイト | IntranetOut | データのアウトバウンド流量を追跡し、読み取り中心のワークロードやホットデータへのアクセスパターンを特定するために監視します。 |
操作メトリック
QPS は、挿入(insert)、削除(delete)、更新(update)、クエリ(query)、getmore、コマンド(command)の 6 種類の操作の合計です。
| アラートルールでのメトリック名 | 指標 | 単位 | MetricName | 説明 |
|---|---|---|---|---|
| 1 秒あたりのクエリ数(QPS) | insert+delete+update+query+getmore+command | 回/秒 | QPS | 全体のスループットを監視します。急激な増減は、ワークロードの変化またはインシデントを示唆している可能性があります。 |
| リクエスト数 | num_requests | 回 | NumberRequests | インスタンスに対する累積的な負荷を把握するために、リクエスト総数を監視します。 |
| 挿入操作数 | insert | 回/秒 | OpInsert | 書き込み負荷を追跡するために監視します。更新および削除メトリックと併せて、読み書き比率の分析に活用します。 |
| クエリ操作数 | query | 回/秒 | OpQuery | クエリ中心のワークロードを特定し、インデックス最適化によるパフォーマンス向上の可能性を検討するために監視します。 |
| 更新操作数 | update | カウント/秒 | OpUpdate | 挿入および削除メトリックと併せて、データ変更(mutation)のパターンを理解するために監視します。 |
| 削除操作数 | delete | 回/秒 | OpDelete | アプリケーションのバグやデータパイプラインの問題を示唆する予期しない削除の急増を検出するために監視します。 |
| getMore 操作数 | getmore | 回/秒 | OpGetmore | 大規模な結果セットでメモリを枯渇させる可能性のあるカーソル中心のワークロードを検出するために監視します。 |
| コマンド操作数 | command | 回/秒 | OpCommand | 全体のパフォーマンスに影響を与える可能性のある管理コマンドおよび集約コマンドの実行状況を追跡するために監視します。 |
レプリケーションメトリック
| アラートルールでのメトリック名 | 指標 | 単位 | MetricName | 説明 |
|---|---|---|---|---|
| レプリケーション遅延 | repl_lag | 秒 | ReplicationLag | セカンダリノードがプライマリノードから遅れている状態を検出するために監視します。高い遅延は、調査が必要なレプリケーションの問題を示唆しています。 |