CloudMonitor のレプリカセットメトリクスリファレンス - ApsaraDB for MongoDB - Alibaba Cloud - ApsaraDB for MongoDB

このページでは、ApsaraDB for MongoDB レプリカセットインスタンスで利用可能な CloudMonitor メトリックの一覧を示します。これらのメトリックを活用して、アラートルールの設定およびインスタンスの健全性監視を行ってください。

事前準備

CloudMonitor の API オペレーションを呼び出す際は、以下のパラメーターを設定してください。

Namespace：acs_mongodb
Period：60 の整数倍。デフォルト値は 60 です。単位：秒。

すべてのメトリックは、共通のディメンション（userId、instanceId、role）および統計量（Maximum、Minimum、Average）をサポートします。

ディメンション

各メトリックは、CloudMonitor データをフィルターするための以下のディメンションをサポートします。

ディメンション	説明
`userId`	特定の Alibaba Cloud アカウントに対応するデータをフィルターします。
`instanceId`	特定のレプリカセットインスタンスに対応するデータをフィルターします。
`role`	ノードロールに基づいてデータをフィルターします。このディメンションを活用することで、プライマリノードとセカンダリノードを個別に監視できます。

リソース使用率メトリック

アラートルールでのメトリック名	指標	単位	MetricName	説明
CPU 使用率	cpu_usage	%	CPUUtilization	クエリパフォーマンスの劣化を引き起こす可能性のある継続的な高 CPU 負荷を検出するために監視します。
メモリ使用率	mem_usage	%	MemoryUtilization	ディスク I/O の増加や OOM（Out of Memory）状態を引き起こす可能性のあるメモリ圧迫を検出するために監視します。
ディスク使用率	disk_usage	%	DiskUtilization	インスタンスがディスク領域不足により利用不能になることを防止するために監視します。
IOPS 使用率	iops_usage	%	IOPSUtilization	ディスクスループットがプロビジョニングされた上限に近づいていることを検出するために監視します。
データが占めるディスクサイズ	data_size	バイト	DataDiskAmount	データの成長を追跡し、キャパシティスケーリングの計画立案に役立てます。
インスタンスが占めるディスクサイズ	ins_size	バイト	InstanceDiskAmount	データ、ログ、インデックスを含むインスタンス全体のディスク消費量を把握するために監視します。
ログが占めるディスクサイズ	log_size	バイト	LogDiskAmount	レプリケーションエラーまたは高書き込み負荷によって引き起こされる異常なログ増加を検出するために監視します。

接続メトリック

アラートルールでのメトリック名	指標	単位	MetricName	説明
使用中の接続数	current_conn	カウント	ConnectionAmount	ワークロードに対して現在の接続制限が十分かどうかを判断するために監視します。
接続使用率	conn_usage	%	ConnectionUtilization	インスタンスが最大接続数に近づいていることを検出するために監視します。

トラフィックメトリック

アラートルールでのメトリック名	指標	単位	MetricName	説明
内部インバウンドトラフィック	bytes_in	バイト	IntranetIn	データインジェスト率を追跡し、予期しないトラフィックスパイクを検出するために監視します。
内部アウトバウンドトラフィック	bytes_out	バイト	IntranetOut	データのアウトバウンド流量を追跡し、読み取り中心のワークロードやホットデータへのアクセスパターンを特定するために監視します。

操作メトリック

QPS は、挿入（insert）、削除（delete）、更新（update）、クエリ（query）、getmore、コマンド（command）の 6 種類の操作の合計です。

アラートルールでのメトリック名	指標	単位	MetricName	説明
1 秒あたりのクエリ数（QPS）	insert+delete+update+query+getmore+command	回/秒	QPS	全体のスループットを監視します。急激な増減は、ワークロードの変化またはインシデントを示唆している可能性があります。
リクエスト数	num_requests	回	NumberRequests	インスタンスに対する累積的な負荷を把握するために、リクエスト総数を監視します。
挿入操作数	insert	回/秒	OpInsert	書き込み負荷を追跡するために監視します。更新および削除メトリックと併せて、読み書き比率の分析に活用します。
クエリ操作数	query	回/秒	OpQuery	クエリ中心のワークロードを特定し、インデックス最適化によるパフォーマンス向上の可能性を検討するために監視します。
更新操作数	update	カウント/秒	OpUpdate	挿入および削除メトリックと併せて、データ変更（mutation）のパターンを理解するために監視します。
削除操作数	delete	回/秒	OpDelete	アプリケーションのバグやデータパイプラインの問題を示唆する予期しない削除の急増を検出するために監視します。
getMore 操作数	getmore	回/秒	OpGetmore	大規模な結果セットでメモリを枯渇させる可能性のあるカーソル中心のワークロードを検出するために監視します。
コマンド操作数	command	回/秒	OpCommand	全体のパフォーマンスに影響を与える可能性のある管理コマンドおよび集約コマンドの実行状況を追跡するために監視します。

レプリケーションメトリック

アラートルールでのメトリック名	指標	単位	MetricName	説明
レプリケーション遅延	repl_lag	秒	ReplicationLag	セカンダリノードがプライマリノードから遅れている状態を検出するために監視します。高い遅延は、調査が必要なレプリケーションの問題を示唆しています。