Cloud Monitor 経由で Prometheus で ECS ホストを監視 - Cloud Monitor

Managed Service for Prometheus は、Node Exporter を使用して Linux または Windows を実行する ECS インスタンスからオペレーティングシステムのメトリックを収集し、Process Exporter を使用してプロセスモニタリングデータを収集できます。テキストファイルからカスタムモニタリングメトリックを収集することもできます。このサービスは、CloudMonitor のエージェントレスメトリック、オープンソースの Exporter エージェントメトリック、ホスト監査ログ、ホストイベントなどのソースからのデータに基づいて、すぐに使用できる包括的な ECS 可観測性ダッシュボードとアラートルールを提供します。

前提条件

ホストモニタリングの利点

Managed Service for Prometheus のホストモニタリング機能は、Alibaba Cloud ECS サーバーに対して効率的で管理しやすいモニタリングソリューションを提供します。このソリューションは、現代のクラウドコンピューティング環境の可観測性と自動化された管理要件を満たします。

Managed Service for Prometheus のホストモニタリング機能を使用すると、ECS サーバー、自己管理データセンター内のサーバー、他のクラウドプロバイダーのサーバーなど、あらゆるタイプのホストを統合できます。ECS サーバーの場合、このサービスはさまざまなオープンソースの Exporter を自動的にインストールし、収集構成を生成できます。Managed Prometheus Agent は自動的にデータを収集します。収集されたデータは、一元的に保存、表示され、アラートに使用されます。Alibaba Cloud 外部のホストでは、自動サービス検出は利用できません。これらのホストでは、Alibaba Cloud 収集エージェントを手動でインストールして、モニタリングデータを Managed Service for Prometheus に送信する必要があります。

利点	説明
数秒でのホスト検出	適応性: 自動サービス検出メカニズムにより、モニタリングシステムはクラウドリソースの変更に迅速に適応できます。これにより、実行中のすべてのインスタンスがタイムリーに監視されることが保証されます。多様性: さまざまなシナリオでのモニタリングニーズを満たすために、複数のサービス検出メソッドがサポートされています。たとえば、Kubernetes クラスター内のサービスの自動検出や、他のタイプのクラウドサービスの統合がサポートされています。
数秒での Exporter のインストール	プラグアンドプレイ: Exporter は自動的にインストールできます。これにより、モニタリングシステムは新しく開始された計算ノードをすぐに識別し、手動操作なしで計算ノードのメトリックを収集できます。包括的なモニタリング: Node-exporter、Process-exporter、GPU-exporter、ミドルウェアエクスポーターなど、複数のエクスポーターが提供され、包括的なパフォーマンストラッキングが可能です。
数秒でのメトリック収集	簡素化された構成: 自動化された構成生成機能により、O&M エンジニアは手動構成から解放され、すべてのノードとサービスのメトリックが正確に収集されることが保証されます。柔軟性: 複雑で変化するモニタリング環境に対応するために、モニタリング要件に基づいて構成を変更できます。 ECS インスタンスを作成した後、30〜60 秒以内に ECS インスタンスをモニタリングシステムに含めることができます。ECS インスタンスのすべてのメトリックが監視される間隔は、1〜60 秒の間で柔軟に調整できます。これにより、数秒以内に ECS インスタンスの全面的なモニタリングを実装できます。
サーバーレスエージェント	一元管理: Managed Prometheus Agent を使用して、データ収集を一元的に管理します。これにより、モニタリングアーキテクチャが簡素化され、O&M 効率が向上します。データ収集中に、ビジネスに影響はありません。高パフォーマンス: モニタリングアルゴリズムの複雑さが抽象化されているため、エージェントを使用すると、設定ミスの可能性が減り、データモニタリングの精度と適時性が向上します。
スマートメトリックタグ	Alibaba Cloud ECS ホストのタグ、リソースグループ、リージョンは自動的に抽出され、メトリックシステム全体に注入されます。ビジネスタグ、環境タグ、データソースタグなどのカスタムタグを追加して、タグシステムの柔軟性を向上させることができます。
超大規模なデータ収集とストレージ	膨大な数のホストの統合をサポートします。専用リソースと共有リソースのハイブリッドホスティングモデルが使用されます。ホストされるリソースは、統合されるホストの数に基づいて動的に調整されます。これにより、統合の適時性と正確性が保証されます。ストレージは超大規模なメトリックをサポートし、高性能なクエリおよび表示機能を提供します。
アップストリームおよびダウンストリームアプリケーションからの包括的なモニタリングデータ	体系的かつ包括的な可観測性を実現するには、単一のエンティティを監視するだけでは不十分です。さまざまなディメンションからのモニタリングデータを統合し、エンドツーエンドのモニタリングを実装する必要があります。これにより、モニタリングシステムがアプリケーションおよびサービスエコシステム全体の健全性とパフォーマンスを反映できるようになります。基盤となるハードウェア、アプリケーション層、およびリモートダイレクトメモリアクセス (RDMA) ネットワーク、Object Storage Service (OSS) バケット、Redis などの外部サービスをカバーする包括的なモニタリングポリシーが含まれています。このポリシーは、ホストとネットワークだけでなく、依存サービスも監視します。
プロセスレベルのモニタリング	プロセスレベルのモニタリングを使用すると、オペレーティングシステム上の実行中のプロセスを追跡および分析して、そのパフォーマンスとリソース使用率を理解できます。これは、システムレベルのモニタリングの重要な部分であり、サーバー上で実行されているアプリケーションの健全性とパフォーマンスのビューを提供するように設計されています。プロセスレベルのモニタリングは、プロセスの CPU 使用率、メモリ使用量、ディスク I/O などの主要なパフォーマンスメトリックをキャプチャします。また、プロセスの開始時刻、開いているファイルハンドルの数、プロセスによって開始されたスレッドの数など、他の情報も収集します。ほぼリアルタイムのモニタリング機能は即時のフィードバックを提供し、システム管理者が問題を迅速に特定して解決できるようにします。プロセスレベルのモニタリングは、管理者により豊富なエラー診断メソッドを提供します。メモリリーク、高い CPU 使用率、またはリソース競合のあるプロセスなど、システムのパフォーマンス低下やエラーを引き起こすプロセスを特定するのに役立ちます。
デフォルトの Grafana エキスパートダッシュボード	デフォルトでは、Managed Service for Prometheus は、Alibaba Cloud の専門家の経験に基づいて洗練された Grafana ダッシュボードと統合されています。これらのダッシュボードには、ECS 概要、ECS 詳細、GPU 概要、GPU 詳細、およびノードプロセスダッシュボードが含まれます。これにより、ワンクリックでの統合と、すぐに使用できるホストの可観測性が可能になります。

ステップ 1: Alibaba Cloud Elastic Compute Service の統合

Cloud Monitor 2.0 コンソールにログインし、ワークスペースを選択します。左側のナビゲーションウィンドウで、[統合センター] をクリックします。

[統合センター] ページで、[Alibaba Cloud Elastic Compute Service] をクリックし、[OK] をクリックします。

構成項目	説明
リージョン	現在のワークスペースのリージョン。このパラメーターは変更できません。
ポリシー名	デフォルト: システムが自動的にポリシー名を生成します。カスタム: [カスタム] をクリックして、カスタムポリシー名を指定します。
範囲	すべてのエンティティ: 既存および将来のエンティティを含む、現在のリージョン内のすべてのエンティティを統合します。リソースグループ別: 指定されたリソースグループ内のすべてのエンティティを統合します。タグ別: タグでエンティティをフィルタリングして統合します。手動選択: 統合するエンティティを手動で選択します。

説明

Prometheus は Alibaba Cloud Resource Center を使用して、現在のアカウントの VPC や ECS インスタンスなどのリソースに関するデータを取得することでサービスを検出します。リソースセンターがアクティブ化されていない場合、統合ウィザードはまずそれをアクティブ化するようにガイドします。詳細については、「リソースセンターをアクティブ化する」をご参照ください。
リソースセンターのアクティブ化は非同期操作です。再度確認してもステータスがまだアクティブ化されていないと表示される場合は、10〜20 秒待ってから [再チェック] をクリックしてください。

次の表の説明に従って統合パラメーターを構成し、[OK] をクリックします。

Alibaba Cloud ECS モニタリング

構成項目	説明
タグキー	ECS タグのキーを指定します。`o11y.aliyun.dev/*` に一致するタグキーは、デフォルトで自動的にフェッチされます。タグのキーと値のペアは、Prometheus メトリックに自動的に追加されます。
Alibaba Cloud サービスメトリックの収集	この機能を有効にすると、ECS の CloudMonitor メトリック (エージェントフリーメトリック) が収集されます。
ノードメトリックの収集 (Linux)	Linux ホストに Node-exporter をインストールして、ノードメトリック (エージェントベースのメトリック) を収集します。
Node-exporter サービスポート	Node-exporter のサービスポート。
TextFile の収集	指定されたファイルから Prometheus メトリックを収集します。
プロセスメトリックの収集 (Linux)	Linux ホストに Process-exporter をインストールして、プロセスメトリック (エージェントベースのメトリック) を収集します。
Process-exporter サービスポート	Process-exporter のサービスポート。
Windows メトリックの収集 (Windows)	Windows ホストに Windows-exporter をインストールして、ノードメトリック (エージェントベースのメトリック) を収集します。
Windows サービスポート	Windows のサービスポート。
セキュリティグループの自動構成	統合を成功させるために、ターゲットの ECS ホストでセキュリティグループのチェックが実行されます。この機能を有効にすると、チェックが失敗した場合にセキュリティグループルールが自動的に追加されます。
メトリック収集間隔 (秒)	データが収集される間隔。デフォルト値は 15 秒です。

Alibaba Cloud ECS 監査ログ

構成項目	説明
システムログ収集の有効化	ホストシステムログを収集するかどうかを指定します。
システムログ Logstore 名	プロジェクトはデフォルトで自動的に作成されます。プロジェクト名は `workspace--` のフォーマットです。
ログ保持期間	ログを保持する日数。値の範囲は 1〜3650 です。値 3650 は、ログが永続的に保存されることを示します。指定された保持期間が終了すると、ログは削除されます。
シャード数	各シャードは 5 MB/s の書き込みスループットと 10 MB/s の読み取りスループットをサポートします。データトラフィックがシャードのサービス能力を超える場合は、シャードを分割します。データトラフィックがシャードの最大読み取りおよび書き込み能力よりも低い場合は、シャードをマージしてコストを削減します。

Alibaba Cloud ECS イベント

構成項目	説明
ECS システムイベントの有効化	この機能を有効にすると、ECS Insights ページで ECS システムイベントを表示できます。そうでない場合、データは表示されません。

説明

統合が成功した後、ダッシュボードにデータが表示されない場合は、ECS インスタンスのセキュリティグループが 100.64.0.0/10 および 192.168.0.0/18 CIDR ブロックからポート 9100 および 9256 へのインバウンドアクセスを許可していることを確認してください。ECS セキュリティグループの詳細を表示するには、「セキュリティグループのクエリ」をご参照ください。ポート 9100 は node-exporter のデフォルトポートで、ポート 9256 は process-exporter のデフォルトポートです。特定のポートは、構成によって異なる場合があります。

ステップ 2: ダッシュボードの表示

Cloud Monitor 2.0 コンソールにログインし、ワークスペースを選択します。左側のナビゲーションウィンドウで、[アプリケーションセンター] > [O&M とモニタリング] > [Managed Service For Prometheus] を選択します。
ターゲットインスタンスをクリックします。左側のナビゲーションウィンドウで、[ダッシュボードリスト] をクリックしてダッシュボードのリストを表示します。