イベントセンターを使用して Alibaba Cloud Elasticsearch (ES) のシステム O&M イベントを確認し、サービスの異常を迅速に検出して問題を特定します。
イベントカテゴリ
Elasticsearch (ES) イベントは、原因と影響に基づいて以下のカテゴリに分類されます。
詳細については、「付録:イベントの詳細」をご参照ください。
|
イベントカテゴリ |
定義 |
原因と影響 |
例 |
|
システム変更 |
Alibaba Cloud がシステム変更イベントを発行し、お客様に通知します。クラスターが影響を受けるかどうかを確認してください。 |
インフラストラクチャの変更または障害により、クラスターへのアクセスに影響が生じる可能性があります。このようなイベントが発生した場合、システムから通知が送信されます。通知とクラスターの状態を速やかに確認してください。 |
|
|
クラスターヘルス |
システムは実際の使用状況に基づいて定期的にクラスターヘルスを検査および監視し、予期しない診断結果をイベントとして報告します。 |
サービスの継続性を確保するため、システムはクラスターリソースに異常またはリスクを検出すると、自動的にクラスターヘルスイベントをトリガーします。 説明
O&M イベントの実行中、クラスターで一時的なジッターが発生する可能性がありますが、通常のアクセスに影響はありません。自動実行が失敗した場合、イベントセンター ページで手動でノードを再起動できます。手動で介入するには |
検査により、ES ノードがオフラインであることが判明しました。 |
|
クラスター変更 |
これらのイベントは、お客様が開始したクラスターの変更に関連します。変更プロセス中に障害やブロックが発生する可能性があります。 |
インスタンスタイプの変更またはカーネルのアップグレードにより、対応するノードの再起動がトリガーされます。再起動中、クラスターに短時間のジッターが発生する場合がありますが、通常のアクセスには影響しません。 |
|
イベントの表示と処理
イベントセンターのページで、アカウントのイベントを表示し、対応できます。
-
イベントセンターに移動します。
-
Alibaba Cloud Elasticsearch console にログインします。
-
左側のナビゲーションウィンドウで、イベントセンター をクリックします。
-
-
イベント情報を表示します。
イベントセンター ページでは、タイプ別にイベントをフィルタリングして、指定した期間内に特定のインスタンスで発生したすべてのイベントを表示し、イベントの詳細に基づいて対応できます。このページには、[システム変更]、[クラスターヘルス]、[クラスター変更] の 3 つのタブがあります。ページの上部で、期間セレクターを使用するか、インスタンス ID で検索してイベントを絞り込みます。右上で、[イベントサブスクリプション] または [通知の管理] をクリックします。イベントリストで、[推奨] 列の [再起動] または [再起動の予約] をクリックして、処理待ちのイベントを処理します。
説明イベントセンターでは、すべてのイベント情報を表示できます。また、クリティカルなアラートについて、イベントをサブスクライブし、通知を設定できます。アラートがトリガーされると、システムは電話、SMS、またはメールで、指定した連絡先に通知を送信します。
次の表に、イベント情報と関連する操作を示します。
イベント情報
説明
[クラスター ID]
イベントが発生した Alibaba Cloud ES インスタンスの ID です。
[ノード ID]
イベントが発生したインスタンス内のノードの ID です。
[イベントレベル]
イベントの重大度です。有効な値:
-
[情報]:定常的なシステム操作と状態を記録します。監視やデバッグに役立ちます。
-
[アラート]:現時点では運用に影響しないものの、監視が必要な潜在的な問題を示します。
-
[重大]:重大なエラーまたは障害が発生しています。サービス中断やデータ損失を防ぐため、直ちに対応してください。
[イベントステータス]
イベントの実行ステータス。有効な値は、待機中、実行中、実行されました、実行に失敗しました、実行中断、キャンセル済み、実行の確認待ち、変更保留中、発生しました、継続中、復旧済みです。以下に主要なステータスを説明します。
-
[待機中]:イベントは、システムで設定された時刻、またはお客様が予約した時刻に実行されるまで待機しています。
-
[実行の確認待ち]:イベントの詳細に基づき、イベントを直ちに実行するか、スナップショットバックアップを作成するかを決定できます。
説明-
このステータスは、[システム変更] タブのローカルディスクに関連する一部のイベントでのみサポートされます。
-
スナップショットバックアップは、Alibaba Cloud ES クラスターのアップグレードや、特定ノードへの新バージョンのデプロイなど、デプロイイベントでのみ使用できます。
-
-
[変更保留中]:グレースケール変更が完了しています。続行する前に、影響を受けるノードとクラスターの安定性を確認する必要があります。たとえば、少数のノードで変更をテストして検証した後、残りのすべてのノードに適用されます。
[実行に失敗しました] または [実行中断] のステータスのイベントについては、原因を特定し、業務への影響を避けるために速やかに問題を解決してください。
[イベントの説明]
イベントの原因と影響です。
[発生時間] および [終了日時]
イベントの開始時刻と終了時刻です。
[スケジュールされた実行時間] および [実行終了日時]
イベント処理の予定開始時刻と、推定終了時刻です。
説明この情報は、システム変更イベントでのみ表示されます。
[ソース]
イベントのソースです。有効な値:
-
[プロアクティブ通知]:Alibaba Cloud ES が生成したイベントをイベントセンターに自動送信します。
-
[イベントサブスクリプション]:特定のイベントをサブスクライブします。サブスクライブしたイベントが発生すると、通知を受信します。
[推奨操作]
提示された推奨に従ってイベントを処理してください。サポートされる操作はイベントによって異なります。詳細は UI をご確認ください。
-
[テクニカルサポートへの連絡]:イベントについて不明点がある場合は、テクニカルサポートにお問い合わせください。
-
[再起動]:指定したノードを直ちに再起動します。
-
[再起動の予約]:再起動時刻を指定します。予約時刻は、現在時刻から少なくとも
5分後に設定する必要があります。システムは、予約時刻から5分以内に指定したノードを再起動します。
説明インスタンスまたはノードで 再起動、強制再起動、またはグレースケール再起動 を実行すると、システムは対応する再起動イベントをトリガーします。Alibaba Cloud ES のバージョンアップグレードなどの再デプロイイベントについては、テクニカルサポートにチケットを送信してください。
-
付録:イベント詳細
|
イベントタイプ |
イベントコードと名前 |
CloudMonitor イベント名 |
原因カテゴリ |
イベントレベル |
説明と影響 |
|
システム変更イベント |
|
|
クリティカル |
インフラストラクチャの障害により、ローカルディスクが利用できなくなります。 このイベントにはバックエンドの再デプロイが必要です。この問題を解決するには、テクニカルサポートにチケットを送信してください。 |
|
|
|
クリティカル |
インフラストラクチャの障害により、クラウドディスクのパフォーマンスが低下します。 |
||
|
|
クリティカル |
インフラストラクチャの潜在的な障害により、インスタンスが停止する可能性があります。 |
||
|
|
クリティカル |
|
||
|
|
警告 |
|
||
|
クラスターヘルスイベント |
|
|
クリティカル |
クラスターの状態異常によりインスタンスが再起動します。 |
|
|
|
Cluster.StatusRed :クラスターヘルスステータスが Red に変更されます。 |
クリティカル |
クラスターのステータスが Red で、未割り当てのプライマリシャードがあることを示します。データは利用できません。 |
|
|
Cluster.StatusYellow :クラスターヘルスステータスが Yellow に変更されます。 |
警告 |
クラスターのステータスが Yellow で、未割り当てのレプリカシャードがあることを示します。これにより、データの冗長性が低下します。 |
|||
|
Node.Disconnected :クラスターノードがオフラインまたは切断されています。 |
クリティカル |
ノードがオフラインまたは切断されており、データの利用不可やパフォーマンスの低下につながる可能性があります。 |
|||
|
|
JVMMemory.HeapMemoryHigh :ヒープメモリ使用率が高い |
警告 |
ヒープメモリの使用率が高いと、フル GC がトリガーされる可能性があります。 |
|
|
JVMMemory.HeapMemoryCritical :ヒープメモリ使用率がクリティカル |
クリティカル |
ヒープメモリが限界に近く、OutOfMemory (OOM) エラーを引き起こす可能性が非常に高いです。 |
|||
|
JVMMemory.GCRateTooHigh :頻繁な Old GC |
警告 |
頻繁な Old GC はパフォーマンスに影響します。 |
|||
|
|
CPU.PersistUsageHigh :持続的な高い CPU 負荷 |
警告 |
持続的に高い CPU 負荷は、システムの応答性を低下させます。 |
|
|
CPU.PersistUsageCritical :持続的な高い CPU 負荷 |
クリティカル |
持続的に高い CPU 負荷は、システムの応答性を低下させます。 |
|||
|
|
Disk.UsageHigh :ディスク使用率アラート |
警告 |
ディスク容量が不足すると、新しいシャードを作成できません。領域を解放するか、ストレージをスケールアップしてください。 |
|
|
Disk.UsageCritical :ディスク使用量がクリティカル |
クリティカル |
ディスク使用率が Elasticsearch の自動読み取り専用しきい値 (95%) に近づいています。これは通常のデータ書き込みに影響を及ぼし、即時の対応が必要です。 |
|||
|
Disk.IndexReadOnly :インデックスが読み取り専用状態になります。 |
クリティカル |
Elasticsearch は、通常ディスクがいっぱいになると、インデックスを自動的に読み取り専用に設定します。このアクションはすべての書き込みをブロックします。 |
|||
|
|
Disk.IOUtilizationHigh :高いディスク I/O 使用率 |
クリティカル |
高いディスク I/O 使用率は、読み書きのレイテンシーを増加させます。これを解決するには、ディスクをスケールアップするか、より高性能なディスクタイプに切り替えてください。 |
|
|
|
ThreadPool.SearchQueueHigh :検索スレッドプールキューが混雑しています。 |
警告 |
検索スレッドプールキューの混雑は、クエリの応答を遅くします。 |
|
|
ThreadPool.SearchRejected :検索リクエストが拒否されます。 |
クリティカル |
システムが検索リクエストを拒否するため、ユーザーのクエリが失敗します。 |
|||
|
ThreadPool.WriteQueueHigh :書き込みスレッドプールキューが混雑しています。 |
警告 |
書き込みスレッドプールキューの混雑は、書き込みの応答を遅くします。 |
|||
|
ThreadPool.WriteRejected :書き込みリクエストが拒否されます。 |
クリティカル |
システムが書き込みリクエストを拒否するため、データの書き込みが失敗します。 |
|||
|
クラスター変更イベント |
|
|
情報 |
|
|
|
|
情報 |
|
||
|
|
情報 |
カーネルバージョンのアップデートにより、インスタンスが再起動します。 |