Alibaba Cloud Elasticsearch 運用イベントの表示と管理 - Elasticsearch

イベントセンターを使用して Alibaba Cloud Elasticsearch (ES) のシステム O&M イベントを確認し、サービスの異常を迅速に検出して問題を特定します。

イベントカテゴリ

Elasticsearch (ES) イベントは、原因と影響に基づいて以下のカテゴリに分類されます。

説明

詳細については、「付録：イベントの詳細」をご参照ください。

イベントカテゴリ	定義	原因と影響	例
システム変更	Alibaba Cloud がシステム変更イベントを発行し、お客様に通知します。クラスターが影響を受けるかどうかを確認してください。	インフラストラクチャの変更または障害により、クラスターへのアクセスに影響が生じる可能性があります。このようなイベントが発生した場合、システムから通知が送信されます。通知とクラスターの状態を速やかに確認してください。	Kibana 機能のアップグレードにより、短時間のサービス中断が発生します。 Alibaba Cloud が AMD インスタンスファミリーを最新世代にアップグレードします。
クラスターヘルス	システムは実際の使用状況に基づいて定期的にクラスターヘルスを検査および監視し、予期しない診断結果をイベントとして報告します。	サービスの継続性を確保するため、システムはクラスターリソースに異常またはリスクを検出すると、自動的にクラスターヘルスイベントをトリガーします。説明 O&M イベントの実行中、クラスターで一時的なジッターが発生する可能性がありますが、通常のアクセスに影響はありません。自動実行が失敗した場合、イベントセンターページで手動でノードを再起動できます。手動で介入するには `24～48` 時間の猶予があります。具体的な実行時間については、「イベントの表示と処理」をご参照ください。	検査により、ES ノードがオフラインであることが判明しました。
クラスター変更	これらのイベントは、お客様が開始したクラスターの変更に関連します。変更プロセス中に障害やブロックが発生する可能性があります。	インスタンスタイプの変更またはカーネルのアップグレードにより、対応するノードの再起動がトリガーされます。再起動中、クラスターに短時間のジッターが発生する場合がありますが、通常のアクセスには影響しません。	スケールインノードの再起動

イベントの表示と処理

イベントセンターのページで、アカウントのイベントを表示し、対応できます。

イベントセンターに移動します。
1. Alibaba Cloud Elasticsearch console にログインします。
2. 左側のナビゲーションウィンドウで、イベントセンター をクリックします。

イベント情報を表示します。

イベントセンター ページでは、タイプ別にイベントをフィルタリングして、指定した期間内に特定のインスタンスで発生したすべてのイベントを表示し、イベントの詳細に基づいて対応できます。このページには、[システム変更]、[クラスターヘルス]、[クラスター変更] の 3 つのタブがあります。ページの上部で、期間セレクターを使用するか、インスタンス ID で検索してイベントを絞り込みます。右上で、[イベントサブスクリプション] または [通知の管理] をクリックします。イベントリストで、[推奨] 列の [再起動] または [再起動の予約] をクリックして、処理待ちのイベントを処理します。

説明

イベントセンターでは、すべてのイベント情報を表示できます。また、クリティカルなアラートについて、イベントをサブスクライブし、通知を設定できます。アラートがトリガーされると、システムは電話、SMS、またはメールで、指定した連絡先に通知を送信します。

次の表に、イベント情報と関連する操作を示します。

イベント情報	説明
[クラスター ID]	イベントが発生した Alibaba Cloud ES インスタンスの ID です。
[ノード ID]	イベントが発生したインスタンス内のノードの ID です。
[イベントレベル]	イベントの重大度です。有効な値： [情報]：定常的なシステム操作と状態を記録します。監視やデバッグに役立ちます。 [アラート]：現時点では運用に影響しないものの、監視が必要な潜在的な問題を示します。 [重大]：重大なエラーまたは障害が発生しています。サービス中断やデータ損失を防ぐため、直ちに対応してください。
[イベントステータス]	イベントの実行ステータス。有効な値は、待機中、実行中、実行されました、実行に失敗しました、実行中断、キャンセル済み、実行の確認待ち、変更保留中、発生しました、継続中、復旧済みです。以下に主要なステータスを説明します。 [待機中]：イベントは、システムで設定された時刻、またはお客様が予約した時刻に実行されるまで待機しています。 [実行の確認待ち]：イベントの詳細に基づき、イベントを直ちに実行するか、スナップショットバックアップを作成するかを決定できます。説明このステータスは、[システム変更] タブのローカルディスクに関連する一部のイベントでのみサポートされます。スナップショットバックアップは、Alibaba Cloud ES クラスターのアップグレードや、特定ノードへの新バージョンのデプロイなど、デプロイイベントでのみ使用できます。 [変更保留中]：グレースケール変更が完了しています。続行する前に、影響を受けるノードとクラスターの安定性を確認する必要があります。たとえば、少数のノードで変更をテストして検証した後、残りのすべてのノードに適用されます。 [実行に失敗しました] または [実行中断] のステータスのイベントについては、原因を特定し、業務への影響を避けるために速やかに問題を解決してください。
[イベントの説明]	イベントの原因と影響です。
[発生時間] および [終了日時]	イベントの開始時刻と終了時刻です。
[スケジュールされた実行時間] および [実行終了日時]	イベント処理の予定開始時刻と、推定終了時刻です。説明この情報は、システム変更イベントでのみ表示されます。
[スケジュールされた実行時間] および [実行終了日時]	イベント処理の予定開始時刻と、推定終了時刻です。説明この情報は、システム変更イベントでのみ表示されます。
[ソース]	イベントのソースです。有効な値： [プロアクティブ通知]：Alibaba Cloud ES が生成したイベントをイベントセンターに自動送信します。 [イベントサブスクリプション]：特定のイベントをサブスクライブします。サブスクライブしたイベントが発生すると、通知を受信します。
[推奨操作]	提示された推奨に従ってイベントを処理してください。サポートされる操作はイベントによって異なります。詳細は UI をご確認ください。 [テクニカルサポートへの連絡]：イベントについて不明点がある場合は、テクニカルサポートにお問い合わせください。 [再起動]：指定したノードを直ちに再起動します。 [再起動の予約]：再起動時刻を指定します。予約時刻は、現在時刻から少なくとも `5` 分後に設定する必要があります。システムは、予約時刻から `5` 分以内に指定したノードを再起動します。説明インスタンスまたはノードで再起動、強制再起動、またはグレースケール再起動を実行すると、システムは対応する再起動イベントをトリガーします。Alibaba Cloud ES のバージョンアップグレードなどの再デプロイイベントについては、テクニカルサポートにチケットを送信してください。

付録：イベント詳細

イベントタイプ	イベントコードと名前	CloudMonitor イベント名	原因カテゴリ	イベントレベル	説明と影響
システム変更イベント	SystemUpdate.InfraDiskError インフラストラクチャのディスク障害によるシステム変更イベント	`Instance:SystemUpdate.InfraDiskError:Executing` ：インフラストラクチャのディスク障害によるシステム変更イベントが進行中 `Instance:SystemUpdate.InfraDiskError:Executed` ：インフラストラクチャのディスク障害によるシステム変更イベントが完了		クリティカル	インフラストラクチャの障害により、ローカルディスクが利用できなくなります。このイベントにはバックエンドの再デプロイが必要です。この問題を解決するには、テクニカルサポートにチケットを送信してください。
	SystemUpdate.InfraDiskStalled インフラストラクチャのディスクパフォーマンスの問題によるシステム変更イベント	`Instance:SystemUpdate.InfraDiskStalled:Executing` ：インフラストラクチャのディスクパフォーマンスの問題によるシステム変更イベントが進行中 `Instance:SystemUpdate.InfraDiskStalled:Executed` ：インフラストラクチャのディスクパフォーマンスの問題によるシステム変更イベントが完了		クリティカル	インフラストラクチャの障害により、クラウドディスクのパフォーマンスが低下します。
	SystemUpdate.InfraFailureStop インフラストラクチャ障害によるインスタンス停止のシステム変更イベント	`Instance:SystemUpdate.InfraFailureStop:Scheduled` ：インフラストラクチャの障害によりインスタンスを停止するシステム変更イベントがスケジュール済み `Instance:SystemUpdate.InfraFailureStop:Executing` ：インフラストラクチャの障害によりインスタンスを停止するシステム変更イベントが進行中 `Instance:SystemUpdate.InfraFailureStop:Executed` ：インフラストラクチャの障害によりインスタンスを停止するシステム変更イベントが完了 `Instance:SystemUpdate.InfraFailureStop:Failed` ：インフラストラクチャの障害によりインスタンスを停止するシステム変更イベントが失敗		クリティカル	インフラストラクチャの潜在的な障害により、インスタンスが停止する可能性があります。


	SystemUpdate.InfraMigrate インフラストラクチャの移行またはアップグレードによるシステム変更イベント	`Instance:SystemUpdate.InfraMigrate:Scheduled` ：インフラストラクチャの移行またはアップグレードのシステム変更イベントがスケジュール済み `Instance:SystemUpdate.InfraMigrate:Executing` ：インフラストラクチャの移行またはアップグレードのシステム変更イベントが進行中 `Instance:SystemUpdate.InfraMigrate:Executed` ：インフラストラクチャの移行またはアップグレードのシステム変更イベントが完了 `Instance:SystemUpdate.InfraMigrate:Failed` ：インフラストラクチャの移行またはアップグレードのシステム変更イベントが失敗		クリティカル	インフラストラクチャのメンテナンスにより、インスタンスノードが再起動します。インフラストラクチャのメンテナンスにより、インスタンスノードが再デプロイされます。
	SystemUpdate.SoftwareRepair コントロールシステムのソフトウェアアップデートによるシステム変更イベント	`Instance:SystemUpdate.SoftwareRepair:Scheduled` ：ソフトウェアアップデートのシステム変更イベントがスケジュール済み `Instance:SystemUpdate.SoftwareRepair:Executing` ：ソフトウェアアップデートのシステム変更イベントが進行中 `Instance:SystemUpdate.SoftwareRepair:Executed` ：ソフトウェアアップデートのシステム変更イベントが完了		警告	説明：アップグレードにより、クラスターコントロールシステムが再起動します。このアップグレードには Alibaba Cloud インスタンスアーキテクチャの変更が含まれ、コントロールデプロイメントモードが Basic Control (v2) から Cloud-native Control (v3) にアップグレードされます。説明インスタンスの基本情報ページでコントロールデプロイメントモードを確認できます。影響：アップグレードでは、スケジュールされた期間内にブルーグリーンデプロイメントが使用されます。このプロセス中、クラスターノードの数は倍になりますが、追加料金は発生しません。アップグレードにはデータ量に応じて数時間かかります。システムは、設定された O&M ウィンドウ中に古いノードをオフラインにし、約 `1～2` 秒のサービス中断を引き起こします。アップグレード中、インスタンスの変更操作は利用できません。事前にサービスを準備してください。クラスターはバージョン `6.8.6` から `6.8.23` にアップグレードされます。エンジンは完全な互換性を備えており、サービスへの影響はありません。アップグレード後、Kibana のプライベートネットワークは無効になります。Kibana コンソールにログインして有効にする必要があります。
クラスターヘルスイベント	HealthCheck.ClusterAbnormal クラスターの状態異常によるクラスターヘルスイベント	`Instance:HealthCheck.ClusterAbnormal:Executed` ：クラスターの状態異常によるクラスターヘルスイベントが完了 `Instance:HealthCheck.ClusterAbnormal:Failed` ：クラスターの状態異常によるクラスターヘルスイベントが失敗		クリティカル	クラスターの状態異常によりインスタンスが再起動します。
	HealthCheck.ClusterAbnormal クラスターの状態異常によるクラスターヘルスイベント			クリティカル	クラスターの状態異常によりインスタンスが再起動します。
	HealthCheck.ClusterUnhealthy クラスターの不健全な状態によるクラスターヘルスイベント	`Instance:HealthCheck:ClusterUnhealthy:Occurred` ：不健全なクラスターに対するヘルスチェックイベントが発生しました。 `Instance:HealthCheck:ClusterUnhealthy:Persistent` ：不健全なクラスターに対するヘルスチェックイベントが継続中です。 `Instance:HealthCheck:ClusterUnhealthy:Recovered` ：不健全なクラスターに対するヘルスチェックイベントが解決されました。	Cluster.StatusRed ：クラスターヘルスステータスが Red に変更されます。	クリティカル	クラスターのステータスが Red で、未割り当てのプライマリシャードがあることを示します。データは利用できません。
			Cluster.StatusYellow ：クラスターヘルスステータスが Yellow に変更されます。	警告	クラスターのステータスが Yellow で、未割り当てのレプリカシャードがあることを示します。これにより、データの冗長性が低下します。
			Node.Disconnected ：クラスターノードがオフラインまたは切断されています。	クリティカル	ノードがオフラインまたは切断されており、データの利用不可やパフォーマンスの低下につながる可能性があります。
	HealthCheck.JVMMemoryPressure JVM メモリプレッシャーによるリソース異常イベント	`Instance:HealthCheck:JVMMemoryPressure:Occurred` `Instance:HealthCheck:JVMMemoryPressure:Persistent` `Instance:HealthCheck:JVMMemoryPressure:Recovered`	JVMMemory.HeapMemoryHigh ：ヒープメモリ使用率が高い	警告	ヒープメモリの使用率が高いと、フル GC がトリガーされる可能性があります。
			JVMMemory.HeapMemoryCritical ：ヒープメモリ使用率がクリティカル	クリティカル	ヒープメモリが限界に近く、OutOfMemory (OOM) エラーを引き起こす可能性が非常に高いです。
			JVMMemory.GCRateTooHigh ：頻繁な Old GC	警告	頻繁な Old GC はパフォーマンスに影響します。
	HealthCheck.CPULoadHigh 高い CPU 負荷によるリソース異常イベント	`Instance:HealthCheck:CPULoadHigh:Occurred` `Instance:HealthCheck:CPULoadHigh:Persistent` `Instance:HealthCheck:CPULoadHigh:Recovered`	CPU.PersistUsageHigh ：持続的な高い CPU 負荷	警告	持続的に高い CPU 負荷は、システムの応答性を低下させます。
	HealthCheck.CPULoadHigh 高い CPU 負荷によるリソース異常イベント		CPU.PersistUsageCritical ：持続的な高い CPU 負荷	クリティカル	持続的に高い CPU 負荷は、システムの応答性を低下させます。
	HealthCheck.DiskUsageHigh 高いディスク使用率によるリソース異常イベント	`Instance:HealthCheck:DiskUsageHigh:Occurred` `Instance:HealthCheck:DiskUsageHigh:Persistent` `Instance:HealthCheck:DiskUsageHigh:Recovered`	Disk.UsageHigh ：ディスク使用率アラート	警告	ディスク容量が不足すると、新しいシャードを作成できません。領域を解放するか、ストレージをスケールアップしてください。
			Disk.UsageCritical ：ディスク使用量がクリティカル	クリティカル	ディスク使用率が Elasticsearch の自動読み取り専用しきい値 (95%) に近づいています。これは通常のデータ書き込みに影響を及ぼし、即時の対応が必要です。
			Disk.IndexReadOnly ：インデックスが読み取り専用状態になります。	クリティカル	Elasticsearch は、通常ディスクがいっぱいになると、インデックスを自動的に読み取り専用に設定します。このアクションはすべての書き込みをブロックします。
	HealthCheck.DiskIOBottleneck ディスク I/O ボトルネックによるリソース異常イベント	`Instance:HealthCheck:DiskIOBottleneck:Occurred` `Instance:HealthCheck:DiskIOBottleneck:Persistent` `Instance:HealthCheck:DiskIOBottleneck:Recovered`	Disk.IOUtilizationHigh ：高いディスク I/O 使用率	クリティカル	高いディスク I/O 使用率は、読み書きのレイテンシーを増加させます。これを解決するには、ディスクをスケールアップするか、より高性能なディスクタイプに切り替えてください。
	HealthCheck.ThreadPoolSaturation スレッドプールの飽和によるパフォーマンスボトルネックイベント	`Instance:HealthCheck:ThreadPoolSaturation:Occurred` `Instance:HealthCheck:ThreadPoolSaturation:Persistent` `Instance:HealthCheck:ThreadPoolSaturation:Recovered`	ThreadPool.SearchQueueHigh ：検索スレッドプールキューが混雑しています。	警告	検索スレッドプールキューの混雑は、クエリの応答を遅くします。
			ThreadPool.SearchRejected ：検索リクエストが拒否されます。	クリティカル	システムが検索リクエストを拒否するため、ユーザーのクエリが失敗します。
			ThreadPool.WriteQueueHigh ：書き込みスレッドプールキューが混雑しています。	警告	書き込みスレッドプールキューの混雑は、書き込みの応答を遅くします。
			ThreadPool.WriteRejected ：書き込みリクエストが拒否されます。	クリティカル	システムが書き込みリクエストを拒否するため、データの書き込みが失敗します。
クラスター変更イベント	UserOperator.InstanceSpecModify インスタンスタイプ変更によるクラスター変更イベント	`Instance:UserOperator.InstanceSpecModify:Executing` ：インスタンスタイプ変更によるクラスター変更イベントが進行中 `Instance:UserOperator.InstanceSpecModify:Executed` ：インスタンスタイプ変更によるクラスター変更イベントが完了		情報	インスタンスタイプの変更により、インスタンスが再起動します。インスタンスノードの変更により、インスタンスノードが再起動します。
	UserOperator.InstanceSpecModify インスタンスタイプ変更によるクラスター変更イベント			情報
	UserOperator.InstanceUpdate インスタンス変更操作によるクラスター変更イベント	`Instance:UserOperator.InstanceUpdate:Executing` ：インスタンス変更操作によるクラスター変更イベントが進行中 `Instance:UserOperator.InstanceUpdate:Executed` ：インスタンス変更操作によるクラスター変更イベントが完了		情報	設定変更により、インスタンスが再起動します。インスタンスのプラグインが更新されます。インスタンスの IK 辞書がホットアップデートされます。




	UserOperator.InstanceCoreUpdate インスタンスカーネルアップグレードによるクラスター変更イベント	`Instance:UserOperator.InstanceCoreUpdate:Executing` ：インスタンスカーネルアップグレードによるクラスター変更イベントが進行中 `Instance:UserOperator.InstanceCoreUpdate:Executed` ：インスタンスカーネルアップグレードによるクラスター変更イベントが完了		情報	カーネルバージョンのアップデートにより、インスタンスが再起動します。