當密碼機(HSM)的運行狀態或效能出現波動時,如果無法及時感知,可能會影響業務穩定甚至導致服務中斷。通過Data Encryption Service提供的監控與警示功能,可以即時掌握執行個體與叢集的健康度、效能負載等關鍵計量,並設定警示規則,從而在異常發生時及時獲得通知,保障業務的連續性和穩定性。
功能概述
HSM監控提供執行個體與叢集兩個維度監控服務,分別支援基礎監控(覆蓋CPU使用率、記憶體使用量率、TCP串連數、HSM健康度以及叢集同步狀態)和TPS監控等核心指標。對HSM資源使用與運行狀態進行全面洞察,為主動風險預警和容量規劃提供資料支援。其核心價值在於:
風險預警:通過分析指標趨勢,可及時發現潛在的運行風險。整合的警示機制能夠迅速將故障通知相關人員,以保障業務的連續性和穩定性。
故障定位:在發生異常時,詳盡的監控資料有助於快速定位問題根源,縮短故障排查時間。
查看執行個體或叢集監控指標
最多支援您查看30天內的監控項指標資料。
操作步驟
訪問Data Encryption Service控制台的虛擬密碼機執行個體頁面,在頂部功能表列,選擇目標地區。
單擊執行個體ID,在詳情頁面查看執行個體監控資訊和叢集監控資訊。
選取查詢時間範圍,密碼機監控資料的統計周期(粒度)會隨選擇的查詢時間範圍而變化。
查詢時間範圍
資料統計周期
1小時、3小時、6小時、12小時
5分鐘
1天
10分鐘
3天
30分鐘
7天
60分鐘
7天以上至30天
120分鐘
(可選)開啟右上方自動重新整理開關,HSM會每隔1分鐘自動擷取最新的監控資料。
監控資訊詳解
執行個體監控資訊
基礎監控
說明基礎監控為所有指標提供全面的警示能力,既支援開箱即用的一鍵警示規則,也支援設定自訂警示規則。
一鍵警示策略的統計周期預設為五分鐘。
監控項
指標含義
一鍵警示規則(預設警示策略)
CPU使用率
密碼機執行個體的CPU佔用百分比。
警示層級: 警告 (WARN)
觸發規則: CPU使用率連續5個周期 > 85%。
記憶體使用量率
密碼機執行個體的記憶體佔用百分比。
警示層級: 警告 (WARN)
觸發規則: 記憶體使用量率連續5個周期 > 85%。
TCP串連數
密碼機執行個體已建立的TCP串連總數。
警示層級: 通知 (Info)
觸發規則: TCP串連數連續5個周期 > 200。
HSM健康度
反映密碼機執行個體的運行狀態。
1:運行正常
0:運行異常,更多內容請參見HS健康度為0(密碼機運行異常)。
警示層級: 警告 (WARN)
觸發規則: 健康度連續5個周期為 0。
TPS監控
重要僅適用於中國內地地區的密碼機。
不支援一鍵警示,需登入CloudMonitor控制台設定自訂警示規則。
監控項
指標含義
對稱演算法
執行個體執行各類對稱演算法操作的效能資料,包含:AES 運算、SM1 運算、SM4 運算。
SM2
執行個體執行 SM2 演算法各類操作的效能資料,包含:密鑰產生、 加密 / 解密、簽名 / 驗簽。
RSA
執行個體執行 RSA 演算法各類操作的效能資料,包含:金鑰組產生、公開金鑰運算、私密金鑰運算。
ECC
執行個體執行 ECC 演算法各類操作的效能資料,包含:金鑰組產生、簽名 / 驗簽。
雜湊演算法
執行個體執行雜湊計算的效能資料。
叢集監控資訊
基礎監控
說明基礎監控為所有指標提供全面的警示能力,既支援開箱即用的一鍵警示規則,也支援在CloudMonitor設定自訂警示規則。
一鍵警示策略的統計周期預設為五分鐘。
監控項
指標含義
一鍵警示規則(預設警示策略)
同步状态
叢集是否同步。取值:
1:叢集正常,主子密碼機摘要一致。
0:叢集不同步,包括主子密碼機摘要不一致、配置不一致、叢集同步失敗等異常情況。
警示層級: 通知(Info)
觸發規則: 連續5個周期取值為0。
TPS監控
重要僅在叢集內所有執行個體支援TPS監控(即均為中國內地地區的密碼機)時可用。
不支援一鍵警示,需通過雲監設定自訂警示規則。
監控項
指標含義
對稱演算法
叢集內所有執行個體執行各類對稱演算法操作的TPS總和,包含:AES 運算、SM1 運算、SM4 運算。
SM2
叢集內所有執行個體執行 SM2 演算法各類操作的TPS總和,包含:密鑰產生、 加密 / 解密、簽名 / 驗簽。
RSA
叢集內所有執行個體執行 RSA 演算法各類操作的TPS總和,包含:金鑰組產生、公開金鑰運算、私密金鑰運算。
ECC
叢集內所有執行個體執行 ECC 演算法各類操作的TPS總和,包含:金鑰組產生、簽名 / 驗簽
雜湊演算法
叢集內所有執行個體執行雜湊(摘要)計算的TPS總和。
設定監控指標警示
方式一:在HSM開啟一鍵警示
HSM內建了對基礎監控預設通用警示規則,具體警示規則內容,請參見監控資訊詳解。
開啟一鍵警示後,警示規則會作用於當前阿里雲帳號下的所有HSM執行個體。
如果之前開啟過一鍵警示,並修改了警示規則,再次開啟一鍵警示時,警示規則會恢複到系統預設的警示規則。
訪問Data Encryption Service控制台的虛擬密碼機執行個體頁面,在頂部功能表列,選擇目標地區。
單擊執行個體ID,在執行個體監控資訊和叢集監控資訊頁簽的右上方,單擊一鍵警示。
配置警示規則
開啟一鍵警示開關。
修改規則內容(可選):如果只針對部分監控指標設定警示,或者需要設定更精細化的警示規則,可以禁用、修改警示規則。
說明一鍵警示規則的警示接收人,預設為系統建立的雲帳號警示連絡人,如需修改其成員資訊,請到CloudMonitor控制台修改。具體操作,請參見修改警示連絡人或警示聯絡組。
開啟發送無數據警示(可選)
單擊設定警示規則,跳轉到CloudMonitor控制台,並定位至目標預設警示規則。
單擊操作欄修改按鈕。
修改無數據處理方法為發送無數據警示。
方式二:在CloudMonitor設定警示
在執行個體監控資訊和叢集監控資訊頁簽的右上方,單擊設定警示規則,跳轉到CloudMonitor控制台。
在警示規則頁面,參考建立警示規則完成配置。部分配置說明如下:
产品:加密服务-实例维度或加密服务-集群维度。
無數據處理方法:建議選擇發送無數據警示,避免監控指標資料為空白時會影響閾值判斷,從而影響警示的及時性和正確性。
處理警示通知
常見的警示處理方法如下:
HSM健康度為0(密碼機運行異常)
常見原因如下:
硬體故障: 內部物理組件(如處理器、記憶體、加密卡等)損壞或失靈。
說明該情境下系統將自動隔離故障執行個體,以保障整體服務的連續性和安全。
軟體/韌體缺陷: 裝置韌體、驅動程式或管理軟體存在錯誤(Bug),導致功能異常或無響應。
網路連接問題: 與應用伺服器或網路裝置間的串連中斷、延遲過高或不穩定。
供電問題: 電源中斷、電壓不穩或供電裝置故障,導致裝置無法啟動或意外關閉。
運行環境異常: 裝置運行溫度過高、濕度不當或通風散熱不暢,影響其效能與穩定性。
解決方案:
初步診斷:立即在Data Encryption Service控制台查看該執行個體的狀態是否為“運行中”。同時,檢查阿里雲狀態頁或站內信,確認當前地區是否存在服務故障或計劃內維護。
網路排查:檢查應用伺服器與密碼機執行個體所屬VPC的安全性群組和網路ACL規則,確保服務連接埠的網路訪問是通暢的。
CPU/記憶體使用量率過高
關聯分析:在監控頁面,對比出問題時間段的CPU使用率和TPS監控曲線。
如果CPU與TPS同步升高,通常是業務流量高峰導致,屬於正常現象。
如果TPS不高但CPU高,可能是應用正在執行大量複雜的密鑰產生或非對稱加解密操作。
分類處理:
短期應對:若是業務流量突增導致,評估是否需要臨時增加叢集節點以分擔壓力。
長期最佳化:若是應用調用邏輯問題,需進行代碼最佳化。若為長期性容量不足,請及時進行擴容。
叢集同步狀態異常:若為人工同步類型的中國內地密碼機叢集,可先在執行個體列表頁面,單擊同步叢集,嘗試手動同步。
配額與限制
資料保留期:監控資料最長可查看和儲存30天。
地區與功能限制:
TPS監控:僅適用於中國內地地區的密碼機執行個體。
叢集TPS監控:僅當叢集內所有執行個體均為中國內地地區的密碼機時可用。
警示配置:TPS監控指標不支援“一鍵警示”,必須通過CloudMonitor設定自訂警示規則。