本文檔旨在為您提供線上服務高可用性的最佳實務,以最大限度地減少服務中斷,提高系統的穩定性和可靠性。
快速入門指引
在深入瞭解高可用最佳實務前,建議您優先查閱以下文檔,以快速上手並瞭解雲資料庫 SelectDB 版的功能特性。
發布變更規範
(必做)提前測試
新功能上線前,務必在測試執行個體上充分測實驗證。高壓力業務上線前,建議補充效能壓測,以評估其在生產環境下的表現。
(必做)灰階上線
建議在低峰期發布變更,並採用分批灰階上線方式(例如:10%→50%→100%),每批次間隔10~30分鐘進行觀察。此外,在第一個業務高峰期進行重點觀察 ,因為低峰期可能無法觸發潛在問題。
營運建議
(必做)業務監控
雲資料庫SelectDB提供較為豐富的監控警示能力。建議業務側從業務使用角度,結合多個關鍵計量進行綜合監控,尤其是平均查詢耗時、99th查詢耗時、查詢成功率、匯入資料速度、CPU使用率和記憶體使用量率等。具體操作,請參見設定警示規則。
容量管理
針對高壓力業務,應提前進行效能最佳化和壓測,評估相應資源可支撐的請求QPS上限。根據業務發展或在促銷活動前,提前評估並擴容。
版本更新
雲資料庫SelectDB通過3到4位小版本持續修複bug,建議及時升級至2位版本對應的最新3位版本。升級時可先在測試環境驗證,緊急情況下可聯絡支援人員復原。例如,2025年02月06日發布了4.0.4.2版本,此後6個月時間裡迭代了12個版本到4.0.6.1版本,及時升級可規避已知問題。
業務隔離
對於完全獨立的業務情境,採用獨立的執行個體。對於使用同一份資料支援不同業務的情境,採用多計算群組架構(同一執行個體下的多個物理計算隊列,共用讀寫執行個體中的資料)。
操作演練
執行個體變更
常見營運操作包括升級、擴容等,應提前演練驗證執行個體變更對業務的影響。雲資料庫SelectDB變更期間存在串連閃斷,需要業務側配合支援異常重試能力。
故障恢複
雲資料庫SelectDB提供多種故障臨時恢複方案,例如,計算群組故障時快速切換新計算群組、執行個體故障時快速重啟執行個體、計算群組停滯時快速重啟等。建議業務根據需要,提前演練熟悉方案。
高可用架構建議
(可選)服務限流
雲資料庫SelectDB支援邏輯任務隊列Workload Group,可控制不同類型的請求或業務使用相應的Workload Group,並限制其資源使用上限,從而提供突發情境下的服務限流能力。
(可選)多可用性區域容災
雲資料庫SelectDB已支援可用性區域故障容災部署方案,故障情況下支援自動切換,切換恢複耗時在10秒級(RTO)。
(可選)資料備份恢複
對於高度敏感的線上服務情境,可開啟每日定期備份,或在重要變更前進行手動備份。嚴重故障情況下,可利用備份資料快速恢複業務。