全部產品
Search
文件中心

Container Compute Service:使用叢集巡檢排查叢集的潛在風險

更新時間:Dec 11, 2024

阿里雲容器計算服務ACS支援容器智能營運平台提供的叢集巡檢功能。您可以掃描叢集健全狀態,發現叢集中存在的潛在風險,例如雲資源配額餘量、Kubernetes叢集關鍵資源水位等,排查風險項並根據推薦的解決方案修複問題。本文介紹如何使用叢集巡檢功能排查叢集的潛在風險。

前提條件

  • 已建立ACS叢集。具體操作,請參見建立ACS叢集

  • 叢集已處於正常運行狀態。

    訪問容器計算服務控制台,在叢集列表頁面,查看目的地組群的叢集狀態。若叢集狀態運行中,表示叢集處於正常運行狀態。

配置叢集巡檢

重要

使用叢集巡檢功能時,系統將在您的叢集中執行資料擷取程式並收集檢查結果。採集的資訊包括系統版本、負載、容器組件等運行狀態及系統日誌中嚴重錯誤資訊。資料擷取程式不會採集您的商務資訊及敏感性資料。

  1. 登入容器計算服務控制台,在左側導覽列選擇叢集

  2. 叢集頁面,單擊目的地組群ID,然後在左側導覽列,選擇巡檢和診斷 > 叢集巡檢

  3. 叢集巡檢頁面的巡檢規則地區,單擊添加

  4. 配置定時巡檢規則面板,設定相應的時區定時規則,仔細檢查後選中我已知曉並同意,然後單擊儲存配置

    叢集定時巡檢配置完成後,將按照指定的時間巡檢叢集。

    您也可以在叢集巡檢頁面的檢查報告列表地區,單擊執行巡檢檢查,手動巡檢叢集。巡檢完成後,將在報告列表地區顯示相關資訊。

查看巡檢結果

  1. 登入容器計算服務控制台,在左側導覽列選擇叢集

  2. 叢集頁面,單擊目的地組群ID,然後在左側導覽列,選擇巡檢和診斷 > 叢集巡檢

  3. 叢集巡檢頁面的檢查報告列表地區右側的操作列,單擊目標檢查報告右側的查看詳情

  4. 檢查報告頁面,查看風險項、異常影響以及推薦的解決方案。

    • 叢集巡檢會按照觸發風險的程度分為低危、中危和高危,並高亮顯示。

    • 叢集巡檢詳細內容包含風險層級、風險項名稱、異常影響及解決方案。關於叢集巡檢的常見風險預警及修複方案的更多資訊,請參見叢集巡檢項及解決方案

相關操作

管理巡檢規則

叢集定時巡檢配置完成後,您可以在巡檢規則地區進行以下操作。

  • 單擊編輯,設定新的巡檢規則。

  • 單擊刪除,刪除無需使用的巡檢規則。規則刪除後,叢集將不再按此規則巡檢。

相關文檔

叢集巡檢通過定期檢查,提前發現潛在問題。當巡檢發現異常時,叢集診斷便接手深入分析,從而定位和解決問題。具體資訊,請參見使用叢集診斷