ACK叢集工作負載Workload推薦配置 - Container Service for Kubernetes

在ACK叢集中配置工作負載（Deployment、StatefulSet、DaemonSet、Job、CronJob等）時，您需考慮多種因素，以確保應用可以穩定、可靠地運行。

聲明每個Pod的Requests和Limits

在 Kubernetes 叢集中，節點上調度過多 Pod 會導致負載過高，無法正常提供服務。配置Pod時，建議聲明其所需的requests和limits，以便叢集在部署Pod時可以根據資源需求找到合適的節點。

下方樣本中，Nginx Pod的資源配置為：

CPU請求：1核；記憶體請求：1024Mi
CPU限制：2核；記憶體限制：4096Mi

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
  - name: nginx
    image: anolis-registry.cn-zhangjiakou.cr.aliyuncs.com/openanolis/nginx:1.14.1-8.6
    resources: # 資源聲明
      requests:
        memory: "1024Mi"
        cpu: "1000m"
      limits:
        memory: "4096Mi"
        cpu: "2000m"

Kubernetes採用靜態資源調度機制。每個節點的剩餘資源的計算公式為節點剩餘資源 = 節點總資源 - 已指派資源。手動運行資源密集型程式時，Kubernetes無法感知其實際資源使用量。因此公式中基於已指派資源進行計算，而非實際使用資源。

此外，所有Pod都應聲明resources。如果Pod未聲明resources，調度到節點後，Kubernetes不會為其預留資源。這可能導致節點上調度過多Pod，進而引發資源爭用問題。

推薦使用ACK提供的資源畫像功能，基於資源使用量的歷史資料獲得容器粒度的資源規格推薦，簡化容器requests和limits的配置複雜度。

啟動時等待下遊服務，不要直接退出

有些應用可能存在一些外部依賴，例如需要從資料庫（DB）讀取資料或者依賴另外一個服務的介面。應用啟動時，外部依賴可能無法完全滿足。在傳統手動營運中，通常採用“依賴不滿足即退出”的方式（即failfast）。但在Kubernetes中，大多營運操作是自動化的，無需人工幹預。例如部署應用時系統會自動選擇節點並啟動應用，應用失敗時系統會自動重啟，負載增加時可以通過HPA（Horizontal Pod Autoscaler）實現自動擴容。

假設有兩個應用A和B，A依賴B，並且它們運行在同一節點上。如果該節點因某種原因重啟，重啟後A先啟動，而B尚未啟動，此時A的依賴無法滿足。如果A按照傳統方式直接退出，即使B啟動後，A也不會自動回復，需要人工幹預。

在Kubernetes叢集中，建議在啟動時檢查依賴。如果依賴不滿足，可以通過輪詢等待，而不是直接退出。這一功能可以通過Init Container實現。

配置restart policy

Pod 運行期間，進程退出是一種常見現象。代碼缺陷或記憶體佔用過多等問題都可能導致應用程式進程退出，從而導致 Pod 終止。您可以為 Pod 配置restartPolicy，確保在 Pod 退出後能夠自動重啟。`

apiVersion: v1
kind: Pod
metadata:
  name: nginx-test
spec:
  restartPolicy: OnFailure 
  containers:
  - name: nginx
    image: anolis-registry.cn-zhangjiakou.cr.aliyuncs.com/openanolis/nginx:1.14.1-8.6

restartPolicy可選值如下：

Always：總是自動重啟。
OnFailure：異常退出時自動重啟（進程退出狀態非0）。
Never：從不重啟。

配置健全狀態檢查探針

為應對應用死結、啟動緩慢或服務失效等異常，配置探針賦予了 Kubernetes 故障自愈與流量管控能力。它能自動重啟異常容器並僅向就緒執行個體分發請求，是保障服務高可用性與穩定性的關鍵機制。

startupProbe (啟動探針）：用於啟動較慢的應用（如Java）檢測是否完成啟動。啟動探測成功前，就緒探針和存活探針不會被執行，防止應用啟動緩慢而被Kubelet誤判為失敗並重啟。
readinessProbe (就緒探針）：用於業務流量控制，僅當檢測通過後才將 Pod IP 加入 Service 的 Endpoints 列表，確保外部請求只分發給具備處理能力的容器。
livenessProbe（存活探針）：負責監測容器的存活狀態，在檢測到死結或崩潰時由 kubelet 觸發自動重啟以實現故障自愈。

以下為一個Nginx無狀態（Deployment）應用配置健全狀態檢查探針的參考樣本。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment-demo
spec:
  replicas: 1                 # 生產環境建議配置2以上保證高可用
  selector:
    matchLabels:
      app: nginx-demo
  template:
    metadata:
      labels:
        app: nginx-demo 
    spec:
      containers:
      - name: nginx
        image: anolis-registry.cn-zhangjiakou.cr.aliyuncs.com/openanolis/nginx:1.14.1-8.6
        ports:
        - containerPort: 80
        resources:
          requests:
            cpu: 500m
            memory: 1Gi
          limits:
            cpu: 500m
        # --- 健全狀態檢查探針 ---
        # 啟動探針 (Startup Probe): 確保容器內應用已完成啟動
        startupProbe:
          httpGet:
            path: / # Nginx預設根路徑可訪問即代表啟動成功
            port: 80
          # 給予應用足夠長的啟動時間。總逾時 = failureThreshold * periodSeconds，即 30 * 10 = 300 秒
          failureThreshold: 30
          periodSeconds: 10
        # 就緒探針 (Readiness Probe): 判斷容器是否準備好接收流量
        readinessProbe:
          httpGet:
            path: /
            port: 80
          initialDelaySeconds: 5  # 容器啟動後5秒開始探測
          periodSeconds: 5        # 每5秒探測一次
          timeoutSeconds: 2       # 探測逾時時間
          successThreshold: 1     # 1次成功即標記為就緒
          failureThreshold: 3     # 連續3次失敗即標記為不就緒
        # 存活探針 (Liveness Probe): 判斷容器是否“存活”，用於實現故障自愈。
        # 此配置應比readinessProbe更寬鬆，以避免因短暫抖動導致不必要的重啟。
        livenessProbe:
          httpGet:
            path: /
            port: 80
          initialDelaySeconds: 15 # 在容器啟動15秒後開始第一次探測，給予應用充分的初始化後穩定時間。
          periodSeconds: 10       # 探測頻率低於readinessProbe，以減少對系統資源的消耗。
          timeoutSeconds: 3       # 逾時時間可略長於readinessProbe。
          successThreshold: 1     # 1次成功即代表存活。
          failureThreshold: 3     # 連續3次失敗（3*10=30秒）後，Kubelet將重啟該容器。

如需在生產環境配置零中斷滾動部署，請參考實現零中斷滾動部署。

每個進程一個容器

部分開發人員習慣將容器當作虛擬機器（VM）使用，並在一個容器中運行多個進程，例如監控進程、日誌進程、sshd 進程，甚至整個 Systemd。這種做法會帶來以下問題：

判斷 Pod 的整體資源佔用會更加複雜，也不利於正確配置 Requests 和 Limits。
如果容器內僅運行單個進程，當該進程中斷時，外部容器引擎能夠立即感知並重啟容器。若容器內運行多個進程，即使其中一個進程崩潰，外部容器引擎也無法感知，可能導致容器無法正常工作。

Kubernetes支援多個進程的協同工作。例如，Nginx 和 PHP-FPM 可通過 Unix Domain Socket 通訊，您可建立一個包含2個容器的 Pod，並將 Unix Domain Socket 存放於兩者的共用 Volume 中。

確保不存在單點故障（Single Point of Failure）

如果應用僅有一個執行個體，當該執行個體發生故障時，儘管 Kubernetes 能夠自動重啟執行個體，但在這期間不可避免地會出現短暫的服務中斷。即使在更新應用或發布新版本時，也可能出現類似的服務中斷情況。

在 Kubernetes 中，應盡量避免直接管理 Pod，而是通過 Deployment 或 StatefulSet 來管理，並確保應用至少運行兩個以上的 Pod 執行個體。這種做法能夠有效提升系統的高可用性，避免因單個執行個體故障導致的服務中斷。

Container Service for Kubernetes：工作負載推薦配置