ACK叢集上實現Slurm HPC & Kubernetes負載混合調度 - Container Service for Kubernetes

本文介紹了Slurm HPC與Kubernetes融合的負載調度策略，旨在通過最佳化資源配置與作業調度機制，不僅能提升計算資源的利用率，還增強了系統整體的穩定性和運行效能。此方案確保在滿足多種計算情境需求的同時，為您構建一個更為高效且靈活的計算平台。

方案概述

為什麼要提出在ACK叢集上實現Slurm HPC & Kubernetes負載混合調度呢？

原因分析：目前ACK會提供靜態分配+分離調度的方案，但是由於每個Slurm Pod的規格固定，且Slurm Pod屬於提前佔用叢集資源，Slurm叢集中資源空閑時Kubernetes無法使用這些已佔用的叢集資源，從而導致叢集資源片段。此外，修改Slurm Pod的資源規格需要刪除Pod重建，因此在Slurm與Kubernetes資源佔用變化較大的情境中，節點遷移的難度較大。
改進方案：考慮到現有方案的弊端，ACK Slurm Operator提供一種Slurm & Kubernetes混合調度方案，通過配置運行在Kubernetes叢集中的協調器以及Slurm叢集的擴充資源外掛程式，使得Kubernetes與Slurm可以共用叢集資源，並且避免在分配資源時出現重複分配的情況。

目前任務共用資源方案可以分為以下兩種。

靜態分配 + 分離調度	Slurm HPC + Kubernetes負載混合調度

Slurm HPC + Kubernetes負載混合調度方案的運行原理如下圖所示。

yuque_diagram (2)

核心組件	描述
SlurmOperator	負責在叢集中以容器化形式拉起Slurm叢集。叢集會以容器化的方式運行，運行Slurm的Worker Pod會以互斥的方式運行在不同叢集節點上，其他的Slurm系統組件會隨機運行在叢集節點上。
SlurmCopilot	使用叢集Token（預設啟動Slurmctld時會自動產生Token並通過kubectl更新到secret中，可通過自訂啟動指令碼或取消更新secret許可權修改此行為，修改後需要手動更新Token至ack-slurm-operator空間下的ack-slurm-jwt-token，Data中以ClusterName為Key，以Token base64 --wrap=0後的結果為value）與Slurmctld進行資源協調通訊。負責在AdmissionCheck被添加到GenericNode上後，修改Slurmctld中對應節點的可用資源量，成功修改可用資源量後將狀態寫回GenericNode，通知ACK Scheduler完成調度。
Slurmctld	slurm的中心管理器，負責監測叢集的資源和作業，以及進行作業的調度和分配。為了提高可用性，還可以配置一個備份的slurmctld。
GenericNodes	是一種自訂資源，作為Kubernetes和Slurm的中間賬本。ACK Scheduler調度一個Pod到節點上之前，會在GenericNode上新增AdmissionCheck，請求Slurm系統確認資源。
Slurmd	slurm的節點守護進程，運行在每個計算節點上，負責執行作業，以及向slurmctld彙報節點和作業的狀態。
Slurmdbd	slurm的資料庫守護進程，負責儲存和管理作業的記賬資訊，以及提供查詢和統計的介面。slurmdbd是可選的，也可以將記賬資訊儲存在檔案中。
Slurmrested	slurm的REST API守護進程，提供了一種通過REST API與slurm進行互動的方式，可以實現slurm的所有功能。slurmrestd是可選的，也可以通過命令列工具與slurm進行互動。

1. 環境準備

1.1 安裝ack-slurm-operator組件

確認已安裝的ACK叢集版本為v1.26及以上。具體操作，請參見為叢集添加GPU節點、升級叢集。

安裝ack-slurm-operator組件並開啟Copilot功能，實現Slurm任務與Kubernetes Pod在同一批物理機器上混合部署。

登入Container Service管理主控台。單擊目的地組群名稱，進入叢集詳情頁面，如下圖所示，按照序號依次單擊，為目的地組群安裝ack-slurm-operator組件。
您無需為組件配置應用程式名稱和命名空間，單擊④下一步後會出現一個請確認的彈框，單擊是，即可使用預設的應用程式名稱（ack-slurm-operator）和命名空間（ack-slurm-operator）。
然後選擇Chart 版本為最新版本，並將②參數enableCopilot設定為true，將③參數watchNamespace設定為default（您也可以根據需要自主設定命名空間），單擊確定即可完成ack-slurm-operator組件安裝。
（可選）更新ack-slurm-operator組件操作步驟。
登入Container Service管理主控台。在叢集資訊頁面，單擊應用 > Helm頁簽，在應用頁面找到ack-slurm-operator組件，然後點擊更新。

1.2 安裝配置ack-slurm-cluster組件

如需快速安裝、管理SlurmCluster，以及靈活調整叢集配置，您可以使用Helm軟體包管理器來部署阿里雲提供的SlurmCluster。從charts-incubator中下載由阿里雲封裝好的SlurmCluster的Helm，設定好相應的參數後，Helm會協助您建立出RBAC、ConfigMap、Secret以及SlurmCluster等資源。

展開查看Helm Chart資源及參數說明

Helm Chart中包含以下資源：

資源類型	資源名稱	功能及用途
ConfigMap	{{ .Values.slurmConfigs.configMapName }}	當.Values.slurmConfigs.createConfigsByConfigMap為True時建立該ConfigMap，用於儲存使用者定義的Slurm設定檔。該設定檔會被掛載到.Values.slurmConfigs.slurmConfigPathInPod的路徑中（該路徑會被渲染到SlurmCluster的.Spec.SlurmConfPath中，最終被渲染到Pod的啟動命令中），在Pod啟動時被複製到/etc/slurm/路徑下並設定存取權限。
ServiceAccount	{{ .Release.Namespace }}/{{ .Values.clusterName }}	允許SlurmCtld所在的Pod修改SlurmCluster，用於SlurmCluster使用CloudNode功能自動擴縮容的情境中。
Role	{{ .Release.Namespace }}/{{ .Values.clusterName }}	允許SlurmCtld所在的Pod修改SlurmCluster，用於SlurmCluster使用CloudNode功能自動擴縮容的情境中。
RoleBinding	{{ .Release.Namespace }}/{{ .Values.clusterName }}	允許SlurmCtld所在的Pod修改SlurmCluster，用於SlurmCluster使用CloudNode功能自動擴縮容的情境中。
Role	{{ .Values.slurmOperatorNamespace }}/{{ .Values.clusterName }}	允許SlurmCtld所在的Pod修改SlurmOperator命名空間下的Secrets，用於SlurmCluster與Kubernetes混合部署情境下SlurmCluster更新Token使用。
RoleBinding	{{ .Values.slurmOperatorNamespace }}/{{ .Values.clusterName }}	允許SlurmCtld所在的Pod修改SlurmOperator命名空間下的Secrets，用於SlurmCluster與Kubernetes混合部署情境下SlurmCluster更新Token使用。
Secret	{{ .Values.mungeConfigs.secretName }}	用於Slurm組件之間的認證，當.Values.mungeConfigs.createConfigsBySecret為True時會自動建立，內容即為"munge.key"={{ .Values.mungeConfigs.content }}。.Values.mungeConfigs.createConfigsBySecret為True時.Values.mungeConfigs.createConfigsBySecret會被渲染為.Spec.MungeConfPath，最終被渲染為Pod的掛載路徑。Pod的啟動命令中會根據該路徑初始化/etc/munge/munge.key。
SlurmCluster	自訂	渲染出的SlurmCluster

相關的參數以及說明可參考下表：

參數	參考值	用途
clusterName	無	叢集名稱，用於Secret、Role等資源產生，需要與後續Slurm設定檔中的ClusterName對應。
headNodeConfig	無	必須存在。聲明Slurmctld的Pod的相關配置。
workerNodesConfig	無	聲明Slurmd的Pod的相關配置。
workerNodesConfig.deleteSelfBeforeSuspend	true	該值為true時，為workerPod自動添加preStopHook，用於節點下線前自動排水並將節點標記為下線狀態。
slurmdbdConfigs	無	聲明Slurmdbd的Pod的相關配置，如果該值不存在，將不會建立Slurmdbd的對應Pod。
slurmrestdConfigs	無	聲明Slurmrestd的Pod的相關配置，不存在該值時，將不會建立Slurmrestd的對應Pod。
headNodeConfig.hostNetwork slurmdbdConfigs.hostNetwork slurmrestdConfigs.hostNetwork workerNodesConfig.workerGroups[].hostNetwork	false	渲染為Slurmctld的Pod的hostNetwork。
headNodeConfig.setHostnameAsFQDN slurmdbdConfigs.setHostnameAsFQDN slurmrestdConfigs.setHostnameAsFQDN workerNodesConfig.workerGroups[].setHostnameAsFQDN	false	渲染為Slurmctld的Pod的setHostnameAsFQDN。
headNodeConfig.nodeSelector slurmdbdConfigs.nodeSelector slurmrestdConfigs.nodeSelector workerNodesConfig.workerGroups[].nodeSelector	`nodeSelector: example: example`	渲染為Slurmctld的Pod的NodeSelector。
headNodeConfig.tolerations slurmdbdConfigs.tolerations slurmrestdConfigs.tolerations workerNodesConfig.workerGroups[].tolerations	`tolerations: - key: value: operator:`	渲染為Slurmctld的Pod的Toleration。
headNodeConfig.affinity slurmdbdConfigs.affinity slurmrestdConfigs.affinity workerNodesConfig.workerGroups[].affinity	`affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: topology.kubernetes.io/zone operator: In values: - zone-a preferredDuringSchedulingIgnoredDuringExecution: - weight: 1 preference: matchExpressions: - key: another-node-label-key operator: In values: - another-node-label-value`	渲染為Slurmctld的Pod的Affinity。
headNodeConfig.resources slurmdbdConfigs.resources slurmrestdConfigs.resources workerNodesConfig.workerGroups[].resources	`resources: requests: cpu: 1 limits: cpu: 1`	渲染為Slurmctld的主容器的資源。WorkerPod的主容器的資源限制會被渲染成為slurm節點的資源上限。
headNodeConfig.image slurmdbdConfigs.image slurmrestdConfigs.image workerNodesConfig.workerGroups[].image	"registry-cn-hangzhou.ack.aliyuncs.com/acs/slurm:23.06-1.6-aliyun-49259f59"	渲染為Slurmctld的鏡像。如需使用自訂鏡像請參考ai-models-on-ack/framework/slurm/building-slurm-image at main · AliyunContainerService/ai-models-on-ack (github.com)。
headNodeConfig.imagePullSecrets slurmdbdConfigs.imagePullSecrets slurmrestdConfigs.imagePullSecrets workerNodesConfig.workerGroups[].imagePullSecrets	`imagePullSecrets: - name: example`	渲染為Slurmctld的鏡像拉取密鑰。
headNodeConfig.podSecurityContext slurmdbdConfigs.podSecurityContext slurmrestdConfigs.podSecurityContext workerNodesConfig.workerGroups[].podSecurityContext	`podSecurityContext: runAsUser: 1000 runAsGroup: 3000 fsGroup: 2000 supplementalGroups: [4000]`	渲染為Slurmctld的SecurityContext。
headNodeConfig.securityContext slurmdbdConfigs.securityContext slurmrestdConfigs.securityContext workerNodesConfig.workerGroups[].securityContext	`securityContext: allowPrivilegeEscalation: false`	渲染為Slurmctld的主容器的SecurityContext。
headNodeConfig.volumeMounts slurmdbdConfigs.volumeMounts slurmrestdConfigs.volumeMounts workerNodesConfig.workerGroups[].volumeMounts	無	渲染為Slurmctld的主容器的卷掛載。
headNodeConfig.volumes slurmdbdConfigs.volumes slurmrestdConfigs.volumes workerNodesConfig.workerGroups[].volumes	無	渲染為Slurmctld的Pod的卷。
slurmConfigs.slurmConfigPathInPod	無	slurm相關配置在Pod中的掛載位置。當Slurm的相關設定檔是通過Volume掛載進入Pod時。需要通過該項聲明slurm.conf的位置。Pod的啟動命令中會將該路徑下的檔案複製到/etc/slurm/下並設定對應許可權。
slurmConfigs.createConfigsByConfigMap	true	是否自動建立儲存Slurm設定檔的ConfigMap。
slurmConfigs.configMapName	無	儲存Slurm設定檔的ConfigMap的資源名稱。
slurmConfigs.filesInConfigMap	無	自動建立儲存Slurm設定檔的ConfigMap時設定檔的內容。
mungeConfigs.mungeConfigPathInPod	無	munge相關配置在Pod中的掛載位置。當munge的相關設定檔是通過Volume掛載進入Pod時。需要通過該項聲明munge.key的位置。Pod的啟動命令中會將該路徑下的檔案複製到/etc/munge/下並設定對應許可權。
mungeConfigs.createConfigsBySecret	無	是否自動建立儲存munge設定檔的Secret。
mungeConfigs.secretName	無	自動建立儲存munge設定檔的Secret時的資源名稱。
mungeConfigs.content	無	自動建立儲存munge設定檔的Secret時設定檔的內容。

其中關於slurmConfigs.filesInConfigMap詳細資料，請參見Slurm System Configuration Tool (schedmd.com)。

重要

Pod啟動後修改slurmConfigs.filesInConfigMap的情況下，需要重建Pod應用新的設定檔，故請提前確認設定檔中的內容。

具體操作如下所示：

執行以下命令，將阿里雲Helm倉庫添加到您的Helm用戶端。該操作將允許您訪問阿里雲提供的各種Charts，包括ack-slurm-cluster組件。
```
helm repo add aliyun https://aliacs-app-catalog.oss-cn-hangzhou.aliyuncs.com/charts-incubator/
```
執行以下命令，拉取並解壓ack-slurm-cluster組件。該操作將會在目前的目錄下建立一個名為ack-slurm-cluster的目錄，其中包含了Chart的所有檔案和模板。
```
helm pull aliyun/ack-slurm-cluster --untar=true
```

執行以下命令，在名為values.yaml的檔案中修改Chart參數。

values.yaml檔案包含了Chart的預設配置。您可以根據您的實際需求通過編輯這個檔案來修改參數。例如Slurm的配置、資源請求與限制、儲存等。

cd ack-slurm-cluster
vi values.yaml

展開查看如何產生JWT並提交到叢集中

產生JWT外掛程式需要的key，並將產生的key通過以下命令匯入叢集中。具體操作，請參見JWT認證外掛程式。

擷取JWK，實現JWT外掛程式的簽名與認證。
JWT認證外掛程式通過Json Web Key（RFC7517）實現JWT的簽名與認證，配置JWT認證外掛程式首先需要產生一個有效Json Web Key，您可以通過自行產生，或搜尋Json Web Key Generator尋找可用的線上產生工具，如mkjwk.org，一個可用的Json Web Key大概如下所示，其中私密金鑰用於對Token進行簽名，公開金鑰需要配置在JWT認證外掛程式中用於對Token進行驗證，一個合法的JWK大概格式如下：
```
{
  "kty": "RSA",
  "e": "AQAB",
  "kid": "O9fpdhrViq2zaaaBEWZITz",
  "use": "sig",
  "alg": "RS256",
  "n": "qSVxcknOm0uCq5vGsOmaorPDzHUubBmZZ4UXj-9do7w9X1uKFXAnqfto4TepSNuYU2bA_-tzSLAGBsR-BqvT6w9SjxakeiyQpVmexxnDw5WZwpWenUAcYrfSPEoNU-0hAQwFYgqZwJQMN8ptxkd0170PFauwACOx4Hfr-9FPGy8NCoIO4MfLXzJ3mJ7xqgIZp3NIOGXz-GIAbCf13ii7kSStpYqN3L_zzpvXUAos1FJ9IPXRV84tIZpFVh2lmRh0h8ImK-vI42dwlD_hOIzayL1Xno2R0T-d5AwTSdnep7g-Fwu8-sj4cCRWq3bd61Zs2QOJ8iustH0vSRMYdP5oYQ"
}        
```
這裡展示的是JSON格式，當使用YAML格式配置外掛程式，需要轉換*
- JWT認證外掛程式只需要配置Public Key，請妥善儲存好您的Private Key，目前JWT認證外掛程式支援以下演算法：
簽名演算法
支援的alg取值
RSASSA-PKCS1-V1_5 with SHA-2
RS256, RS384, RS512
Elliptic Curve (ECDSA) with SHA-2
ES256, ES384, ES512
HMAC using SHA-2
HS256, HS384, HS512
重要
當配置HS256,HS384,HS512類型的Key時，密鑰需要為Base64 UrlEncode後的值，如遇到Invalid Signature問題，請檢查您的Key的格式是否與產生Token的Key一致

將擷取的JWK匯入叢集中。

kubectl create configmap jwt --from-literal=jwt_hs256.key='JWK'

展開查看如何聲明資料庫地址和配置gres

開啟Slurmrestd和Slurmdbd。修改values.yaml的.Values.slurmConfigs.filesInConfigMap欄位聲明資料庫地址以及gres配置，設定檔中的資料庫地址可以使用阿里雲RDS地址，也可以使用自建資料庫地址。

slurmConfigs:
  ...
  filesInConfigMap:
    gres.conf: |
      # 用於Copilot將Kubernetes已指派資源同步至Slurm
      Name=k8scpu Flags=CountOnly
      Name=k8smemory Flags=CountOnly
    slurmdbd.conf: |
      # 日誌路徑，需要與下面驗證時的路徑相同
      LogFile=/var/log/slurmdbd.log
      # 使用slurmrestd時必須指定jwt認證
      AuthAltTypes=auth/jwt
      # Slurmdbd需要使用該路徑中的Key認證token。需要配合下文將Key掛載到Pod中
      AuthAltParameters=jwt_key=/var/jwt/jwt_hs256.key
      AuthType=auth/munge
      SlurmUser=slurm
      # 設定mysql資料庫帳號資訊
      StoragePass=
      StorageHost=
      StorageType=accounting_storage/mysql
      StorageUser=root
      StoragePort=3306
    slurm.conf: |
      # 用於在節點加入Slurm叢集中設定k8scpu，k8smemory擴充資源屬性，防止節點被設定為DOWN狀態
      NodeFeaturesPlugins=node_features/k8s_resources
      # 用於Slurm中提交任務時自動添加k8scpu，k8smemory兩種擴充資源
      JobSubmitPlugins=k8s_resource_completion
      AccountingStorageHost=slurm-test-slurmdbd
      # 使用slurmrestd時必須指定jwt認證
      AuthAltTypes=auth/jwt
      # Slurmctld需要使用該路徑中的Key產生token。需要配合下文將Key掛載到Pod中
      AuthAltParameters=jwt_key=/var/jwt/jwt_hs256.key
      # 用於Copilot將Kubernetes已指派資源同步至Slurm
      GresTypes=k8scpu,k8smemory
      # 填寫${slurmClusterName}-slurmdbd，slurmOperator將會自動建立對應的slurmdbd服務
      AccountingStorageHost=
      AccountingStoragePort=6819
      AccountingStorageType=accounting_storage/slurmdbd
      # 設定JobComp外掛程式使用mysql資料庫時的資訊
      JobCompHost=
      JobCompLoc=/var/log/slurm/slurm_jobcomp.log
      JobCompPass=
      JobCompPort=3306
      JobCompType=jobcomp/mysql
      JobCompUser=root
      # 高可用配置
      SlurmctldHost=

展開查看如何設定Slurmrestd Pod和Slurmdbd Pod相關配置

設定Slurmrestd Pod以及Slurmdbd Pod相關配置。

...
headNodeConfig:
  image: "registry-cn-hangzhou.ack.aliyuncs.com/acs/slurm:23.06-1.6-aliyun-49259f59"
  # 將建立出的JWT Key掛載到Slurm中，與上文設定檔中的路徑對應
  volumes: 
  - configMap:
      defaultMode: 444
      name: jwt
    name: config-jwt
  volumeMounts: 
  - mountPath: /var/jwt
    name: config-jwt
slurmdbdConfigs:
  nodeSelector: {}
  tolerations: []
  affinity: {}
  resources: {}
  image: "registry-cn-hangzhou.ack.aliyuncs.com/acs/slurm:23.06-1.6-aliyun-49259f59"
  imagePullSecrets: []
  # if .slurmConfigs.createConfigsByConfigMap is true， slurmConfPath and volume and volumeMounts will be auto set as:
  #  volumeMounts:
  #    - name: config-{{ .Values.slurmConfigs.configMapName }}
  #      mountPath: {{ .Values.slurmConfigs.slurmConfigPathInPod }}
  # volumes:
  #   - name: config-{{ .Values.slurmConfigs.configMapName }}
  #     configMap:
  #       name: {{ .Values.slurmConfigs.configMapName }}
  # also for mungeConfigs.createConfigsBySecret
  # 將建立出的JWT Key掛載到Slurm中，與上文設定檔中的路徑對應

  volumes: 
  - configMap:
      defaultMode: 444
      name: jwt
    name: config-jwt
  volumeMounts: 
  - mountPath: /var/jwt
    name: config-jwt

slurmrestdConfigs:
  nodeSelector: {}
  tolerations: []
  affinity: {}
  resources: {}
  image: "registry-cn-hangzhou.ack.aliyuncs.com/acs/slurm:23.06-1.6-aliyun-49259f59"
  imagePullSecrets: []
  # if .slurmConfigs.createConfigsByConfigMap is true， slurmConfPath and volume and volumeMounts will be auto set as:
  #  volumeMounts:
  #    - name: config-{{ .Values.slurmConfigs.configMapName }}
  #      mountPath: {{ .Values.slurmConfigs.slurmConfigPathInPod }}
  # volumes:
  #   - name: config-{{ .Values.slurmConfigs.configMapName }}
  #     configMap:
  #       name: {{ .Values.slurmConfigs.configMapName }}
  # also for mungeConfigs.createConfigsBySecret
  # 將建立出的JWT Key掛載到Slurm中，與上文設定檔中的路徑對應
  volumes: 
  - configMap:
      defaultMode: 444
      name: jwt
    name: config-jwt
  volumeMounts: 
  - mountPath: /var/jwt
    name: config-jwt

使用Helm安裝Chart，執行以下命令將會部署ack-slurm-cluster組件。（如果已經安裝了ack-slurm-cluster，可以使用helm upgrade命令更新helm chart。更新後需要手動清理已有Pod以及Slurmctld的StatefulSet完成配置更新。）
```
cd ..
helm install my-slurm-cluster ack-slurm-cluster # my-slurm-cluster可以根據實際情況變更。
```

通過Helm安裝之後可以通過helm list查看當前的ack-slurm-cluster是否完成安裝。

helm list

預期輸出結果如下。

NAME                    NAMESPACE       REVISION        UPDATED                                 STATUS          CHART                   APP VERSION
ack-slurm-cluster       default         1               2024-07-19 14:47:58.126357 +0800 CST    deployed        ack-slurm-cluster-2.0.0 2.0.0

驗證Slurmrestd & Slurmdbd正常啟動

通過kubectl串連叢集查看slurmdbd Pod是否正常啟動。

kubectl get pod

預期輸出結果如下，可以看到此時叢集中有1個Worker節點和3個控制面組件的Pod。

NAME                          READY   STATUS    RESTARTS   AGE
slurm-test-slurmctld-dlncz    1/1     Running   0          3h49m
slurm-test-slurmdbd-8f75r     1/1     Running   0          3h49m
slurm-test-slurmrestd-mjdzt   1/1     Running   0          3h49m
slurm-test-worker-cpu-0       1/1     Running   0          166m

執行以下命令查看日誌資訊，瞭解Slurmdbd是否已經正常啟動。

kubectl exec slurm-test-slurmdbd-8f75r cat /var/log/slurmdbd.log | head

預期輸出結果如下。

kubectl exec [POD] [COMMAND] is DEPRECATED and will be removed in a future version. Use kubectl exec [POD] -- [COMMAND] instead.
[2024-07-22T19:52:55.727] accounting_storage/as_mysql: _check_mysql_concat_is_sane: MySQL server version is: 8.0.34
[2024-07-22T19:52:55.737] error: Database settings not recommended values: innodb_lock_wait_timeout
[2024-07-22T19:52:56.089] slurmdbd version 23.02.7 started

如果您需要在Slurm中擴充安裝其他依賴軟體，您可以展開查看下述內容。

展開查看製作Slurm通用鏡像步驟

準備Slurm鏡像（registry-cn-beijing.ack.aliyuncs.com/acs/slurm:23.06-1.6-aliyun-49259f59中已內建了完成本文檔樣本所需的所有軟體包），您可使用以下Dockerfile樣本，也可以自主添加環境依賴，但需要注意以下外掛程式是否配備，以下外掛程式以及Dockerfile源碼均可以在阿里雲開源倉庫找到。

是否包含kubectl、node_features/k8s_resources。
是否包含job_submit/k8s_resource_completion外掛程式（可選），使用自動填滿gres資源時需要。
預設情況下，Slurmctld會在Slurmd發送_slurm_rpc_node_registration請求時檢查節點的Gres資源使用方式，並在發現Gres資源發生變化時認為節點錯誤，將節點標記為INVAL狀態。INVAL狀態的節點無法調度新的任務，需要重新加入叢集，影響叢集的正常使用。k8s_resources外掛程式在節點的ActivateFeature被更新時將k8s cpu以及k8s memory資源置為0，並將二者的node_feature標誌位設定為true，從而跳過節點的Gres資源檢查，保障了叢集資源的正常使用。

展開查看樣本Dockerfile

FROM nvidia/cuda:11.4.3-cudnn8-devel-ubuntu20.04 as exporterBuilder
ENV TZ=Asia/Shanghai
ENV DEBIAN_FRONTEND=noninteractive
RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone
RUN apt-get update && apt install -y golang git munge libhttp-parser-dev libjson-c-dev libyaml-dev libjwt-dev libgtk2.0-dev libreadline-dev libpmix-dev libmysqlclient-dev libhwloc-dev openmpi-bin openmpi-common libopenmpi-dev rpm libmunge-dev libmunge2 libpam-dev perl python3 systemd lua5.3 libnvidia-ml-dev libhdf5-dev
# Download the source code before building the image
COPY ./slurm-23.02.7.tar.bz2 ./slurm-23.02.7.tar.bz2
RUN tar -xaf slurm-23.02.7.tar.bz2
COPY ../node_features/k8s_resources ./slurm-23.02.7/src/plugins/node_features/k8s_resources
RUN sed -i '/"src\/plugins\/node_features\/Makefile") CONFIG_FILES="\$CONFIG_FILES src\/plugins\/node_features\/Makefile" ;;/ a "    src/plugins/node_features/k8s_resources/Makefile") CONFIG_FILES="\$CONFIG_FILES src/plugins/node_features/k8s_resources/Makefile" ;;' ./slurm-23.02.7/configure
RUN awk '/^ac_config_files="\$ac_config_files/ && !found { print; print "ac_config_files=\"$ac_config_files src/plugins/node_features/k8s_resources/Makefile\""; found=1; next } { print }' ./slurm-23.02.7/configure > ./slurm-23.02.7/configure.new && mv ./slurm-23.02.7/configure.new ./slurm-23.02.7/configure && chmod +x ./slurm-23.02.7/configure
RUN cat ./slurm-23.02.7/configure
RUN sed -i '/^SUBDIRS =/ s/$/ k8s_resources/' ./slurm-23.02.7/src/plugins/node_features/Makefile & \
sed -i '/^SUBDIRS =/ s/$/ k8s_resources/' ./slurm-23.02.7/src/plugins/node_features/Makefile.in & \
sed -i '/^SUBDIRS =/ s/$/ k8s_resources/' ./slurm-23.02.7/src/plugins/node_features/Makefile.am
RUN cd slurm-23.02.7 && ./configure --prefix=/usr/ --sysconfdir=/etc/slurm && make 

FROM nvidia/cuda:11.4.3-cudnn8-runtime-ubuntu20.04
ENV TZ=Asia/Shanghai
ENV DEBIAN_FRONTEND=noninteractive
RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone

RUN apt update
RUN apt install -y munge libhttp-parser-dev libjson-c-dev libyaml-dev libjwt-dev libgtk2.0-dev libreadline-dev libpmix-dev libmysqlclient-dev libhwloc-dev openmpi-bin openmpi-common libopenmpi-dev rpm libmunge-dev libmunge2 libpam-dev perl python3 systemd lua5.3 inotify-tools openssh-server pip libnvidia-ml-dev libhdf5-dev
COPY --from=0 /slurm-23.02.7 /slurm-23.02.7
RUN cd slurm-23.02.7 && make install && cd ../ && rm -rf /slurm-23.02.7
RUN apt remove libnvidia-ml-dev libnvidia-compute-545 -y; apt autoremove -y ; ln -s /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1 /usr/lib/x86_64-linux-gnu/libnvidia-ml.so
COPY ./sh ./
RUN mkdir /etc/slurm
RUN chmod +x create-users.sh munge-inisitalization.sh slurm-initialization.sh slurm-suspend.sh slurm-resume.sh slurmd slurmctld slurmdbd slurmrestd
RUN touch /var/log/slurm-resume.log /var/log/slurm-suspend.log ; chmod 777 /var/log/slurm-resume.log /var/log/slurm-suspend.log
RUN mv slurmd /etc/init.d/slurmd && mv slurmdbd /etc/init.d/slurmdbd && mv slurmctld /etc/init.d/slurmctld
RUN ./create-users.sh && ./munge-inisitalization.sh && ./slurm-initialization.sh
RUN rm ./create-users.sh ./munge-inisitalization.sh ./slurm-initialization.sh
ENV NVIDIA_VISIBLE_DEVICES=
RUN apt-get update && apt-get upgrade -y && rm -rf /var/cache/apt/

2. 驗證拓展負載混合調度功能

2.1 驗證負載混合調度功能

查看genericnode狀態，可以看到Slurm與Kubernetes的負載狀態。

kubectl get genericnode

預期輸出結果如下。

NAME                    CLUSTERNAME   ALIAS                     TYPE    ALLOCATEDRESOURCES
cn-hongkong.10.1.0.19                 slurm-test-worker-cpu-0   Slurm   [{"allocated":{"cpu":"0"，"memory":"0"}，"type":"Slurm"}，{"allocated":{"cpu":"1735m"，"memory":"2393Mi"}，"type":"Kubernetes"}]

提交一個任務到Slurm叢集中，相關命令和預期輸出結果如下，可以看到Kubernetes的任務和Slurm的任務資源使用量都反映在了GenericNode上。

root@iZj6c1wf3c25dbynbna3qgZ ~]# kubectl exec slurm-test-slurmctld-dlncz -- nohup srun --cpus-per-task=3 --mem=4000 --gres=k8scpu:3，k8smemory:4000 sleep inf &
[1] 4132674

[root@iZj6c1wf3c25dbynbna3qgZ ~]# kubectl scale deployment nginx-deployment-basic --replicas 2
deployment.apps/nginx-deployment-basic scaled

[root@iZj6c1wf3c25dbynbna3qgZ ~]# kubectl get genericnode
NAME                    CLUSTERNAME   ALIAS                     TYPE    ALLOCATEDRESOURCES
cn-hongkong.10.1.0.19                 slurm-test-worker-cpu-0   Slurm   [{"allocated":{"cpu":"3"，"memory":"4000Mi"}，"type":"Slurm"}，{"allocated":{"cpu":"2735m"，"memory":"3417Mi"}，"type":"Kubernetes"}]

此時再提交一個任務到Slurm叢集中，可以看到第2個提交的任務進入了PD（Pending）狀態。

[root@iZj6c1wf3c25dbynbna3qgZ ~]# kubectl exec slurm-test-slurmctld-dlncz -- nohup srun --cpus-per-task=3 --mem=4000 sleep inf &
[2] 4133454

[root@iZj6c1wf3c25dbynbna3qgZ ~]# srun: job 2 queued and waiting for resources

[root@iZj6c1wf3c25dbynbna3qgZ ~]# kubectl exec slurm-test-slurmctld-dlncz -- squeue
 JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
     2     debug    sleep     root PD       0:00      1 (Resources)
     1     debug    sleep     root  R       2:34      1 slurm-test-worker-cpu-0

在上述的srun的樣本中，我們並沒有指定gres擴充資源，這是由於在slurm叢集啟動時已經載入了job_resource_completion外掛程式，該外掛程式會自動根據cpu和mem的請求量產生對應的gres資源量。如果沒有開啟該外掛程式，您需要手動指定，本例中需要指定的額外參數為--gres=k8scpu:3,k8smemory:4000。如果您需要瞭解關於Slurm任務指令碼參數是如何設定的，您可以展開查看下述內容。

展開查看Slurm任務指令碼樣本解析

提交Slurm任務時需要在Job上計算gres相關資源請求數量，以下是srun、sbatch提交任務時可使用的參數，以及Slurm任務資源計算樣本。

參數名	說明
--tres-per-task	指定任務中的每個task需要的tres資源。
--gres	指定整個任務需要的gres資源。

展開查看Slurm任務資源計算樣本

計算單個任務所需的gres資源量時，需要計算任務在單個節點上需要的CPU數量以及記憶體數量，這兩種資源可以通過以下方法進行計算。

計算總共需要的CPU數量。
在使用Slurm做作業調度時，合理計算一個任務在單個節點上所需的總CPU核心數量，是確保資源分派和作業調度效率的關鍵。
計算基於作業的以下幾個參數：
- Nodes：作業需要的計算節點數量。
- Tasks per Node：每個節點所需的任務數量。
- CPUs per Task：每個任務所需的CPU核心數量。
這些參數可以在Slurm指令碼或命令列中通過對應的選項指定。
計算公式
總的CPU核心數量可以通過以下公式計算：節點總CPU核心數 = (Tasks per Node) * (CPUs per Task)
樣本
假設你有以下參數：
- Nodes: 2
- Tasks per Node: 4
- CPUs per Task: 2
那麼總的CPU核心數量通過以下公式計算：節點總CPU核心數 = 4 任務/節點 * 2CPU/任務 = 16核心。
計算總共需要的記憶體數量。
在使用Slurm作業調度時，計算任務在每個節點上所需的總記憶體量，是確保資源分派合理，避免資源浪費或任務因記憶體不足等問題的關鍵。和CPU核心數量的計算相似，總記憶體量的計算也基於每個節點的任務數量以及每個任務需要的記憶體量等參數。
節點需要的總記憶體量可以通過以下公式計算：節點總記憶體量 = Tasks per Node × Cores per Task × Memory per Core。
提交任務時自動填滿gres。
提交任務時手動添加--gres時，需要您自行計算任務在每個節點上需要的CPU以及MEM的資源量，且不能阻止惡意使用者提交不帶有--gres聲明的任務。
您可以通過擴充slurm的job_submit外掛程式來實現自動填滿--gres。我們提供了一個相關的程式碼範例。通過該樣本編譯出的外掛程式，提交Job時可以正常提交，但是提交Job時必須使用-n或--ntasks指定Task數量，否則任務會提交失敗。此外，不支援通過--gpus以及--gpus-per-socket的方式聲明總GPU數，否則任務會提交失敗，需要使用--gpus-per-task等方式申請GPU資源。

Slurm任務指令碼樣本

#!/bin/bash
#SBATCH --job-name=test_job                   # 任務名字
#SBATCH --nodes=2                             # 需要的節點數量
#SBATCH --ntasks-per-node=4                   # 每個節點的任務數量
#SBATCH --cpus-per-task=2                     # 每個任務的CPU核心數量
#SBATCH --time=01:00:00                       # 任務啟動並執行最長時間
#SBATCH --output=job_output_%j.txt            # 標準輸出檔案名稱
#SBATCH --error=job_error_%j.txt              # 錯誤輸出檔案名稱

# 使用者的作業命令
srun my_program

您也可以在命令列中指定這些參數。

sbatch --nodes=2 --ntasks-per-node=4 --cpus-per-task=2 --time=01:00:00 --job-name=test_job my_job_script.sh

Slurm命令中的參數解釋：

--nodes (-N): 指定需要分配的節點數量。
--ntasks-per-node (--tasks-per-node): 指定每個節點啟動並執行任務數量。
--cpus-per-task: 指定每個任務需要的 CPU 核心數量。
--time (-t): 指定作業啟動並執行最長時間。
--job-name (-J): 指定作業的名稱。

（可選）2.2 拓展混合調度功能-非容器化Slurm叢集

由於SlurmCopilot通過Slurm的OpenAPI與Slurm進行互動，所以在非容器化情境中，SlurmCopilot同樣可以使用。

針對非容器化情境，Kubernetes中的部分資源需要手動進行建立，除上文中可能需要手動建立的Token之外，需要手動建立的資源如下。

為每個SlurmCluster建立SVC。
SlurmCopilot會從叢集中擷取Service資訊，並向${.metadata.name}.${.metadata.namespace}.svc.cluster.local:${.spec.ports[0].port}發出OpenAPI請求，在非容器化情境中，需要為每個SlurmCluster建立對應的SVC，樣本如下，必須要注意的是SVC的Name必須是${slurmCluster}-slurmrestd，該${slurmCluster}需要能夠與GenericNode中相對應。
```
apiVersion: v1
kind: Service
metadata:
  name: slurm-slurmrestd
  namespace: default
spec:
  ports:
  - name: slurmrestd
    port: 8080
    protocol: TCP
    targetPort: 8080
```
為每個SlurmCluster建立DNS解析。
為了能訪問到對應的Slurmrestd進程，需要在SlurmCopilot中建立對${.metadata.name}.${.metadata.namespace}.svc.cluster.local:${.spec.ports[0].port}的位址解析，解析結果為Slurmrestd的進程地址。
Slurm節點對應的GenericNode資源。
GenericNode用於給SlurmCopilot提供節點在Slurm叢集內的別名，否則SlurmCopilot將無法擷取到Slurm中該節點的具體資訊。其中GenericNode的Name必須與Kubernetes的節點名對應，.spec.alias必須與Slurm中該節點的命名對應，而標籤中的kai.alibabacloud.com/cluster-name以及kai.alibabacloud.com/cluster-namespace需要與SVC的資訊對應。
```
apiVersion: kai.alibabacloud.com/v1alpha1
kind: GenericNode
metadata:
  labels:
    kai.alibabacloud.com/cluster-name: slurm-test
    kai.alibabacloud.com/cluster-namespace: default
  name: cn-hongkong.10.1.0.19
spec:
  alias: slurm-test-worker-cpu-0
  type: Slurm
```

總結

在Slurm HPC和容器化工作負載的混合調度環境中，使用Slurm作為HPC發送器和Kubernetes作為容器編排工具，您可以利用Kubernetes的大量生態系統和服務，例如Helm Charts、CI/CD流水線、監控工具，以及相同的作業調度和管理介面提交HPC作業和容器化工作負載。實現將HPC作業和Kubernetes容器工作負載整合到同一個叢集中，更有效地利用硬體資源。

簽名演算法	支援的`alg`取值
RSASSA-PKCS1-V1_5 with SHA-2	RS256, RS384, RS512
Elliptic Curve (ECDSA) with SHA-2	ES256, ES384, ES512
HMAC using SHA-2	HS256, HS384, HS512