開源架構Ray支援構建可擴充的人工智慧(AI)和Python應用程式,廣泛應用於機器學習領域。本文介紹了如何在ACK叢集上部署Ray Cluster。
1. 建立叢集
關於如何建立叢集,請參見建立ACK託管叢集;如需升級叢集版本,請參見手動升級叢集。建立ACK託管叢集Pro版且符合以下要求。
叢集版本:v1.24及以上。
節點規格:已配置一台8 CPU 32 GB規格及以上的節點。
測試環境可使用推薦的最低規格:生產環境中需以實際情況為準,如需使用GPU節點,請配置GPU節點。
關於ECS支援的執行個體規格,請參見執行個體規格類型系列。
已通過kubectl串連Kubernetes叢集,且已在本地安裝kubectl。具體操作,請參見擷取叢集KubeConfig並通過kubectl工具串連叢集。
2. 安裝Kuberay-Operator組件
登入Container Service管理主控台,在左側導覽列選擇叢集列表。單擊目的地組群名稱,進入叢集詳情頁面,如下圖所示按照序號依次單擊營運管理 > 組件管理 > 應用管理 > 點擊安裝Kuberay-Operator,為目的地組群安裝Kuberay-Operator組件。

3. 部署Ray Cluster
Docker Hub拉取失敗解決方案。
由於電訊廠商網路等不穩定因素可能導致鏡像加速器無法成功拉取到指定版本的容器鏡像,建議您在生產環境中謹慎使用依賴於Docker Hub的容器鏡像。本文樣本中使用的Ray官方鏡像:rayproject/ray:2.36.1,若您無法拉取,您可參照以下操作,替換成訂閱後的鏡像地址。
通過Container RegistryACR訂閱海外源鏡像。具體操作,請參見訂閱海外源鏡像。
建立Global AccelerationGA(Global Accelerator)執行個體,使用其覆蓋全球的網路加速服務直接拉取海外源鏡像。具體操作,請參見使用GA實現ACK跨域加速拉取容器鏡像。
執行以下命令建立名為myfirst-ray-cluster的Ray Cluster,並查看部署情況。
執行以下命令建立Ray Cluster資源。
執行以下命令查看執行部署情況
查看Ray Cluster部署情況。
kubectl get raycluster預期輸出:
NAME DESIRED WORKERS AVAILABLE WORKERS CPUS MEMORY GPUS STATUS AGE myfirst-ray-cluster 1 1 5 5G 0 ready 4m19s查看Ray Cluster對應Pod。
kubectl get pod預期輸出:
NAME READY STATUS RESTARTS AGE myfirst-ray-cluster-head-5q2hk 1/1 Running 0 4m37s myfirst-ray-cluster-work1-worker-zkjgq 1/1 Running 0 4m31s查看Ray Cluster對應Service。
kubectl get svc預期輸出:
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE kubernetes ClusterIP 192.168.0.1 <none> 443/TCP 21d myfirst-ray-cluster-head-svc ClusterIP None <none> 10001/TCP,8265/TCP,8080/TCP,6379/TCP,8000/TCP 6m57s