全部產品
Search
文件中心

Platform For AI:PAI靈駿智算服務概述

更新時間:Mar 13, 2025

PAI靈駿是一種大規模高密度計算服務,全稱“PAI靈駿智算服務”,提供高效能AI訓練、高效能運算所需的異構計算算力服務。PAI靈駿主要面向圖形Image Recognition、自然語言處理、搜尋廣告推薦、通用大模型等大規模分布式的AI研發情境,適用於自動駕駛、金融風控、藥物研發、科學智能、元宇宙、互連網和ISV等行業。您只需為AI訓練所消耗的資源付費,無需建設、調優和營運複雜的計算節點、儲存及RDMA網路,即可使用高擴充性、高效能、高性價比的智能計算基礎設施環境。

產品架構

  • PAI靈駿是軟硬體一體化設計的算力叢集服務,硬體涵蓋了伺服器、網路、儲存以及叢集的整體交付管理等,軟體包括算力資源管控營運、AI加速套件、雲原生任務管理,以及完善的AI開發作業平台,支援Pytorch、TensorFlow等常見AI架構。

  • PAI靈駿的底層硬體核心組件由磐久伺服器和高效能RDMA網路兩部分組成:

    • 伺服器採用阿里雲自研的磐久伺服器,在核心配置上進行多項最佳化,充分保證硬體的效能釋放。

    • 網路支援常見的Fat-Tree網路拓撲,支援TCP/IP和RDMA等多種通訊協定。其中,PAI靈駿25G網路和100G網路獨立組網;25G網路用於伺服器帶內管理,100G網路的多個網卡用於AI訓練業務的高效通訊。為提升PAI靈駿網路可用性,PAI靈駿支援雙上聯組網,每個網卡的兩個連接埠分別接到兩個交換器上,在串連出現故障時可自動切換,保證網路可用性。

  • 軟體架構自底向上包括資源管理、計算加速庫、機器學習和深度學習架構、開發環境以及任務管理等多個部分。

    • 資源管理部分,PAI靈駿通過容器技術(Docker)進行資源的劃分和調度,併兼容Kubernetes(K8s)等編排工具。

    • 系統的營運和監控,採用阿里巴巴的Apsara Infrastructure Management Framework系統對叢集的底層資源和狀態進行即時監控。

    • 支援加速庫,主要對PAI靈駿叢集的通訊進行了深度的定製最佳化。

    • 計算系統支援任務的介面化提交和任務日誌查看,支援主流的AI計算架構,例如:PyTorch、TensorFlow等。

為什麼選擇PAI靈駿

選擇PAI靈駿,您可以輕鬆構建具有以下優勢的智能叢集:

  • 算力即服務。提供高效能、高彈性異構算力服務,支援萬張GPU規模的資源彈性,單叢集網路容量高達4Pbps,時延低至2微秒。

  • 高資源效率。資源使用率提升3倍,並行計算效率提升90%以上。

  • 融合算力池。支援AI+HPC情境算力的統一分配和融合調度,無縫串連。

  • 算力管理監控。為異構算力深度定製IT營運管理平台,實現異構算力到池化資源到使用效率的全流程監控管理。

產品優勢

  • 加速AI創新。全鏈路效能提速,計算密集型專案迭代效率可提升2倍以上。

  • 最大化ROI。高效的池化異構算力調度技術,確保每一份算力投入都能得到充分利用,資源使用率可提升3倍。

  • 無懼規模挑戰。輕鬆應對大模型和大規模工程模擬的算力需求,讓創新不受算力限制。

  • 可視又可控。簡單地管理異構算力的分配,並持續地監控和最佳化。

應用情境

PAI靈駿主要面向圖形Image Recognition、自然語言處理、搜尋廣告推薦、通用大模型等大規模分布式的AI研發情境,適用於自動駕駛、金融風控、藥物研發、科學智能、元宇宙、互連網和ISV等行業。

  • 大規模分布式訓練。

    • 超大規模GPU算力系統。

      全對等網路架構,全資源集區化,可以搭配PAI(Machine Learning Platform for AI)使用,支援多種訓練架構(Pytorch、TensorFlow、Caffe、Keras、XGBoost、Mxnet等),可以滿足多種規模的AI訓練和推理業務。

    • AI基礎設施。

      • 平滑擴容。滿足不同規模GPU算力需求,平滑擴容,效能線性拓展。

      • 智能資料加速。針對AI訓練情境提供資料智能加速,主動預熱訓練所需資料,提升訓練效率。

      • 更高資源使用率。支援異構資源細粒度管控,提升資源周轉效率。

  • 自動駕駛。

    • 豐富的部署和調度策略。

      多種GPU資源調度策略,保證訓練任務高效執行。檔案儲存體CPFS(Cloud Paralleled File System)搭配RDMA網路架構,保證訓練資料供給和計算IO;並可使用OSS分級儲存降低歸檔資料存放區成本。

    • 同時支援訓練和模擬情境。

      融合算力智能供應,同時支援訓練模擬兩種情境,從協同模式上提升迭代效率,降低資料移轉成本。

  • 科學智能。

    • 拓展提升創新上限。

      基於資料中心超大規模RDMA“高速網”和通訊流控技術,實現端到端微秒級通訊時延,超大規模線性拓展可打造萬卡級並行算力。

    • 融合生態,拓展創新邊界。

      支援HPC和AI任務融合調度,為科研和AI提供統一協同的底座支撐,促進技術生態融合。

    • 雲上科研,普惠算力。

      支援雲原生和容器化的AI和HPC應用生態,資源深度共用,普惠的智能算力觸手可得。

功能特性

  • 高速RDMA網路架構。阿里巴巴2016年開始投入專項研究RDMA(Remote Direct Memory Access),

    目前已建成大規模資料中心內的“高速網”,通過大規模RDMA網路部署實踐,阿里雲自主研發了基於端網協同的RDMA高效能網路通訊協定和HPCC擁塞控制演算法,並通過智能網卡實現了協議硬體卸載,降低了端到端網路延時,提升了網路IO吞吐能力,並有效規避和弱化了網路故障、網路黑洞等傳統網路異常給上層應用帶來的效能損失。

  • 高效能集合通訊庫ACCL。PAI靈駿支援高效能集合通訊庫ACCL(Alibaba Collective Communication Library),結合硬體(例如:網路交換器),對萬卡規模的AI叢集提供無擁塞、高效能的叢集通訊能力。阿里雲通過通訊庫ACCL實現了GPU和網卡的智能匹配、節點內外物理拓撲自動識別及拓撲感知的無擁塞通訊演算法,徹底消除網路擁塞,提升網路通訊效率,提高分布式訓練系統的擴充性。在萬卡規模下,可達80%以上的線性叢集能力。在百卡規模下,有效(計算)效能可達95%以上,可滿足80%以上的業務情境需求。

  • 高效能資料主動載入加速軟體KSpeed。PAI靈駿基於高效能網路RDMA和高效能通訊ACCL,研發高效能資料主動載入加速軟體KSpeed,進行智能資料IO最佳化。計算儲存分離架構廣泛存在於AI、HPC、巨量資料業務情境中,但大量訓練資料的載入容易形成效率瓶頸。阿里雲通過高效能資料主動載入加速軟體KSpeed,實現資料IO數量級效能提升。

  • GPU容器虛擬化方案eGPU。針對AI作業規模龐大、GPU硬體資源昂貴、叢集GPU利用率低等業務情境實際遇到的問題,PAI靈駿支援GPU虛擬化技術eGPU,可有效提升AI叢集的GPU利用率,具體如下:

    • 支援顯存、算力雙維度自由切分。

    • 支援多個規格。

    • 支援動態建立、銷毀。

    • 支援熱升級。

    • 支援使用者態技術,保證更高可靠性。

PAI靈駿網路使用限制

限制項

限制

提升配額方式

單個帳號在同一地區支援建立的靈駿網段數量

8

具體操作,請參見管理配額

單個靈駿網段支援建立的靈駿子網數量

16

具體操作,請參見管理配額

單個靈駿子網內的靈駿節點數量

1000

單個靈駿網段內的靈駿節點數量

1000

靈駿網段和靈駿子網支援配置的網段

可以使用除100.64.0.0/10224.0.0.0/4127.0.0.0/8169.254.0.0/16及其子網外的自訂位址區段作為靈駿網段。

單個帳號在同一地區支援建立的靈駿串連執行個體數量

16

單個靈駿串連執行個體從公用雲學習的IPv4路由條目數

50

單個靈駿串連執行個體從公用雲學習的IPv6路由條目數

25

單個帳號在同一地區支援建立的靈駿HUB執行個體數量

4

具體操作,請參見管理配額

單個靈駿網段支援串連的靈駿HUB數量

1

具體操作,請參見管理配額

單個靈駿串連支援連通的靈駿HUB執行個體數量

1

具體操作,請參見管理配額

單個靈駿HUB執行個體支援連通的靈駿串連數量

32

具體操作,請參見管理配額

單個靈駿HUB執行個體支援的同一地區所有靈駿網段中的靈駿節點數量

2000

單個靈駿HUB支援配置的路由策略條目數量

100

單個靈駿網卡支援的輔助私網IP數量

3

具體操作,請參見管理配額

產品規格與開通

  • 開通:PAI靈駿智算服務目前處於定向公測階段,阿里雲業務人員會主動為需要購買的使用者供應商品購買連結,並提供控制台管理員帳號。開通PAI靈駿的流程,請參見開通靈駿

  • 計費:PAI靈駿智算服務包含固費分期和訂用帳戶模式。詳細計費說明請參見產品計費