智算服務 PAI-靈駿是面向大規模深度學習及融合智算的PaaS產品,基於軟硬體一體最佳化技術,構建高效能異構算力底座,提供AI工程化全流程能力,具備高效能、高效率、高利用率等核心優勢,滿足高效能運算等領域需求,在大模型訓練、自動駕駛、基礎科研、金融等領域廣泛應用。
大規模分布式訓練
支援Serverless架構的AI研發情境,能夠處理包括GPT-3(175B參數)、M6(萬億參數)、PLUG、STAR等大規模模型的訓練任務,提供深度最佳化的智能計算服務,適用於圖形影像處理(如AIGC映像產生)、自然語言處理(如AIGC文本產生)、語音和視頻等應用領域,確保高效且可預期的訓練服務,從而加速模型迭代效率。
“萬卡級”線性擴充 支援不同規模的AI訓練算力需求,實現點對點通訊延遲低至2微秒,確保算力資源的平滑擴容和效能的線性擴充。
超高吞吐和IOPS 針對AI訓練情境,將資料積極式載入至持久化儲存,以滿足訓練過程中資料載入和寫入的高頻寬需求,從而提升訓練效率。
高資源使用率 通過對GPU資源進行細粒度的切分和調度,支援協同開發。該技術已通過雙十一大規模應用驗證,資源使用率提升可達3倍。
自動駕駛
提供一站式的訓練與模擬平台,支援全情境應用,並通過多種GPU資源調度策略、RDMA網路和CPFS儲存系統,確保高效的資料處理和計算能力。與此同時,平台注重資料安全與合規,提供了豐富的部署和調度策略,提升迭代效率並降低資料移轉成本。
高效的訓練與模擬支援
提供統一的平台支援訓練和模擬需求,簡化開發流程,並通過多種GPU資源調度策略,保證訓練任務的高效執行。
檔案儲存體CPFS與RDMA網路架構相結合,確保訓練資料的高頻寬供給和計算IO效能,同時通過OSS分級儲存降低歸檔資料的儲存成本。
全面的安全與合規保障
平台支援多種自動駕駛應用情境,符合安全與合規要求,包括資料資訊安全中心、Cloud Firewall、Bastionhost、Data Encryption Service、SSL加密、存取控制和Database Audit,確保資料和應用的安全性。
高資源使用率與靈活擴充
對GPU資源進行細粒度切分和調度,支援協同開發,資源使用率可提升至3倍。雲上資源彈性擴充可選,按需打通,確保靈活的資源管理,提升迭代效率並降低資料移轉成本。
科研智算
通過超大規模融合算力,實現對深度學習和高效能運算任務的統一部署與調度,為基礎科研、新藥研發、工程模擬等領域提供統一的標準化計算服務。此舉不僅推動了範式創新和效率提升,還促進了AI與Alibaba Cloud HPC開發生態的深度融合。
促進科研新範式
通過支援雲原生和容器化的AI與HPC應用生態,為基礎科研、新藥研發、新材料研究等領域提供統一的計算服務,支援跨地區、跨團隊的協同作業,提高資源使用率,並推動技術生態的融合,增強協同效應。
打造科研大平台
利用RDMA技術和阿里雲高效能通訊庫,構建低延遲、高頻寬的網路環境,針對AI與HPC應用進行通訊最佳化,實現了點對點通訊延遲低至2微秒,最大支援數萬節點的並行計算,為大規模科學計算提供高效的智能計算服務。