模型訓練完成後,可以通過EAS(Elastic Algorithm Service)快速部署為線上推理服務或AI-Web應用。EAS支援異構資源,結合自動擴縮容、一鍵壓測、灰階發布、即時監控等能力,以更低成本保障高並發情境下的服務穩定性與商務持續性。
產品架構

核心能力
EAS提供從資源管理、模型部署到服務營運的全鏈路能力,保障業務穩定、高效運行。
靈活的資源與成本管理
異構硬體支援:支援CPU、GPU及AI專屬GU機型,滿足不同模型的效能需求。
成本最佳化:支援使用搶佔型執行個體,顯著降低計算成本。通過定時擴縮容功能,可根據業務周期規律提前設定策略,精準控制資源投入。
彈性資源集區:當專屬資源組用滿後,可自動將新增執行個體調度至公用資源群組,在控製成本的同時保障服務的穩定性。
全面的穩定性與高可用保障
彈性擴縮容:根據即時負載自動調整服務副本數量,從容應對不可預測的流量高峰,避免資源閑置或服務過載。
高可用機制:提供自動故障恢複機制,確保服務連續性。專屬資源為物理隔離,無資源搶佔風險。
安全發布:支援灰階發布,可按比例分配流量至新版本進行驗證。同時支援流量鏡像,可將線上流量複製到測試服務進行可靠性驗證,不影響真實使用者請求。
高效的部署與營運
一鍵壓測:提供一鍵壓測功能,支援動態加壓並自動探測服務效能極限,即時查看秒級監控資料與壓測報告,協助您快速評估服務能力。
即時監控:提供QPS、響應時間長度、CPU利用率等關鍵計量的即時監控,並支援開通服務監控警示,讓您全面掌握服務運行狀態。
多種部署方式:支援通過鏡像(推薦)或Processor部署方式部署服務,滿足不同技術棧的需求。
多樣的推理模式
即時同步推理:具備高吞吐、低延遲特性,適用於對響應延遲敏感的情境,如搜尋推薦、對話機器人等。具備高吞吐、低延遲特性。
近即時非同步推理:內建訊息佇列,適用於文圖產生、視頻處理等長耗時任務。支援根據隊列積壓程度自動擴縮容,避免請求堆積。
離線批量推理:適用於響應時間長度不敏感的批量處理情境,如語音資料批量轉換。同時支援搶佔型資源執行個體,以控製成本。
工作原理(鏡像部署)
EAS服務本質上是運行在一個或多個隔離的容器執行個體中。服務啟動過程包含以下核心要素:
鏡像 :一個包含作業系統、基礎庫(如CUDA)、語言環境(如Python)和必要依賴的唯讀模板。可使用PAI提供的官方鏡像,也可以自訂鏡像以滿足特定業務需求。
代碼與模型 :您的商務邏輯代碼和模型檔案。推薦儲存在Object Storage Service或Apsara File Storage NAS中。這能實現代碼/模型與環境的解耦,無需重建鏡像即可更新業務代碼和模型。
儲存掛載:EAS在啟動時,會將您指定的外部儲存路徑掛載到容器的本地目錄。這使得容器內的代碼可以像訪問本地檔案一樣,直接存取外部儲存上的檔案。
運行命令:容器啟動後需要執行的第一個命令。通常用於啟動HTTP服務以接收推理請求。
整個流程如下:
拉取指定的鏡像來建立容器。
將外部儲存掛載到容器的指定路徑。
在容器內執行運行命令。
命令成功執行後,在指定連接埠監聽並處理推理請求。
EAS支援鏡像部署和Processor部署兩種部署方式。推薦使用鏡像部署。因為鏡像部署提供了更高的靈活性和可維護性,而Processor部署在環境和架構存在較多限制。
使用流程
步驟1:準備工作
步驟2:部署服務
支援通過控制台、EASCMD命令列、SDK的方式部署和管理服務。
步驟3:調用與壓測服務
步驟4:監控與管理服務
監控與警示:在推理服務列表中查看服務運行狀態,建議開通服務監控警示以即時掌握服務健康情況。
Auto Scaling:根據業務需求配置彈性擴縮容或定時擴縮容策略,實現計算資源的動態管理。
服務更新:在操作列下單擊更新以部署新版本。更新完成後,可查看版本資訊或切換版本。
警告服務更新過程中將暫時中斷運行,可能導致依賴此服務的請求失敗,請務必謹慎操作。
重要提示
若EAS服務持續180天處於非運行中狀態,系統將自動刪除該服務。
EAS支援的地區參見地區和可用性區域。
計費說明
詳情請參見模型線上服務(EAS)計費說明。
快速開始
情境案例
常見問題
Q:專屬資源 vs 公用資源?
公用資源:適合對成本敏感、效能波動容忍度較高的開發測試或小規模業務。成本較低,但高峰期可能存在資源爭用。
專屬資源:適合對服務穩定性和效能有高要求的生產環境核心業務。物理隔離無搶佔風險,彈性資源集區特性允許在專屬資源用滿後,自動溢出到公用資源,兼顧成本與高峰期的業務穩定性。對於庫存緊張的機型,需要通過專屬資源鎖定購買。
Q:EAS相比自建服務有什麼優勢?
EAS提供託管營運:自動處理資源調度、故障恢複和監控,提供標準化的Auto Scaling、灰階發布功能。開發人員可專註模型開發,省去營運成本,加速上線。