在通用計算情境中,例如 Web 服務和資料處理,Function Compute通常只需使用基礎的 CPU 執行個體即可滿足需求。然而,在需要進行大規模並行計算或深度學習任務的情境下,如音視頻處理、人工智慧(AI)推理及影像處理等,GPU 執行個體則能夠顯著提升計算效率。
針對 GPU 執行個體,Function Compute提供了三種執行個體類型:彈性執行個體、常駐執行個體和常駐執行個體+彈性執行個體(混合模式)。您可以根據具體的業務需求選擇合適的執行個體類型與規格,在確保業務穩定啟動並執行同時,最大限度地提升資源使用率和效能表現。
執行個體類型選型
針對CPU函數,僅支援彈性執行個體。針對GPU函數,您可以根據業務資源使用率、對延時敏感程度和對費用的穩定性要求,選擇適合的執行個體類型,支援在三種執行個體類型之間進行無損切換。
僅支援為Ada、Ada.2、Ada.3、Hopper和Xpu.1系列卡型的GPU函數綁定常駐執行個體。
彈性執行個體
如果設定函數的最小執行個體數為0,將按請求量自動Auto Scaling,無請求後執行個體自動回收,即按使用量計費,不使用不收費,能夠做到最大程度降本。業務請求越頻繁,資源使用率越高,相對虛擬機器彈性的降本幅度越高。
是否存在冷啟動
是。針對時延敏感業務,為瞭解決冷啟動問題,可以設定最小執行個體數≥1,提前鎖定彈性資源,當請求到達時,迅速喚醒執行個體執行請求。
計費說明(後付費)
函數的使用費用由彈性執行個體(活躍)和彈性執行個體(淺休眠(原閑置))費用構成,如果設定最小執行個體數≥1,建議開啟淺休眠(原閑置)模式開關。彈性執行個體(淺休眠(原閑置))狀態下vCPU資源使用不收費,GPU資源使用僅收1/5費用,使用費用遠遠小於彈性執行個體(活躍)狀態的費用。
關於彈性執行個體(活躍)和彈性執行個體(淺休眠(原閑置))的情境劃分,請參見彈性執行個體。
常駐執行個體
僅適用於GPU函數。使用者需提前購買常駐資源集區,然後基於常駐資源集區為指定函數分配指定數量和卡型的常駐執行個體,從而實現使用成本的可控與固定。適用於業務資源使用率高、時延要求高或對費用穩定性有較高要求的情境。
按月購買常駐資源集區後,在預付費常駐執行個體的額度基礎上,平台會分配一定額度的boost執行個體額度,boost執行個體額度不計費。
是否存在冷啟動
否。使用常駐執行個體時,函數最多可以同時處理的請求數=被分配的常駐執行個體數×執行個體並發數+boost額度的,超出的請求將被流控,而未超出的請求,可以實現即時響應,徹底消除冷啟動。
計費說明(預付費)
函數費用包括已購買的所有常駐資源集區的預付費費用,boost執行個體額度不計費。
常駐執行個體+彈性執行個體(混合模式)
僅適用於GPU函數。結合了常駐執行個體和彈性執行個體的優勢,適用於業務流量有明顯峰穀波動的情境。系統優先使用常駐資源集區承載穩態流量,當請求量超過常駐資源集區的承載上限時,自動觸發彈性執行個體擴充,從而在保證保底容量穩定性的同時,有效應對突發流量。
是否存在冷啟動
部分存在。在常駐資源集區(最小執行個體數)覆蓋的容量範圍內,請求實現即時響應,無冷啟動;當流量觸發彈性擴充並彈出新執行個體時,彈出的彈性執行個體部分存在冷啟動。
計費說明
混合模式的費用由預付費和後付費兩部分組成:
常駐部分:通過已購買的常駐資源集區額度進行抵扣。
彈性部分:超出常駐資源集區額度後自動彈出的執行個體按照後付費模式,和彈性執行個體活躍、淺休眠(原閑置)費用保持一致。
執行個體規格
CPU執行個體
vCPU(核)
記憶體規格(MB)
程式碼封裝大小上限(GB)
函數執行時間長度上限(s)
磁碟大小上限(GB)
頻寬能力上限(Gbps)
0.05~16
取值說明:必須為0.05的倍數。
128~32768
取值說明:必須為64的倍數。
10
86400
10
取值說明:
512 MB,預設值。
10 GB。
5
說明vCPU大小(單位為核)與記憶體大小(單位為GB)的比例必須設定在1∶1到1∶4之間。
GPU執行個體硬體規格概覽
說明ACS 文檔參考:ACS支援的GPU規格類型系列。
執行個體類型
顯存容量
FP16 算力
FP32 算力
單一實例最大卡數
fc.gpu.tesla.1
16 GB
65 TFLOPS
8 TFLOPS
4卡
fc.gpu.ampere.1
24 GB
125 TFLOPS
31.2 TFLOPS
8卡
fc.gpu.ada.1
48 GB
119 TFLOPS
60 TFLOPS
fc.gpu.ada.2
24 GB
166 TFLOPS
83 TFLOPS
fc.gpu.ada.3
48 GB
148 TFLOPS
73.5 TFLOPS
fc.gpu.hopper.1
96 GB
148 TFLOPS
44 TFLOPS
fc.gpu.hopper.2
141 GB
148 TFLOPS
44 TFLOPS
fc.gpu.blackwell.1
32 GB
104.8 TFLOPS
104.8 TFLOPS
fc.gpu.xpu.1
96 GB
123 TFLOPS
61.5 TFLOPS
16卡
GPU執行個體的vCPU與記憶體配置規則
說明多卡資源計算公式:總 vCPU = 單卡 vCPU × 卡數,總記憶體 = 單卡記憶體 × 卡數。
執行個體類型
vCPU(單卡)
記憶體可選範圍(單卡)
記憶體調整步長
fc.gpu.tesla.1
4 核
4 ~ 16 GB (4096 ~ 16384 MB)
4GB (4096MB)
8 核
8 ~ 32 GB (8192 ~ 32768 MB)
16 核
16 ~ 64 GB (16384 ~ 65536 MB)
fc.gpu.ampere.1
8 核
8 ~ 32 GB (8192 ~ 32768 MB)
16 核
16 ~ 64 GB (16384 ~ 65536 MB)
fc.gpu.ada.1
fc.gpu.ada.2
fc.gpu.ada.3
4 核
16 ~ 32 GB (16384 ~ 32768 MB)
8 核
32 ~ 64 GB (32768 ~ 65536 MB)
16 核
64 ~ 120 GB (65536 ~ 122880 MB)
fc.gpu.hopper.1
4 核
16 ~ 32 GB (16384 ~ 32768 MB)
8 核
32 ~ 64 GB (32768 ~ 65536 MB)
16 核
64 ~ 96 GB (65536 ~ 98304 MB)
24 核
96 ~ 120 GB (98304 ~ 122880 MB)
fc.gpu.hopper.2
4 核
16 ~ 32 GB (16384 ~ 32768 MB)
8 核
32 ~ 64 GB (32768 ~ 65536 MB)
16 核
64 ~ 128 GB (65536 ~ 131072 MB)
24 核
96 ~ 248 GB (98304 ~ 253952 MB)
fc.gpu.blackwell.1
4 核
16 ~ 32 GB (16384 ~ 32768 MB)
8 核
32 ~ 64 GB (32768 ~ 65536 MB)
16 核
64 ~ 120 GB (65536 ~ 122880 MB)
24 核
96 ~ 184 GB (98304 ~ 188416 MB)
fc.gpu.xpu.1
4 核
16 ~ 48 GB (16384 ~ 49152 MB)
8 核
32 ~ 96 GB (32768 ~ 98304 MB)
12 核
48 ~ 120 GB (49152 ~ 122880 MB)
Function ComputeGPU執行個體同時支援以下資源規格。
鏡像大小(GB)
函數執行時間長度上限(s)
磁碟大小
頻寬能力上限(Gbps)
ACR企業版(標準版):15
ACR企業版(進階版):15
ACR企業版(基礎版):15
ACR個人版(免費):15
86400
512MB
10 ~ 200GB,步長為10GB
5
說明執行個體規格設定為g1等同於設定為fc.gpu.tesla.1。
目前支援Tesla系列GPU執行個體的地區包括華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、日本(東京)、美國(維吉尼亞)和新加坡。
目前支援Ada系列GPU執行個體的地區包括華北2(北京)、華東1(杭州)、華東2(上海)、華南1(深圳)、新加坡和美國(維吉尼亞)。
GPU執行個體規格與執行個體並發度的關係
Ada.1整卡顯存為48GB,Tesla系列整卡顯存為16GB,僅支援整卡顯存,則單卡同時承載1個GPU容器,由於各地區的GPU卡數配額預設最大為30,地區層級最多可同時承載30個GPU容器。
當GPU函數執行個體並發度為1時,該函數在地區層級的推理並發度為30。
當GPU函數執行個體並發度為5時,該函數在地區層級的推理並發度為150。
單一實例多並發
如果您希望提高執行個體資源使用率,建議根據業務對資源的訴求,配置您的執行個體為單一實例多並發。在這種方案下,當多個任務同時在一個執行個體上執行時,CPU或者記憶體將被搶佔式共用,有效提高資源使用率。更多資訊,請參見配置單一實例並發度。
單一實例單並發執行時間長度
一個執行個體執行一個請求時,執行時間長度的計量是從請求到達執行個體開始,到請求執行完畢為止。
單一實例多並發執行時間長度
一個執行個體並發執行多個請求時,執行時間長度的計量是從第一個請求到達執行個體開始,到最後一個請求執行完畢為止。並發執行請求時,可以複用資源節省費用。