本文詳細說明了從 Hugging Face 部署模型的步驟，包括前提條件、配置選項、GPU選擇及監控狀態等關鍵環節。 - SuperApp

本文介紹了小程式叢集對接方案如何部署 Hugging Face 上的模型。

前提條件

開始之前，請確保您已準備好以下內容：

第一步：填寫模型資訊

說明

類型：選擇 LLM、VLM、Text-to-Image、Image-to-Image、Text-to-Video 或 Image-to-Video。
架構：選擇推理架構（如 vLLM、SGLang）。
版本：選擇架構版本。
Access Token（可選）：如果模型為私人模型，請在此處粘貼您的 Access Token。

如何擷取 Access Token？

2. 前往 Settings → Access Tokens。

3. 點擊 New token，填寫名稱，設定要求的權限（下載模型至少需要 read 許可權），然後點擊 Generate token。

4. 複製產生的 Token（格式：hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx）。

完成後，點擊 「分析模型」 繼續。

查看模型資訊，並完成部署設定。

顯示名稱：為您的部署指定一個描述性名稱。
GPU 類型：為您的模型選擇合適的 GPU 類型。
說明：可用的 GPU 類型及庫存因地區而異。如果您所在地區暫無所需 GPU，可聯絡我們尋求協助。
部署命令：用於啟動模型服務的命令。
如何配置：
參考您所使用容器鏡像的文檔，擷取所需的啟動命令。
對於 Hugging Face Text Generation Inference 鏡像，常用樣本如下：text-generation-launcher --model-id <model-id> --port 8080
將 <model-id> 替換為您的 Hugging Face 模型倉庫 ID。
容器鏡像：包含部署模型所需完整運行環境的 Docker 或 OCI 鏡像。可從以下選項中選擇：
- 推薦鏡像：平台根據您的模型和架構自動選擇的最佳化鏡像，推薦大多數使用者使用。
- Hugging Face 鏡像：
  來自 Hugging Face 容器登錄（ghcr.io）的官方推理鏡像。詳情請參閱文檔。
  樣本：ghcr.io/huggingface/text-generation-inference:latest
- 自訂鏡像：如果您自行構建的鏡像滿足模型運行環境要求，也可以使用自訂鏡像。
副本數量：啟動並執行模型執行個體數量。副本數越多，負載平衡效果越好，可用性越高。

部署配置

確認並部署

費用概覽

說明：模型下載與儲存費用不計入費用概覽。如需申請折扣，請點擊「申請折扣」，否則將按標準定價收費。

部署完成後，本步驟將指導您如何查看部署狀態，並在服務出現問題時進行故障排查。

以下是您的部署可能經歷的各種狀態：