查看模型使用統計與免費配額 - 模型工作室

介紹如何查看阿里雲百鍊各模型的用量。

如需瞭解免費額度相關內容，請參考新人免費額度文檔。您也可以在免費額度頁面查看和管理免費額度使用方式。

適用範圍

適用地區：本文檔僅適用於新加坡地區，具體參見選擇地區和部署模式。
支援的模型：模型列表中的所有模型均支援查看用量。

查看免費額度使用方式

在控制台查看免費額度使用方式

進入模型用量：免費額度頁面，選擇模型類型頁簽查看各模型的免費額度使用方式。
在全部模型表格中，可通過搜尋、排序、篩選等方式尋找特定模型，並可切換免费额度用完即停開關或使用大量操作功能管理免費額度設定。

說明

免費額度用完即停：開啟後，免費額度用盡時服務將自動停止（返回403錯誤：AllocationQuota.FreeTierOnly），避免產生免費額度以外的費用。若您希望在免費額度用盡後仍繼續使用模型服務，並根據實際產生的用量付費，請保持本功能關閉狀態。您只能在賬戶內仍有未消耗的免費額度時開啟本功能。一旦功能開啟，若您需要關閉本功能，需要在免費額度完全消耗後再進行關閉（免費額度出賬周期為分鐘級；控制台免費額度資料非即時、可能有延遲，請以控制台顯示的免費額度數值為準）。

查看模型用量

國際站控制台僅支援查看免費額度使用方式。如需查看詳細的用量統計，請前往賬單詳情頁面，匯出賬單查看 Token 用量。

模型用量統計單位說明

在阿里雲百鍊，不同模型的用量統計口徑如下：

類型	二級分類	統計單位	計費說明（模型調用）
大語言模型	文本產生模型	Token	按輸入和輸出對應的 Token 數計費。
	深度思考模型
	視覺理解模型
視覺模型	映像產生	張	按成功產生的映像張數計費。
	視頻產生	秒	按成功產生的視頻秒數計費。
語音模型	語音合成模型	秒、字元或 Token	可能按音頻時間長度（秒）、對應的文本字元數或 Token 數計費，視模型而定。
	即時語音合成模型
	錄音檔案識別模型
	即時語音辨識模型
	音視頻翻譯模型
全模態模型	全模態模型	Token	文本部分按 Token 數，其他模態（音頻、映像、視頻）按對應的 Token 數計費。
	即時多模態模型
向量模型	多模態向量模型	Token	按輸入文本的 Token 數計費。
	文本向量模型

應用於生產環境

管理模型用量建議：

控制模型輸出長度： 在調用模型 API 時，合理限制思考長度和設定 max_tokens 參數，可限制模型單次產生內容的最大長度（從而控制費用）。
根據任務類型選擇模型： 對於分類、摘要等簡單任務，優先選擇成本更低的輕量級模型（如 qwen-turbo），而不是始終使用功能強大但價格也較高的模型（如 qwen-max）。
監控與警示： 通過模型監控監控用量趨勢，並可配置用量警示，當用量出現異常時及時收到通知。
最佳化 Prompt： 簡潔、清晰的 Prompt 不僅能提升模型輸出品質，也能減少不必要的輸入 Token 消耗。
使用批量推理： 對於非即時、大批量的處理任務，使用批量推理通常比即時調用更具成本優勢。

名詞解釋

名詞	解釋
Token	大模型以 Token 為單位處理輸入和輸出。一個 Token 可能是：單個字元：如`A`、`我` 完整的單詞：如`large`、`Model` 長單詞的一部分：一個長單詞通常會被拆分為多個 Token，拆分的過程稱為分詞。根據經驗，平均 1 個漢字約對應 1.5-2 個 Token；1 個英文字母約對應 0.25 個 Token；1 個英文單詞約對應 1.3 個 Token： `阿里雲百鍊`：約 4-5 個 Token `Hello World`：約 2 個 Token 每個模型都有最大輸入和輸出 Token 數（詳見模型列表），超過限制會導致請求失敗。
实时推理	指對模型的所有直接和間接調用，主要涵蓋以下情境： API調用模型廣場阿里雲百鍊應用（智能體/工作流程/智能體編排應用，以及涉及到模型調用的節點，如大模型節點、意圖分類節點以及智能體群組節點等）的測試態和發布態 Assistant API調用應用調用
批量推理	對於無需即時響應的情境，通過OpenAI相容-Batch（檔案輸入）介面以離線方式進行的大規模資料處理。

常見問題

Q: 如何查我的阿里雲帳號的 Token 總用量？

A: 使用阿里雲帳號（主帳號）訪問賬單詳情頁面並匯出賬單，然後在賬單中查看 Token 用量。