全部產品
Search
文件中心

Platform For AI:多媒體分析

更新時間:Aug 08, 2025

多媒體分析為您提供多媒體領域內的演算法識別服務,包括基本模型服務和進階模型服務,為您提供開箱即用的演算法服務能力。本文為您介紹多媒體分析相關計費說明和使用指導。

背景資訊

多媒體分析支援的演算法服務如下:

  • 基本模型服務:提供映像領域內開箱即用的演算法服務能力,包括映像多標籤、映像品質分評定、人臉屬性分析(顏值、臉型、髮型、發色等資訊)、年齡分析、人像身材修改(瘦身/大碼)、映像去浮水印等模型服務。

  • 進階模型服務:提供視頻領域內開箱即用的演算法服務能力,包括視頻分類打標、視頻品質分評定、圖文視頻動態分類打標(用於動態、文章類的多模態內容打標)、AI繪圖打標(打標結果用於提升AI繪圖模型訓練效果)等模型服務。

計費說明

多媒體分析提供隨用隨付後付費和資源套件預付費兩種計費方式,具體計費說明,詳情請參見多媒體分析計費說明

使用指導

開通多媒體分析服務和購買資源套件

新使用者首先需要在人工智慧平台PAI情境化解決方案多媒體分析中開通服務,具體操作步驟如下。

  1. 登入PAI控制台

  2. 按照下圖操作指引,開通多媒體分析服務。

  3. 預設使用隨用隨付(後付費)方式,按調用量計費。38e9535689e0b041a5c5c5a0ca32dd1a.png

您也可以選擇購買資源套件,一次性付費購買,享受更優惠的價格。

  1. 多媒體分析頁面的基本模型服務頁簽,單擊購買點數包

  2. 模型服務預付費頁面,配置購買數量情境規格API調用次數,並單擊立即購買

  3. 其中:情境規格支援選擇多媒體分析-基本模型服務多媒體分析-進階模型服務;其他參數根據使用情境進行選擇。

Python SDK使用說明

開通多媒體分析服務後,您可以使用Python SDK調用各項演算法服務,詳情請參見多媒體分析:Python SDK使用說明

Java SDK使用說明

開通多媒體分析服務後,使用Java SDK調用各項演算法服務API介面的操作詳情,請參見Java SDK GitHub。Java SDK和Python SDK的參數基本一致。若需瞭解具體參數說明,請參考多媒體分析:Python SDK使用說明

多媒體分析能力矩陣

規格

模型服務名稱

每次服務消耗

描述

樣本

基本模型服務

映像品質評分

1次基本模型服務

提供映像品質評估能力,返回 [0, 100] 的浮點數分值。

"iqa_result":66.88

人臉屬性分析

1次基本模型服務

  • 提供人臉相關屬性的輸出,包括臉型、發色、髮型、顏值等資訊。

  • 根據人臉地區的座標,將多個人臉區分開來,如果沒有檢測到人臉,則返回一個空數組。

  • 臉型:三角臉、圓臉、心形臉、方形臉、橢圓臉、菱形臉、長臉。

  • 女性髮型:

    • 劉海類型:中分劉海、劉海編髮、斜劉海、無劉海、空氣劉海、齊劉海。

    • 捲髮類型:雲朵卷、大波浪、小波浪、氧氣卷、空氣卷、羊毛卷、蛋卷。

    • 髮型:捲髮、盤發、直發、紮發、編髮。

    • 長短髮:中長發、短髮、長發。

  • 男性髮型:分發、圓寸、子彈頭、平頭、板寸、毛寸、碎發、背頭。

  • 發色:黑色、咖啡色、奶奶灰、栗色、棕色、漸層色、酒紅色、金色、黃色、其他顏色。

  • 顏值:0~5 分。

年齡分析

1次基本模型服務

  • 識別映像中主體人臉(唯一)的年齡區間。

  • 如果映像中有多個人臉,則只會返回地區最大的主體人臉的結果。如果映像中沒有檢測到人臉,將返回錯誤提示。

年齡區間包含:'0-2''3-9''10-19''20-29''30-39''40-49''50-59''60-69''70+'

映像多標籤

1次基本模型服務

提供映像多標籤打標能力,可以輸出機率最高的Top K個標籤以及對應的機率,也可以輸出映像的高維特徵。

高頻標籤舉例:女生、自拍、男生、生活隨拍、截屏、食物、車、美食、遊戲、卡通、動物、韓系穿搭等。

人像身材修改

1次基本模型服務

提供人像身材修改功能,您可以上傳人像照片,並通過調整degree參數來控制人像的身材,包括胖身或瘦身,其中degree > 0表示瘦身。

介面返回修改後映像的Base64編碼。

映像去浮水印

1次基本模型服務

去除映像中包含的浮水印。

介面返回去除浮水印後映像的Base64編碼。

AI繪圖打標

1次基本模型服務

提供AI繪圖(Stable-Diffusion)訓練所需的多種映像多標籤打標能力,更好的標籤能提升訓練模型的生圖效果。

  • 支援的打標模型:WD14、BLIP、GIT、RAM。

  • caption結果樣本:

    "sensitive, 1girl, solo, long hair, looking at viewer, smile, black hair, brown eyes, scarf, lips, realistic"

定製模型服務

N次基本模型服務,具體N的值根據定製模型複雜度有所差異

提供映像、視頻相關的定製模型服務。

根據實際定製模型類型確定。

進階模型服務

圖文視頻動態分類打標

1次進階模型服務

為包含多模態內容的動態或文章提供分類打標服務,支援使用文本+圖片或文本+視頻的組合進行分類打標,並支援返回高維特徵Embedding。

  • 高頻類別舉例:生活、影視綜藝、體育、旅遊、遊戲、美食、健身等。

  • 高頻標籤舉例:運動、美食、舞蹈、健身、烹飪、旅遊、自拍等。

  • embedding舉例:

    0.915,0.882,0.943,0.978,1.027,1.181,1.066,1.029,0.866,0.716,0.628,1.203,0.689,0.533,0.734,1.038,0.98,0.613,0.96,0.88,0.586,0.702,1.515,0.697,0.987,0.699,1.179,4.274,0.757,0.89,0.805,0.901

視頻品質評分

1次進階模型服務

提供短視頻品質評估能力,返回[0-100]的浮點品質分。

"video_score":20.57

視頻分類打標

1次進階模型服務

提供短視頻分類打標能力,返回短視頻類別和機率較高的Top K個標籤及對應機率,也支援輸出視頻的高維特徵。

  • 高頻類別舉例:生活、知識、音樂、科技、遊戲。

  • 高頻標籤舉例:有字幕、小姐姐、社會新聞資訊、瘦身塑形、劇情段子、影視片段、自然風景等。

測試與服務

如果您需要做進一步的測試和服務,請工單聯絡我們擷取支援人員。