基於人物肖像圖片音頻產生唱演視頻-悅動人像EMO-大模型服務平台百鍊-阿里雲

悅動人像EMO可基於人物肖像圖片和人聲音頻檔案，產生高品質的人物肖像動態視頻。其中，包含2個獨立的模型“悅動人像EMO-detect”和“悅動人像EMO”，分別提供人物圖片合規檢測與人物視頻產生能力。

重要

本文檔僅適用於“中國內地（北京）”地區。如需使用模型，需使用“中國內地（北京）”地區的API Key。

輸入物：人物肖像圖片+人聲音頻檔案

輸出物：人物肖像動態視頻

人物肖像：

上春山

人聲音頻：參見右側視頻

人物視頻：

使用動作風格強度：活潑（"style_level": "active"）

人物肖像：

15_原圖

人聲音頻：參見右側視頻

人物視頻：

使用動作風格強度：適中（"style_level": "normal"）

人物肖像：

娃哈哈

人聲音頻：參見右側視頻

人物視頻：

使用動作風格強度：平靜（"style_level": "calm"）

說明

以上樣本，由整合了“悅動人像EMO”的千問APP產生。

模式

模型名稱

單價

任務下發介面QPS限制

同時處理中任務數量

模型調用

emo-detect-v1

模型調用，後付費：

$0.000574/張

同步介面無限制

emo-v1

模型調用，後付費：

（在同一時刻，只有1個作業實際處於運行狀態，其他隊列中的作業處於排隊狀態）

已開通服務並獲得API-KEY：擷取API Key與API Host。

悅動人像EMO系列模型支援後付費調用。
模型調用時，參照以下順序：
1. 調用“悅動人像EMO-detect”模型確認輸入的人物映像符合規範（可參考文檔：EMO 映像檢測）；
2. 調用“悅動人像EMO”模型，輸入人物映像原圖、經檢測通過後獲得的相關映像地區參數、以及包含清晰人聲的音頻檔案，產生人物肖像動態視頻（可參考文檔：EMO 視頻產生）。