智能圖文匹配成片影視集錦FAQ-智能媒體服務-阿里雲

本文將介紹在使用智能圖文匹配成片—影視集錦過程中所遇到的常見問題。

<智能圖文匹配成片-影視集錦處理邏輯>相關問題

簡單概括全域口播【全域口播模式】和【分鏡指令碼模式】的區別：【全域口播模式】通過完整的一長段口播文案與視頻素材進行智能匹配，而【分鏡指令碼模式】則通過多段分鏡指令碼文案按先後順序逐一與視頻素材進行智能匹配。詳見：

全域口播模式：

分鏡指令碼模式：

在分鏡指令碼模式下，無需設定SpeechTextArray，通過SceneInfo.ShotInfo.ShotScripts控製成片中的每一個分鏡的內容、時間長度、口播等參數。
在單個分鏡中，如果為文案描述模式，則通過單個分鏡中的ScriptText進行片段的智能截取和匹配；如果為手工解析模式，則通過設定情境描述、細節描述和出現的人物進行分鏡視頻片段的智能匹配和截取。
在單個分鏡中，分鏡的時間長度與口播時間長度或自訂時間長度進行對齊。

如果您設定了FaceInfo.ImageInfoList，請確保所設定的單張人臉圖片中僅包含一張人臉，並且確保人臉清晰且無遮擋，否則可能會導致Face Service失敗，從而導致任務無法完成。

正確樣本

錯誤樣本

圖片中同時出現多張人臉

vcg_VCG41N514134629_RF

人臉被遮擋