相對於通過標題或中繼資料匹配和過濾的傳統媒資搜尋,智能媒資檢索能夠利用AI演算法對音視頻內容進行智能分析,從而可以從視覺語義、人臉相似性等維度進行更有力的檢索。
功能說明
智能媒資檢索,簡稱智能檢索,又稱為多模檢索。通過AI演算法對媒資內容的分析,無需人工對音視頻內容打標,即可直接搜尋音視頻中出現的內容。
阿里雲智能媒體服務智能媒資檢索功能使用或問題諮詢等,請搜尋DingTalk群(30415005038)加入智能媒體服務多模檢索客戶答疑群聯絡我們。
阿里雲智能媒體服務的智能檢索能力如下:
視頻跨模態搜尋,支援從視覺、音頻、文本多個模態搜尋
支援的媒資形式:視頻、音頻、圖片
支援的搜尋形式:關鍵詞搜尋、自然語言搜尋、圖片搜尋
可支援高達數十萬小時視頻,搜尋結果秒級響應
模態 | 特徵 | 能力說明 |
映像 | 人臉 | 支援超過50萬名人、政治人物、敏感人物的識別 支援用人臉圖片搜尋人物 |
Logo | 支援識別500多個央視及各衛視電視台台標; 支援識別200多個主流中英文車標; 支援識別常見交通標識; 支援識別20多萬個品牌識別; | |
字幕 | 支援識別中英文 支援動態字幕 | |
畫面語義 | 基於多模態表徵大模型的視覺語義提取與搜尋 | |
畫面相似性 | 基於映像指紋特徵尋找相似的圖片或視頻 | |
音頻 | 語音 | 支援從ASR的結果中搜尋 |
文本 | 標題、描述 | 支援從標題和描述中搜尋 |
智能檢索目前有以下幾種搜尋能力,對應的使用情境、成本和費用均有區別。
搜尋能力 | Query形式 | 原理 | 使用情境 | 費用 |
標籤檢索 | 關鍵詞 | 使用AI演算法自動對媒資內容提取標籤、關鍵詞等文本資訊,然後用於搜尋。可搜尋的內容包括媒資中出現的人名、字幕等等。 | 視頻網站內容檢索 視頻素材檢索 | 按儲存的媒資個數和搜尋次數計費 |
大模型搜尋 | 自然語言 | 使用AIGC大模型自動對媒資內容進行向量化語義分析,找到最接近Query語句語義的內容。 | 視頻網站內容檢索 個人網盤尋找 視頻素材檢索 | 按儲存的媒資時間長度和搜尋次數計費 |
相似人臉搜尋 | 人臉圖片 | 自動提取媒資中出現的所有人臉特徵,比對和尋找與給定人臉圖片相似的人臉,返回對應的媒資,以及出現的片段。 | 個人網盤尋找 人臉翻庫 人物搜尋 | 按儲存的人臉特徵數量和搜尋次數計費 |
DNA搜尋 | 圖片、視頻 | 提取圖片或視頻的指紋特徵(DNA),比對和尋找類似的圖片或視頻 | UGC視頻查重 劇照搜劇 | 按DNA提取的視頻時間長度計費 |
概念介紹
註:DNA搜尋請直接參閱【媒體DNA的使用】章節
要使用智能檢索,您需要瞭解以下概念:
概念 | 解釋 | 備忘 |
媒資 | 具體的媒體記錄 | 當前只支援兩種類型:音視頻、圖片。 |
媒資庫 | 儲存媒資的資料庫 | 當前IMS每個客戶預設有且只有1個媒資庫,通過控制台上傳的視頻都在此媒資庫中。 |
搜尋庫 | 專用於搜尋的媒資庫 |
|
搜尋索引 | 搜尋庫的搜尋能力 | 用於管理和組織搜尋庫中的媒資資料。開啟相關索引,才具備相關的查詢能力:
|
使用者使用邏輯如下圖所示:

基於控制台的使用流程
準備工作:開啟媒資智能分析

登入智能媒體服務控制台,從左側導覽列進入智能檢索頁面。
點擊右上方的智能檢索配置按鈕,開啟配置頁面:
如果您想使用標籤檢索,請開啟媒資自動分析
如果您想使用大模型檢索,請開啟大模型自動分析
上傳媒資
登入智能媒體服務控制台,從左側導覽列進入媒資庫-音/視頻頁面。
點擊上傳音/視頻按鈕,上傳媒資。具體的上傳操作說明,詳見控制台上傳。
上傳完成後,媒資會進行自動分析。分析完成後即可進行搜尋。如果想確認自動分析是否完成,可點擊媒資列表中的管理標籤,進入詳情頁面,查看媒資的內容搜尋入庫狀態。
搜尋媒資
登入智能媒體服務控制台,從左側導覽列進入智能檢索頁面。
切換下拉框,選擇標籤檢索或是大模型檢索:
如果是標籤檢索,建議query內容為詞語或片語,如人名、地名、關鍵詞等
如果是大模型檢索,建議query內容為自然語言,例如“海邊日出”、“大街上車來車往”
點擊結構表頭中的媒體類型篩選圖示,可選擇檢索音視頻媒資還是圖片媒資。
基於自建搜尋庫的使用流程
在控制台上使用,只能搜尋智能媒體服務的預設媒資庫。如果您的媒資庫不在智能媒體服務中,又想使用智能檢索,可以通過OpenAPI自建搜尋庫解決。
整體的使用流程:建立搜尋庫 - 建立搜尋索引 - 插入媒資到搜尋庫 - 搜尋
建立索引後僅針對後續插入搜尋庫的媒資生效,當前尚不支援對存量媒資生效。
插入的媒資是否建立索引成功,可通過QueryMediaIndexJob - 查詢媒資索引任務介面查詢。
只有建立索引成功的媒資才能被檢索到。
下面是具體的使用方式。
標籤檢索
建立一個指定名字的搜尋庫,介面說明詳見CreateSearchLib - 建立搜尋庫。
在這個搜尋庫中建立索引,介面詳見CreateSearchIndex - 建立搜尋索引。對於標籤檢索,介面中的IndexType欄位需填寫
aiLabel。使用SearchMediaByAILabel - 智能標籤文本搜尋介面搜尋媒資,分為兩個階段:
第一次調用,選擇粗搜模式,結果返回匹配的媒資列表
第二次調用,選擇精搜模式,結果返回具體某個媒資中,匹配的片段列表
大模型搜尋
建立一個指定名字的搜尋庫,介面說明詳見CreateSearchLib - 建立搜尋庫。
在這個搜尋庫中建立索引,介面詳見CreateSearchIndex - 建立搜尋索引。對於大模型搜尋,介面中的IndexType欄位需填寫
mm。使用SearchMediaByMultimodal - 大模型搜尋介面搜尋媒資,結果返回匹配的媒資列表,以及每個媒資中匹配的片段。
相似人臉搜尋
建立一個指定名字的搜尋庫,介面說明詳見CreateSearchLib - 建立搜尋庫。
在這個搜尋庫中建立索引,介面詳見CreateSearchIndex - 建立搜尋索引。對於相似人臉搜尋,介面中的IndexType欄位需填寫
face。使用SearchMediaByFace - 人臉圖片搜媒資介面搜尋媒資,結果返回匹配的媒資列表。
使用SearchMediaClipByFace - 人臉圖片搜媒資片段介面進一步搜尋某一個匹配媒資中,對應人臉出現的片段。結果會返回片段列表,以及人臉相關資訊。
玩法技巧
人臉集錦視頻製作
基於人臉檢索產生人臉集錦的功能,是一種融合了Face Service技術與創意表達手段的創新方式。該技術不僅能夠迅速高效地從海量圖片或視頻中定位包含特定人臉的影像,還可以通過智能媒體服務的視訊剪輯及進階模板功能,將這些片段或映像以獨特而富有創意的方式組合成一段人臉集錦,從而記錄生活中的精彩瞬間。實現這一玩法的技巧與步驟介紹詳見人臉集錦視頻製作教程