映像文本描述產生演算法是一種結合電腦視覺和自然語言處理的模型,旨在為輸入映像產生自然語言描述。它在輔助視障人士、社交媒體內容創作、Image Search、電商展示和新聞發布等領域有著廣泛應用,顯著提升了資訊的可訪問性和使用者體驗。
支援的計算資源
演算法說明
由BLIP模型產生映像文本。
輸入/輸出
輸入樁
通過讀OSS資料組件,讀取訓練資料所在的OSS路徑。
配置此演算法參數映像資料OSS路徑,選擇映像資料所在的OSS目錄,或映像中繼資料檔案。詳情請參見下文中的參數說明。
使用任意映像預先處理組件作為輸入。
輸出樁
輸出結果。詳情請參見下文中的參數說明。
配置組件
在Designer工作流程頁面添加LVM-映像文本描述產生(DLC)組件,並在介面右側配置相關參數:
參數類型 | 參數 | 是否必選 | 描述 | 預設值 | |
欄位設定 | 映像資料OSS路徑 | 否 | 首次運行時,若無上遊組件,需手動選擇映像資料所在的OSS目錄。運行時會在該目錄的上一級目錄下產生映像中繼資料檔案meta.jsonl。後續處理此映像資料時,也可以直接選擇之前產生的meta.jsonl檔案。 | 無 | |
輸出檔案的OSS路徑 | 是 | 產生結果的儲存目錄。包含以下檔案:
| 無 | ||
輸出的檔案名稱 | 是 | 產生結果的檔案名稱。 | result.jsonl | ||
參數設定 | 產生候選文本數目 | 是 | 產生的候選文本數。 | 1 | |
執行調優 | 選擇資源群組 | 公用資源群組 | 否 | 選擇節點規格(CPU或GPU執行個體規格)、專用網路。該演算法需使用GPU規格執行個體。 | 無 |
專有資源群組 | 否 | 選擇CPU核心數、記憶體、共用記憶體、GPU卡數。 | 無 | ||
最大運行時間長度 | 否 | 組件最大運行時間長度,超過這個時間,作業會被終止。 | 無 | ||