全部產品
Search
文件中心

OpenSearch:OpenLake-DLF向量資料同步至阿里雲OpenSearch

更新時間:Jan 07, 2026

本文詳細介紹了如何將資料湖構建(DLF)作為資料來源,將多模態向量資料同步至阿里雲OpenSearch的完整流程。文檔重點展示了OpenSearch強大的多模態資料處理能力,支援從DLF中自動提取文本、圖片和視頻資料,通過內建模型或AI搜尋開放平台進行向量化處理和內容解析,將非結構化資料轉換為結構化向量並同步至OpenSearch。該方案支援Paimon、Lance和Object Table等多種資料格式,提供全面的向量索引配置選項,包括向量維度、距離類型和檢索演算法設定,使使用者能夠高效構建多模態檢索應用,滿足圖片搜尋、文本語義搜尋和視頻搜尋等情境需求。

前置條件

  • 瞭解資料湖構建

  • 已配置資料湖構建資料目錄ID資料庫資料表,將在配置資料同步中使用。

添加資料湖(DLF)資料來源

  1. 執行個體詳情>表管理頁,點擊添加表

  2. 填寫表的基礎資訊,點擊下一步

    image配置說明

  • 表名稱:可自訂。

  • 資料分區數:分區數設定時,各索引表分區數需保持一致;或至少一個索引表分區數為1,其餘索引表分區數一致。

  • 資料更新資源數:資料更新所用資源數,每個索引預設免費提供2個4核8G的更新資源,超出免費額度的資源將產生費用,詳情可參考向量檢索版國際站計費文檔

  • 情境模板:向量檢索版內建了4種模板可供使用者選擇:通用模板、向量:圖片搜尋、向量:文本語義模板、向量:視頻搜尋(該模板暫不支援資料湖作為全量資料來源)。

  1. 資料同步,配置資料來源,校正通過後,點擊下一步

  • 全量資料來源:選擇資料湖構建(DLF)。

  • 表格式:支援Paimon、Lance和Object Table。

    Paimon是一種湖倉表,能像資料庫一樣即時更新資料,並同時支援流處理和批處理。

    Lance是一種向量表,專為AI設計,能對向量進行超高速的相似性搜尋。

    Object Table是一種中繼資料表,能讓您用SQL直接查詢和定位儲存在雲端的各類檔案。

  • 資料目錄:訪問的目標資料湖構建的資料目錄ID。

  • 資料庫:訪問的目標資料目錄下的資料庫。

  • 資料表:訪問的目標資料庫下的資料表。

    說明
    • 存量執行個體選擇資料湖構建(DLF)類型需升級引擎版本後使用。

    • 通用模板向量:圖片搜尋模板支援Pamion、Lance與Object Table表格式。向量:文本語義搜尋模板支援Paimon類型資料目錄。

    • Paimon主鍵表支援增刪改查,Paimon Append格式表僅支援寫入,不支援更改與刪除。

  • 相對路徑:表格式為Object Table時訪問對象表中檔案的相對路徑。

  • 資料格式:表格式為Object Table時需選擇資料為ha3或json資料格式。

  • Tag:資料版本標籤,指定Tag後OpenSearch會採用Tag資料進行全量,不指定Tag,OpenSearch會用表中最新資料進行全量。

    Paimon提供Tag標籤功能用於保留特定快照的中繼資料和資料檔案,防止因快照到期導致歷史資料丟失。標籤可基於寫入任務自動建立,支援按處理時間或浮水印時間定期產生,也可手動建立、刪除或復原到指定標籤。通過配置保留原則,可控制標籤的最大數量或保留時間長度,確保歷史資料可查詢。詳情請參見Paimon標籤

    Lance使用Tag標籤功能標記資料集歷史中的特定版本便於追蹤資料集演變,尤其適用於頻繁更新的機器學習流程。使用者可對標籤執行建立、更新。刪除和列出操作。標籤不會產生新版本,而是作為獨立目錄中的中繼資料存在。帶有標籤的版本不會被“cleanup_old_versions”清理,需先刪除標籤方可移除對應版本。詳情請參見Lance標籤

  • 資料來源校正:校正通過後可進行下一步操作。

  1. 欄位配置,配置完成後,點擊下一步:cn3欄位配置.png

    • 必選欄位有:主鍵欄位和向量欄位,主鍵欄位為int或string類型並且需要勾選主鍵按鈕,向量欄位為float類型並且需要勾選向量欄位按鈕。

    • 向量欄位預設為多值的float類型。

    • 需資料預先處理:支援String類型的欄位,勾選後點擊去配置 可調用模型對該欄位進行資料預先處理。

      image

      文本資料類型

      • 資料類型:文本。

      • 預先處理模板:稠密向量化、稠密+稀疏向量化。

      • 服務列表:

        選定預先處理模板後,自動出現模板下的服務列表,展示該模板下所用到的模型種類。

        可選的模型來源:

        • 內建模型:模型種類與數量較少,可免費調用。

        • AI搜尋開放平台:AI搜尋開放平台模型能力豐富,需按調用量收費,參見計費方式和計費項目;使用前需要先完成AI搜尋開放平台工作空間和 API Key 開通。

        • 自訂模型:使用者可根據自身需求自訂模型,在向量檢索版頁面模型列表>自訂模型中進行新增模型操作,詳情請參見自訂模型

      圖片資料類型

      • 資料類型:圖片。

      • 資料來源:OSSObject Storage Service、Base64編碼和DLF-Object Table。

        • OSSObject Storage Service:需要填寫OSS路徑,其實就是將圖片存放在OSS的檔案夾裡面,從OSS直接匯入。

        • Base64編碼:相當於需要先將圖片進行一次編碼,然後儲存在資料庫中,或者直接用API方式進行傳輸。

        • DLF-Object Table:資料湖Object表格式的表,需填寫對應的資料目錄、資料庫、資料表。

      • 預先處理模板:圖片向量化、圖片內容解析、圖片內容解析+圖片向量化。

      • 服務列表:

        選定預先處理模板後,自動出現模板下的服務列表,展示該模板下所用到的模型種類。

        可選的模型來源:

        • 內建模型:模型種類與數量較少,可免費調用。

        • AI搜尋開放平台:AI搜尋開放平台模型能力豐富,需按調用量收費,參見計費方式和計費項目;使用前需要先完成AI搜尋開放平台工作空間和 API Key 開通。

        • 自訂模型:使用者可根據自身需求自訂模型,在向量檢索版頁面模型列表>自訂模型中進行新增模型操作,詳情請參見自訂模型

      視頻資料類型

      • 資料類型:視頻。

      • 資料來源:OSSObject Storage Service。

      • 預先處理模板:視頻處理。

      • 服務列表:

        選定預先處理模板後,自動出現模板下的服務列表,展示該模板下所用到的模型種類。

        可選的模型來源:

        • 內建模型:模型種類與數量較少,可免費調用。

        • AI搜尋開放平台:AI搜尋開放平台模型能力豐富,需按調用量收費,參見計費方式和計費項目;使用前需要先完成AI搜尋開放平台工作空間和 API Key 開通。

        • 自訂模型:使用者可根據自身需求自訂模型,在向量檢索版頁面模型列表>自訂模型中進行新增模型操作,詳情請參見自訂模型

    • 當資料中缺少欄位或欄位為空白時,系統將自動補充預設值,數字類型預設補0,STRING類型預設補Null 字元串,支援自訂預設值。

  2. 索引結構配置,配置完成後,點擊下一步:

    image

    1. 向量索引:

      • 向量維度:根據模型產生的向量按需選擇。

      • 距離類型:根據模型產生的向量按需選擇,系統支援的距離類型有三種:SquareEuclidean(歐式距離)、InnerProduct(內積距離)和Cosine(餘弦距離)。

      • 向量檢索演算法:根據模型產生的向量按需選擇,系統支援的向量索引演算法有Liner、HNSW、QGraph、QC、DiskANN、CagraHnsw。

      • 即時索引:表示API的增量資料是否需要即時構建向量索引,預設為true。

        其他進階配置,可點擊展開進行配置,參數說明可參考向量索引通用配置cn4進階配置.png

    2. 其他類型索引:系統產生的pk欄位、產生主鍵索引,其餘非向量類型的欄位預設產生同名索引。

    3. 索引全域配置:可以設定文檔到期自動清理,開啟後,目前時間-文檔時間 > 到期時間時,該文檔將被自動清理。

  3. 確認建立,點擊確認建立後,系統將自動建立配置好的表,可在變更歷史中查看建立表進度:

  4. 當表狀態在使用中時,即可在查詢測試頁面進行查詢測試。

注意事項

DLF的Paimon表有新資料寫入時,OpenSearch會基於新資料自動觸發即時索引構建,如果通過API手動寫入資料,可能引起資料一致性問題,請謹慎操作。