全部產品
Search
文件中心

OpenSearch:資料配置

更新時間:Apr 22, 2025

OpenSearch-LLM智能問答版支援匯入結構化資料、非結構化資料、網頁、表格等多種形式的資料,本文將介紹如何在控制台進行資料配置。

資料結構介紹

主表資料結構暫時為固定模板,有score、id、title、category、url、content、timestamp7個欄位。

欄位

類型

描述

score

FLOAT

文檔的分數

id

LITERAL

文檔ID,唯一不重複

title

TEXT

文檔標題

category

LITERAL_ARRAY

文檔類目

url

LITERAL

文檔URL連結

content

TEXT

文檔內容

timestamp

INT

時間戳記,代表文檔時間新鮮度

說明
  • 上傳結構化資料時,score、title、category、url、timestamp是非必要欄位,可以根據需求選填。

  • score、timestamp欄位與文檔召回排序有關,具體設定請參考:文檔召回參數

  • category欄位支援多值,每個item用英文逗號隔開,具體使用說明請參考:參數說明

準備工作

  1. 登入OpenSearch控制台

  2. 選擇目標地區,切換到OpenSearch-LLM智能問答版

  3. 在執行個體列表單擊目標執行個體右側的管理,在左側導覽列選擇配置中心->資料配置,可以根據業務情況選擇資料匯入方式。

上傳檔案匯入

單擊檔案匯入進入檔案匯入頁面。

檔案匯入.png

image

  • 上傳非結構化資料,支援格式為doc、docx、pdf、html、txt、ppt、pptx格式的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。

    說明

    如果word格式檔案內的圖片比較多,建議轉為pdf格式再上傳,速度會比較快。

  • 上傳結構化資料,支援格式為 JSON、EXCEL,編碼為 UTF-8 的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。資料格式請下載範例資料進行參考。

    說明
    • 表名配置規則是英文字母、數字或者底線,表名不要超過20個字元。

    • 欄位名稱,命名規則是英文字母或底線,不能以底線開頭,每個欄位名不要超過30個字元。

    • 每個Excel最多支援30個欄位的資料寫入和查詢,超出的部分會被忽略。

通過API方式批量推送文檔請參考:PushKnowledgeDocuments-文檔推送

網頁連結匯入

單擊網頁連結匯入按鈕,選擇網頁匯入並輸入網址連結,每個網址佔一行,然後點擊匯入按鈕,即可完成網頁匯入。

網頁連結.png

網站匯入

  1. 單擊網頁連結匯入按鈕,選擇網站匯入,單擊建立任務,輸入網站連結以及category類目名稱,可根據需求設定URL過濾、Xpath選取器及CSS選取器。

    建立任務.png

    說明
    • 網站連結:需要傳入的網站連結。

    • category:導入連結的類目名稱。

    • URL過濾:預設的URL過濾規則是以URL開頭的網站地址。比如,網站URL為http://www.abc.com/,則預設Regex為:http://www\.abc\.com/.*。

    • Xpath選取器:比如要精確擷取div標籤下的內容,該項設為://div。

    • CSS選取器:比如要精確擷取div標籤下class為content的內容,<div class="content">網頁內容</div>,該項設為:div.content。

    • 暫不支援以.png/.jpg/.jpeg結尾的URL。

  2. 運行完成後可查看網頁爬取條數,單擊確定按鈕即可完成網站匯入。

    匯入完成.png

表格匯入

具體請參見:表格問答

資料查詢

文檔上傳成功後可以查看文檔總數,也可以通過問答測試頁面進行問答效果測試。支援通過主鍵查看已經推送成功的資料,並支援通過主鍵刪除對應的資料。

  1. 查看資料

    在id後的輸入框中輸入已經推送成功資料的主鍵ID,單擊搜尋即可查看推送的資料詳情。

    image.png

  2. 刪除資料

    在id後的輸入框中輸入想要刪除資料的主鍵ID,單擊刪除->確定即可刪除該文檔。

    當儲存超出後會導致刪除失敗,需要先擴容再刪除。

    image.png

  3. 編輯資料

    LLM智能問答版支援在控制台直接編輯資料,可在id後的輸入框中填入需修改的資料主鍵ID,單擊編輯按鈕, 可以對可編輯欄位進行修改。

    image.png

注意事項

  • 主鍵id是唯一鍵,如有重複後者資料會覆蓋前者。

  • 結構化資料單次上傳最大為2M。

  • 非結構化資料單個檔案大小最大不能超過128M。

  • 資料上傳成功後可正常查詢時間取決於當時整體的資料更新量 。