OpenSearch-LLM智能問答版支援匯入結構化資料、非結構化資料、網頁、表格等多種形式的資料,本文將介紹如何在控制台進行資料配置。
資料結構介紹
主表資料結構暫時為固定模板,有score、id、title、category、url、content、timestamp7個欄位。
|
欄位 |
類型 |
描述 |
|
score |
FLOAT |
文檔的分數 |
|
id |
LITERAL |
文檔ID,唯一不重複 |
|
title |
TEXT |
文檔標題 |
|
category |
LITERAL_ARRAY |
文檔類目 |
|
url |
LITERAL |
文檔URL連結 |
|
content |
TEXT |
文檔內容 |
|
timestamp |
INT |
時間戳記,代表文檔時間新鮮度 |
準備工作
-
選擇目標地區,切換到OpenSearch-LLM智能问答版。
-
在執行個體列表單擊目標執行個體右側的管理,在左側導覽列選擇配置中心->数据配置,可以根據業務情況選擇資料匯入方式。
上傳檔案匯入
單擊檔案匯入進入檔案匯入頁面。


-
上傳非結構化資料,支援格式為doc、docx、pdf、html、txt、ppt、pptx格式的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。
說明如果word格式檔案內的圖片比較多,建議轉為pdf格式再上傳,速度會比較快。
-
上傳結構化資料,支援格式為 JSON、EXCEL,編碼為 UTF-8 的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。資料格式請下載範例資料進行參考。
說明-
表名配置規則是英文字母、數字或者底線,表名不要超過20個字元。
-
欄位名稱,命名規則是英文字母或底線,不能以底線開頭,每個欄位名不要超過30個字元。
-
每個Excel最多支援30個欄位的資料寫入和查詢,超出的部分會被忽略。
-
通過API方式批量推送文檔請參考:文檔推送。
網頁連結匯入
單擊網頁連結匯入按鈕,選擇網頁匯入並輸入網址連結,每個網址佔一行,然後點擊匯入按鈕,即可完成網頁匯入。

網站匯入
-
單擊網頁連結匯入按鈕,選擇網站匯入,單擊建立任務,輸入網站連結以及category類目名稱,可根據需求設定URL過濾、Xpath選取器及CSS選取器。
說明-
網站連結:需要傳入的網站連結。
-
category:導入連結的類目名稱。
-
URL過濾:預設的URL過濾規則是以URL開頭的網站地址。比如,網站URL為http://www.abc.com/,則預設Regex為:http://www\.abc\.com/.*。
-
Xpath選取器:比如要精確擷取div標籤下的內容,該項設為://div。
-
CSS選取器:比如要精確擷取div標籤下class為content的內容,<div class="content">網頁內容</div>,該項設為:div.content。
-
暫不支援以.png/.jpg/.jpeg結尾的URL。
-
-
運行完成後可查看網頁爬取條數,單擊確定按鈕即可完成網站匯入。

表格匯入
具體請參見:表格問答。
資料查詢
文檔上傳成功後可以查看文檔總數,也可以通過問答測試頁面進行問答效果測試。支援通過主鍵查看已經推送成功的資料,並支援通過主鍵刪除對應的資料。
-
查看資料
在id後的輸入框中輸入已經推送成功資料的主鍵ID,單擊搜尋即可查看推送的資料詳情。

-
刪除資料
在id後的輸入框中輸入想要刪除資料的主鍵ID,單擊刪除->確定即可刪除該文檔。
當儲存超出後會導致刪除失敗,需要先擴容再刪除。

-
編輯資料
LLM智能問答版支援在控制台直接編輯資料,可在id後的輸入框中填入需修改的資料主鍵ID,單擊編輯按鈕, 可以對可編輯欄位進行修改。

注意事項
-
主鍵id是唯一鍵,如有重複後者資料會覆蓋前者。
-
結構化資料單次上傳最大為2M。
-
非結構化資料單個檔案大小最大不能超過128M。
-
資料上傳成功後可正常查詢時間取決於當時整體的資料更新量 。