OpenSearch-LLM智能問答版支援匯入結構化資料、非結構化資料、網頁、表格等多種形式的資料,本文將介紹如何在控制台進行資料配置。
資料結構介紹
主表資料結構暫時為固定模板,有score、id、title、category、url、content、timestamp7個欄位。
欄位 | 類型 | 描述 |
score | FLOAT | 文檔的分數 |
id | LITERAL | 文檔ID,唯一不重複 |
title | TEXT | 文檔標題 |
category | LITERAL_ARRAY | 文檔類目 |
url | LITERAL | 文檔URL連結 |
content | TEXT | 文檔內容 |
timestamp | INT | 時間戳記,代表文檔時間新鮮度 |
準備工作
選擇目標地區,切換到OpenSearch-LLM智能問答版。
在執行個體列表單擊目標執行個體右側的管理,在左側導覽列選擇配置中心->資料配置,可以根據業務情況選擇資料匯入方式。
上傳檔案匯入
單擊檔案匯入進入檔案匯入頁面。


上傳非結構化資料,支援格式為doc、docx、pdf、html、txt、ppt、pptx格式的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。
說明如果word格式檔案內的圖片比較多,建議轉為pdf格式再上傳,速度會比較快。
上傳結構化資料,支援格式為 JSON、EXCEL,編碼為 UTF-8 的檔案,單個檔案大小不能超過128MB,支援一次性上傳多個檔案。資料格式請下載範例資料進行參考。
說明表名配置規則是英文字母、數字或者底線,表名不要超過20個字元。
欄位名稱,命名規則是英文字母或底線,不能以底線開頭,每個欄位名不要超過30個字元。
每個Excel最多支援30個欄位的資料寫入和查詢,超出的部分會被忽略。
通過API方式批量推送文檔請參考:PushKnowledgeDocuments-文檔推送。
網頁連結匯入
單擊網頁連結匯入按鈕,選擇網頁匯入並輸入網址連結,每個網址佔一行,然後點擊匯入按鈕,即可完成網頁匯入。

網站匯入
單擊網頁連結匯入按鈕,選擇網站匯入,單擊建立任務,輸入網站連結以及category類目名稱,可根據需求設定URL過濾、Xpath選取器及CSS選取器。
說明網站連結:需要傳入的網站連結。
category:導入連結的類目名稱。
URL過濾:預設的URL過濾規則是以URL開頭的網站地址。比如,網站URL為http://www.abc.com/,則預設Regex為:http://www\.abc\.com/.*。
Xpath選取器:比如要精確擷取div標籤下的內容,該項設為://div。
CSS選取器:比如要精確擷取div標籤下class為content的內容,<div class="content">網頁內容</div>,該項設為:div.content。
暫不支援以.png/.jpg/.jpeg結尾的URL。
運行完成後可查看網頁爬取條數,單擊確定按鈕即可完成網站匯入。

表格匯入
具體請參見:表格問答。
資料查詢
文檔上傳成功後可以查看文檔總數,也可以通過問答測試頁面進行問答效果測試。支援通過主鍵查看已經推送成功的資料,並支援通過主鍵刪除對應的資料。
查看資料
在id後的輸入框中輸入已經推送成功資料的主鍵ID,單擊搜尋即可查看推送的資料詳情。

刪除資料
在id後的輸入框中輸入想要刪除資料的主鍵ID,單擊刪除->確定即可刪除該文檔。
當儲存超出後會導致刪除失敗,需要先擴容再刪除。

編輯資料
LLM智能問答版支援在控制台直接編輯資料,可在id後的輸入框中填入需修改的資料主鍵ID,單擊編輯按鈕, 可以對可編輯欄位進行修改。

注意事項
主鍵id是唯一鍵,如有重複後者資料會覆蓋前者。
結構化資料單次上傳最大為2M。
非結構化資料單個檔案大小最大不能超過128M。
資料上傳成功後可正常查詢時間取決於當時整體的資料更新量 。