本文為您介紹如何將阿里雲Object Storage Service(Object Storage Service)的資料轉送到Data Transmission Service的RAGFlow知識庫。
前提條件
已在DTS建立RAGFlow知識庫並設定IP白名單。
支援的檔案類型
DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、SQL
JPG、JPEG、PNG
INI
MP3
準備工作
建立AccessKey,並記錄AccessKey ID和AccessKey Secret。
說明若您使用RAM使用者建立的AccessKey,則需確保RAM使用者具備唯讀訪問Object Storage Service服務(OSS)的許可權(AliyunOSSReadOnlyAccess)或管理Object Storage Service服務(OSS)許可權(AliyunOSSFullAccess)。
擷取並記錄OSS Bucket資訊(Bucket名稱和地區ID)。
操作步驟
擷取KBSync檔案。
說明您可以添加DingTalk群(群號:79690034672),聯絡技術支援人員以擷取KBSync檔案。
準備KBSync程式的運行環境。
說明運行KBSync程式需要為Linux環境,並且可以訪問OSS和RAGFlow。
準備設定檔config。
建立名為config的Linux系統檔案。
將以下代碼複製到config檔案中。
whiteList= blackList= sinkType=RagFlow sourceType=OSS ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** ragflowDatasetId=****** sourceOSSAccessKeyId=****** sourceOSSAccessKeySecret=****** sourceOSSRegion=cn-beijing sourceOSSBucket=kbsync替換config檔案中的參數。
重要無需配置的參數,將其取值設定為空白值即可。
參數
blackList的優先順序高於參數whiteList。
參數
是否必填
說明
擷取方式
whiteList否
需要傳輸(白名單)和無需傳輸(黑名單)的路徑,包含釘盤中的檔案夾路徑和知識庫中文檔所在的路徑。
說明支援Regex,多個路徑需使用空格分隔。
自行在OSS中擷取。
blackListsinkType是
目標端的類型。
取值請保持
RagFlow。sourceType源端的類型。
取值請保持
OSS。ragflowUrlRAGFlow的地址(API伺服器)。
ragflowApiKeyRAGFlow知識庫的API Key。
重要須以
Bearer開頭,例如Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****。ragflowDatasetIdRAGFlow知識庫的ID。
sourceOSSAccessKeyId準備工作中記錄的AccessKey ID。
sourceOSSAccessKeySecret準備工作中記錄的AccessKey Secret。
sourceOSSRegion準備工作中記錄的OSS地區ID。
sourceOSSBucket準備工作中記錄的OSS Bucket名稱。
將KBSync檔案和設定檔config,放在Linux環境中的同一目錄中。
在Linux環境中執行
./KBSync --config config命令,運行KBSync程式。若運行結果如下所示,則表示KBSync程式正常運行。
INFO config SourceType=OSS, SinkType=RagFlow INFO config whiteList=, blackList= INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** INFO config ragflowDatasetId=b2****** INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing INFO Verifying RAGFlow connection... INFO Attempting to list datasets to validate the connection... INFO Successfully found matching dataset: Name='test', ID='b2******' INFO RAGFlow connection verified successfully.
附錄
擷取RAGFlow知識庫的API服務地址
在左側導覽列,單擊API。
擷取API伺服器。
擷取RAGFlow知識庫的API Key
在左側導覽列,單擊API。
在RAGFlow API右側,單擊API KEY。
在彈出的API KEY對話方塊,單擊建立新密鑰。
單擊
,記錄Token。
擷取RAGFlow知識庫的ID
在知識庫頁面,單擊目標知識庫。
在當前頁面的URL中,記錄知識庫的ID。
說明id=之後的資訊即為知識庫的ID。