全部產品
Search
文件中心

Data Transmission Service:實踐手冊:將OSS接入到DTS RAGFlow知識庫

更新時間:Aug 09, 2025

本文為您介紹如何將阿里雲Object Storage Service(Object Storage Service)的資料轉送到Data Transmission Service的RAGFlow知識庫。

前提條件

已在DTS建立RAGFlow知識庫設定IP白名單

支援的檔案類型

  • DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、SQL

  • JPG、JPEG、PNG

  • INI

  • MP3

準備工作

  1. 建立AccessKey,並記錄AccessKey ID和AccessKey Secret。

    說明

    若您使用RAM使用者建立的AccessKey,則需確保RAM使用者具備唯讀訪問Object Storage Service服務(OSS)的許可權(AliyunOSSReadOnlyAccess)或管理Object Storage Service服務(OSS)許可權(AliyunOSSFullAccess)。

  2. 擷取並記錄OSS Bucket資訊(Bucket名稱和地區ID)。

    1. 登入OSS管理主控台

    2. 在左側導覽列,單擊Bucket 列表

    3. 查詢目標Bucket。

    4. 記錄目標Bucket的Bucket名稱

    5. 根據目標Bucket的地區,查詢並記錄地區ID

操作步驟

  1. 擷取KBSync檔案。

    說明

    您可以添加DingTalk群(群號:79690034672),聯絡技術支援人員以擷取KBSync檔案。

  2. 準備KBSync程式的運行環境。

    說明

    運行KBSync程式需要為Linux環境,並且可以訪問OSS和RAGFlow。

  3. 準備設定檔config

    1. 建立名為config的Linux系統檔案。

    2. 將以下代碼複製到config檔案中。

      whiteList=
      blackList=
      sinkType=RagFlow
      sourceType=OSS
      
      ragflowUrl=http://XX.XX.XX.XX
      ragflowApiKey=Bearer ragflow-Rh******
      ragflowDatasetId=******
      
      sourceOSSAccessKeyId=******
      sourceOSSAccessKeySecret=******
      sourceOSSRegion=cn-beijing
      sourceOSSBucket=kbsync
    3. 替換config檔案中的參數。

      重要
      • 無需配置的參數,將其取值設定為空白值即可。

      • 參數blackList的優先順序高於參數whiteList

      參數

      是否必填

      說明

      擷取方式

      whiteList

      需要傳輸(白名單)和無需傳輸(黑名單)的路徑,包含釘盤中的檔案夾路徑和知識庫中文檔所在的路徑。

      說明

      支援Regex,多個路徑需使用空格分隔。

      自行在OSS中擷取。

      blackList

      sinkType

      目標端的類型。

      取值請保持RagFlow

      sourceType

      源端的類型。

      取值請保持OSS

      ragflowUrl

      RAGFlow的地址(API伺服器)。

      擷取RAGFlow知識庫的API服務地址

      ragflowApiKey

      RAGFlow知識庫的API Key。

      重要

      須以Bearer 開頭,例如Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****

      擷取RAGFlow知識庫的API Key

      ragflowDatasetId

      RAGFlow知識庫的ID。

      擷取RAGFlow知識庫的ID

      sourceOSSAccessKeyId

      準備工作中記錄的AccessKey ID。

      準備工作

      sourceOSSAccessKeySecret

      準備工作中記錄的AccessKey Secret。

      sourceOSSRegion

      準備工作中記錄的OSS地區ID。

      sourceOSSBucket

      準備工作中記錄的OSS Bucket名稱。

  4. KBSync檔案和設定檔config,放在Linux環境中的同一目錄中。

  5. 在Linux環境中執行./KBSync --config config命令,運行KBSync程式。

    若運行結果如下所示,則表示KBSync程式正常運行。

    INFO config SourceType=OSS, SinkType=RagFlow
    INFO config whiteList=, blackList=
    INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh******
    INFO config ragflowDatasetId=b2******
    INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing
    INFO Verifying RAGFlow connection...
    INFO Attempting to list datasets to validate the connection...
    INFO Successfully found matching dataset: Name='test', ID='b2******'
    INFO RAGFlow connection verified successfully.

附錄

擷取RAGFlow知識庫的API服務地址

  1. 登入RAGFlow頁面

  2. 在左側導覽列,單擊API

  3. 擷取API伺服器

擷取RAGFlow知識庫的API Key

  1. 登入RAGFlow頁面

  2. 在左側導覽列,單擊API

  3. RAGFlow API右側,單擊API KEY

  4. 在彈出的API KEY對話方塊,單擊建立新密鑰

  5. 單擊image,記錄Token。

擷取RAGFlow知識庫的ID

  1. 登入RAGFlow頁面

  2. 知識庫頁面,單擊目標知識庫。

  3. 在當前頁面的URL中,記錄知識庫的ID。

    說明

    id=之後的資訊即為知識庫的ID。