すべてのプロダクト
Search
ドキュメントセンター

Data Transmission Service:チュートリアル: OSS を DTS RAGFlow ナレッジベースに接続する

最終更新日:Aug 22, 2025

このトピックでは、Alibaba Cloud Object Storage Service (OSS) から Data Transmission Service (DTS) RAGFlow ナレッジベースにデータを転送する方法について説明します。

前提条件

DTS でRAGFlow ナレッジベースを作成し、IP ホワイトリストを構成している必要があります。

サポートされているファイルの種類

  • DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、および SQL

  • JPG、JPEG、および PNG

  • INI

  • MP3

準備

  1. AccessKey ペアを作成し、AccessKey ID と AccessKey シークレットを記録します。

    説明

    Resource Access Management (RAM) ユーザーによって作成された AccessKey ペアを使用する場合、RAM ユーザーには、Object Storage Service (OSS) に対する読み取り専用権限 ([AliyunOSSReadOnlyAccess]) または管理権限 ([AliyunOSSFullAccess]) が付与されている必要があります。

  2. バケット名とリージョン ID を含む、OSS バケット情報を取得して記録します。

    1. OSS コンソールにログオンします。

    2. 左側のナビゲーションウィンドウで、バケット をクリックします。

    3. 対象のバケットを見つけます。

    4. 対象のバケットの バケット名 を記録します。

    5. 対象のバケットの [リージョン] をメモし、対応する リージョン ID を見つけて記録します。

手順

  1. KBSync ファイルを取得します。

    説明

    DingTalk グループ (ID: 79690034672) に参加してヘルプデスクに連絡し、KBSync ファイルを取得できます。

  2. KBSync プログラムの実行環境を準備します。

    説明

    KBSync プログラムは、OSS と RAGFlow にアクセスできる Linux 環境で実行する必要があります。

  3. [config] 構成ファイルを準備します。

    1. [config] という名前の Linux ファイルを作成します。

    2. 以下のコードを [config] ファイルにコピーします。

      whiteList=
      blackList=
      sinkType=RagFlow
      sourceType=OSS
      
      ragflowUrl=http://XX.XX.XX.XX
      ragflowApiKey=Bearer ragflow-Rh******
      ragflowDatasetId=******
      
      sourceOSSAccessKeyId=******
      sourceOSSAccessKeySecret=******
      sourceOSSRegion=cn-beijing
      sourceOSSBucket=kbsync
    3. [config] ファイルのパラメーターを置き換えます。

      重要
      • パラメーターの構成が不要な場合は、値を空のままにします。

      • blackList パラメーターは、whiteList パラメーターよりも優先されます。

      パラメーター

      必須

      説明

      取得方法

      whiteList

      いいえ

      転送するファイルのパス (ホワイトリスト) と除外するファイルのパス (ブラックリスト)。 これには、OSS 内のフォルダとドキュメントのパスが含まれます。

      説明

      正規表現がサポートされています。 複数のパスはスペースで区切ります。

      OSS から取得します。

      blackList

      sinkType

      はい

      シンクの種類。

      値は RagFlow である必要があります。

      sourceType

      ソースの種類。

      値は OSS である必要があります。

      ragflowUrl

      RAGFlow ([API サーバー]) のアドレス。

      RAGFlow ナレッジベースの API エンドポイントを取得する

      ragflowApiKey

      RAGFlow ナレッジベースの API キー。

      重要

      Bearer で始まる必要があります (例: Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****)。

      RAGFlow ナレッジベースの API キーを取得する

      ragflowDatasetId

      RAGFlow ナレッジベースの ID。

      RAGFlow ナレッジベースの ID を取得する

      sourceOSSAccessKeyId

      「準備」セクションで記録した AccessKey ID。

      準備

      sourceOSSAccessKeySecret

      「準備」セクションで記録した AccessKey シークレット。

      sourceOSSRegion

      「準備」セクションで記録した OSS リージョン ID。

      sourceOSSBucket

      「準備」セクションで記録した OSS バケット名。

  4. [KBSync] ファイルと [config] 構成ファイルを、Linux 環境の同じフォルダに配置します。

  5. Linux 環境で、./KBSync --config config コマンドを実行して KBSync プログラムを起動します。

    出力が次のようになれば、KBSync プログラムは正しく実行されています。

    INFO config SourceType=OSS, SinkType=RagFlow
    INFO config whiteList=, blackList=
    INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh******
    INFO config ragflowDatasetId=b2******
    INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing
    INFO Verifying RAGFlow connection...
    INFO Attempting to list datasets to validate the connection...
    INFO Successfully found matching dataset: Name='test', ID='b2******'
    INFO RAGFlow connection verified successfully.

付録

RAGFlow ナレッジベースの API エンドポイントを取得する

  1. RAGFlow ページにログオンする

  2. 左側のナビゲーションウィンドウで、[API] をクリックします。

  3. [API サーバー] 値をコピーします。

RAGFlow ナレッジベースの API キーを取得する

  1. RAGFlow ページにログオンする

  2. 左側のナビゲーションウィンドウで、[API] をクリックします。

  3. [RAGFlow API] の右側にある [API KEY] をクリックします。

  4. [API KEY] ダイアログボックスで、[新しいキーを作成] をクリックします。

  5. image をクリックしてトークンを記録します。

RAGFlow ナレッジベースの ID を取得する

  1. RAGFlow ページにログオンする

  2. [ナレッジベース] ページで、対象のナレッジベースをクリックします。

  3. 現在のページの URL で、ナレッジベースの ID を記録します。

    説明

    id= の後の情報がナレッジベースの ID です。