このトピックでは、Alibaba Cloud Object Storage Service (OSS) から Data Transmission Service (DTS) RAGFlow ナレッジベースにデータを転送する方法について説明します。
前提条件
DTS でRAGFlow ナレッジベースを作成し、IP ホワイトリストを構成している必要があります。
サポートされているファイルの種類
DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、および SQL
JPG、JPEG、および PNG
INI
MP3
準備
AccessKey ペアを作成し、AccessKey ID と AccessKey シークレットを記録します。
説明Resource Access Management (RAM) ユーザーによって作成された AccessKey ペアを使用する場合、RAM ユーザーには、Object Storage Service (OSS) に対する読み取り専用権限 ([AliyunOSSReadOnlyAccess]) または管理権限 ([AliyunOSSFullAccess]) が付与されている必要があります。
バケット名とリージョン ID を含む、OSS バケット情報を取得して記録します。
手順
KBSync ファイルを取得します。
説明DingTalk グループ (ID: 79690034672) に参加してヘルプデスクに連絡し、KBSync ファイルを取得できます。
KBSync プログラムの実行環境を準備します。
説明KBSync プログラムは、OSS と RAGFlow にアクセスできる Linux 環境で実行する必要があります。
[config] 構成ファイルを準備します。
[config] という名前の Linux ファイルを作成します。
以下のコードを [config] ファイルにコピーします。
whiteList= blackList= sinkType=RagFlow sourceType=OSS ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** ragflowDatasetId=****** sourceOSSAccessKeyId=****** sourceOSSAccessKeySecret=****** sourceOSSRegion=cn-beijing sourceOSSBucket=kbsync[config] ファイルのパラメーターを置き換えます。
重要パラメーターの構成が不要な場合は、値を空のままにします。
blackListパラメーターは、whiteListパラメーターよりも優先されます。
パラメーター
必須
説明
取得方法
whiteListいいえ
転送するファイルのパス (ホワイトリスト) と除外するファイルのパス (ブラックリスト)。 これには、OSS 内のフォルダとドキュメントのパスが含まれます。
説明正規表現がサポートされています。 複数のパスはスペースで区切ります。
OSS から取得します。
blackListsinkTypeはい
シンクの種類。
値は
RagFlowである必要があります。sourceTypeソースの種類。
値は
OSSである必要があります。ragflowUrlRAGFlow ([API サーバー]) のアドレス。
ragflowApiKeyRAGFlow ナレッジベースの API キー。
重要Bearerで始まる必要があります (例:Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****)。ragflowDatasetIdRAGFlow ナレッジベースの ID。
sourceOSSAccessKeyId「準備」セクションで記録した AccessKey ID。
sourceOSSAccessKeySecret「準備」セクションで記録した AccessKey シークレット。
sourceOSSRegion「準備」セクションで記録した OSS リージョン ID。
sourceOSSBucket「準備」セクションで記録した OSS バケット名。
[KBSync] ファイルと [config] 構成ファイルを、Linux 環境の同じフォルダに配置します。
Linux 環境で、
./KBSync --config configコマンドを実行して KBSync プログラムを起動します。出力が次のようになれば、KBSync プログラムは正しく実行されています。
INFO config SourceType=OSS, SinkType=RagFlow INFO config whiteList=, blackList= INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** INFO config ragflowDatasetId=b2****** INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing INFO Verifying RAGFlow connection... INFO Attempting to list datasets to validate the connection... INFO Successfully found matching dataset: Name='test', ID='b2******' INFO RAGFlow connection verified successfully.
付録
RAGFlow ナレッジベースの API エンドポイントを取得する
左側のナビゲーションウィンドウで、[API] をクリックします。
[API サーバー] 値をコピーします。
RAGFlow ナレッジベースの API キーを取得する
左側のナビゲーションウィンドウで、[API] をクリックします。
[RAGFlow API] の右側にある [API KEY] をクリックします。
[API KEY] ダイアログボックスで、[新しいキーを作成] をクリックします。
をクリックしてトークンを記録します。
RAGFlow ナレッジベースの ID を取得する
[ナレッジベース] ページで、対象のナレッジベースをクリックします。
現在のページの URL で、ナレッジベースの ID を記録します。
説明id=の後の情報がナレッジベースの ID です。