部署和調用RAG對話系統服務 -

RAG（Retrieval-Augmented Generation，檢索增強產生）技術通過從外部知識庫檢索相關資訊，並將其與使用者輸入合并後傳入大語言模型（LLM），從而增強模型在私人領域知識問答方面的能力。EAS提供情境化部署方式，支援靈活選擇大語言模型和向量檢索庫，實現RAG對話系統的快速構建與部署。本文為您介紹如何部署RAG對話系統服務以及如何進行模型推理驗證。

步驟一：部署RAG服務

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
在模型線上服務（EAS）頁面，單擊部署服務，然後在情境化模型部署地區，單擊大模型RAG對話系統部署。

在部署大模型RAG對話系統頁面，配置參數後單擊部署。當服務狀態變為運行中時，表示服務部署成功（服務部署時間長度通常約為5分鐘，具體時間長度可能因模型參數量或其他因素略有差異，請耐心等待）。關鍵參數說明如下。

基本資料

參數

描述

版本選擇

支援部署以下兩種版本：

LLM一體化部署：將大語言模型（LLM）服務和RAG服務部署在同一服務內。
LLM分離式部署：僅部署RAG服務。但在RAG服務內，您可以自由更換和串連LLM服務，靈活性更高。

模型類別

當版本選擇LLM一體化部署時，您需要選擇要部署的大語言模型（LLM）。您可以根據具體使用情境選擇相應的開源模型。

資源部署
參數
描述
部署資源
在選擇模型類別後，系統將自動匹配適合的資源規格。更換至其他資源規格，可能會導致模型服務啟動失敗。

向量檢索庫設定

RAG支援通過Faiss（Facebook AI Similarity Search）、Elasticsearch、Hologres、OpenSearch或RDS PostgreSQL構建向量檢索庫。根據您的情境需要，任意選擇一種版本類型，作為向量檢索庫。

FAISS

使用Faiss構建本地向量庫，無需購買線上向量庫產品，免去了線上開通向量庫產品的複雜流程，更輕量易用。

參數	描述
版本類型	選擇FAISS。
OSS地址	選擇當前地區下已建立的OSS儲存路徑，用來儲存上傳的知識庫檔案。如果沒有可選的儲存路徑，您可以參考控制台快速入門進行建立。說明如果您選擇使用自持微調模型部署服務，請確保所選的OSS儲存路徑不與自持微調模型所在的路徑重複，以避免造成衝突。

Elasticsearch

配置阿里雲Elasticsearch執行個體的串連資訊。關於如何建立Elasticsearch執行個體及準備配置項，請參見準備向量檢索庫Elasticsearch。

參數	描述
版本類型	選擇Elasticsearch。
私網地址/連接埠	配置Elasticsearch執行個體的私網地址和連接埠，格式為`http://<私網地址>:<私網連接埠>`。如何擷取Elasticsearch執行個體的私網地址和連接埠號碼，請參見查看執行個體的基本資料。
索引名稱	輸入新的索引名稱或已存在的索引名稱。對於已存在的索引名稱，索引結構應符合PAI-RAG要求，例如您可以填寫之前通過EAS部署RAG服務時自動建立的索引。
帳號	配置建立Elasticsearch執行個體時配置的登入名稱，預設為elastic。
密碼	配置建立Elasticsearch執行個體時配置的登入密碼。如果您忘記了登入密碼，可重設執行個體訪問密碼。

Hologres

配置為Hologres執行個體的串連資訊。如果未開通Hologres執行個體，可參考購買Hologres進行操作。

參數	描述
版本類型	選擇Hologres。
調用資訊	配置為指定VPC的host資訊。進入Hologres管理主控台的執行個體詳情頁，在網路資訊地區單擊指定VPC後的複製，擷取網域名稱`:80`前的host資訊。
資料庫名稱	配置為Hologres執行個體的資料庫名稱。如何建立資料庫，詳情請參見建立資料庫。
帳號	配置為已建立的自訂使用者帳號。具體操作，請參見建立自訂使用者，其中選擇成員角色選擇執行個體超級管理員（SuperUser）。
密碼	配置為已建立的自訂使用者的密碼。
表名稱	輸入新的表名稱或已存在的表名稱。對於已存在的表名稱，表結構應符合PAI-RAG要求，例如可以填寫之前通過EAS部署RAG服務自動建立的Hologres表。

OpenSearch

配置為OpenSearch向量檢索版執行個體的串連資訊。關於如何建立OpenSearch執行個體及準備配置項，請參見準備向量檢索庫OpenSearch。

參數	描述
版本類型	選擇OpenSearch。
訪問地址	配置為OpenSearch向量檢索版執行個體的公網訪問地址。您需要為OpenSearch向量檢索版執行個體開通公網訪問功能，具體操作，請參見準備向量檢索庫OpenSearch。
執行個體id	在OpenSearch向量檢索版執行個體列表中擷取執行個體ID。
使用者名稱	配置為建立OpenSearch向量檢索版執行個體時，輸入的使用者名稱和密碼。
密碼	配置為建立OpenSearch向量檢索版執行個體時，輸入的使用者名稱和密碼。
表名稱	配置為準備OpenSearch向量檢索版執行個體時建立的索引表名稱。如何準備索引表，請參見準備向量檢索庫OpenSearch。

RDS PostgreSQL

配置為RDS PostgreSQL執行個體資料庫的串連資訊。關於如何建立RDS PostgreSQL執行個體及準備配置項，請參見準備向量檢索庫RDS PostgreSQL。

參數	描述
版本類型	選擇RDS PostgreSQL。
主機地址	配置為RDS PostgreSQL執行個體的內網地址，您可以前往雲資料庫RDS PostgreSQL控制台頁面，在RDS PostgreSQL執行個體的資料庫連接頁面進行查看。
連接埠	預設為5432，請根據實際情況填寫。
資料庫	配置為已建立的資料庫名稱。如何建立資料庫和帳號，請參見建立帳號和資料庫，其中：建立帳號時，帳號類型選擇高許可權帳號。建立資料庫時，授權帳號選擇已建立的高許可權帳號。
表名稱	自訂設定資料庫表名稱。
帳號	配置為已建立的高許可權帳號和密碼。如何建立高許可權帳號，請參見建立帳號和資料庫，其中帳號類型選擇高許可權帳號。
密碼

專用網路配置

參數	描述
VPC	在部署RAG服務時，如果選擇LLM分離式部署，需確保RAG服務能正常訪問LLM服務。具體網路要求如下：通過公網訪問LLM服務：需在此處配置具有公網訪問能力的專用網路，詳情請參見情境一：讓EAS服務訪問公網。通過內網地址訪問LLM服務：RAG服務和LLM服務需使用相同的專用網路。如果您需要使用阿里雲百鍊模型或者使用連網搜尋進行問答，需配置具有公網訪問能力的專用網路，詳情請參見情境一：讓EAS服務訪問公網。向量檢索庫的網路要求： Faiss向量檢索庫，無需通過網路訪問。 Hologres、Elasticsearch或RDS PostgreSQL，EAS可通過公網或私網訪問，推薦使用私網訪問。私網訪問要求EAS中配置的專用網路與向量檢索庫的專用網路保持一致。如需建立Virtual Private Cloud、交換器和安全性群組，詳情請參見建立和管理專用網路和建立安全性群組。 EAS只能通過公網訪問OpenSearch。配置方式請參見步驟二：準備配置項。
交換器
安全性群組名稱

步驟二：WebUI頁面調試

RAG服務部署成功後，單擊服務方式列下的查看Web應用，啟動WebUI頁面。

請按照以下操作步驟，在WebUI頁面上傳企業知識庫檔案並對問答效果進行調試。

1、向量檢索庫與大語言模型設定

在Settings頁簽，您可以修改Embedding相關參數以及使用的大語言模型。建議直接使用預設配置。

說明

使用dashscope，您需要給EAS情境一：讓EAS服務訪問公網，並配置阿里雲百鍊的API Key。阿里雲百鍊模型調用需單獨計費，請參見阿里雲百鍊計費項目說明。

Index相關參數說明：

參數	描述
Index Name	系統支援對已有Index進行更新。您可以在下拉式清單中選擇NEW來新增Index，並通過指定索引名稱實現不同知識庫資料的隔離，詳情請參見如何使用RAG服務進行知識庫資料隔離？。
EmbeddingType	支援huggingface和dashscope兩種模型來源。 huggingface：系統提供內建的Embedding模型供您選擇。 dashscope：使用阿里雲百鍊模型，預設使用text-embedding-v2模型，詳情請參見向量化（Embedding）。
Embedding Dimension	輸出向量維度。維度設定對模型的效能有直接影響。在您選擇Embedding模型後，系統將自動設定Embedding維度，無需手動操作。
Embedding Batch Size	批處理大小。

Large Language Model相關參數說明

當版本選擇LLM分離部署時，您需要參照LLM大語言模型部署來部署大語言模型服務，然後單擊LLM服務名稱，在基本資料地區單擊查看調用資訊，擷取服務訪問地址和Token。

說明

使用公網地址串連LLM服務：RAG服務需綁定具有公網訪問能力的專用網路。
使用VPC地址串連LLM服務：RAG服務與LLM服務必須在同一個專用網路內。

然後配置以下參數：

參數	描述
LLM Base URL	當使用LLM分離部署時，配置為已擷取的LLM服務的訪問地址和Token。當使用LLM一體化部署時，系統已預設配置該參數，無需修改。
API Key
Model name	在部署大語言模型（LLM）時，如果您選擇了加速部署-vLLM模式，請務必填寫具體的模型名稱，例如qwen2-72b-instruct。對於其他部署模式，則只需將模型名稱設定為`default`即可。

2、上傳知識庫檔案

在Upload頁簽，您可以上傳知識庫檔案，系統會自動按照PAI-RAG格式將檔案儲存體到向量檢索庫。對於同名知識庫檔案，除了FAISS外，其他向量檢索庫將會覆蓋原有檔案。支援的檔案類型為.html、.htm、.txt、.pdf、.pptx、.md、Excel（.xlsx或.xls）、.jsonl、.jpeg、.jpg、.png、.csv或Word（.docx）。支援的上傳方式如下：

從本地上傳檔案（支援多檔案上傳）或對應目錄（Files或Directory頁簽）
從OSS上傳（Aliyun OSS頁簽）
重要
上傳前，請確保在Settings頁簽的Large Language Model地區，選中Use OSS Storage並完成相關參數的配置。

下圖狀態表示知識庫檔案上傳成功：

您可以在上傳之前修改多並發控制和語義分塊參數，參數說明如下：

參數	描述
Number of workers to parallelize data-loading over	多並發控制參數，預設為4，表示系統支援同時啟動4個進程來上傳檔案。建議將並發數設定為 $GP U 顯存 /6 GB$ 的大小。例如，當前GPU顯存為24 GB，則並發數可以設定為4。
Chunk Size	指定每個文本分塊的大小，單位為位元組，預設為500。
Chunk Overlap	表示相鄰分塊之間的重疊量，預設為10。
Process with MultiModal	使用多模態模型處理，可以處理pdf、word、md檔案的圖片。如果您選擇了使用多模態LLM，請開啟此開關。
Process PDF with OCR	使用OCR模式解析PDF檔案。

3、模型推理驗證

在Chat頁簽選擇使用的知識庫索引（Index Name），配置問答策略，並進行問答測試。支援以下4種問答策略：

Retrieval：直接從向量資料庫中檢索並返回Top K條相似結果。
LLM：直接使用LLM回答。
Chat(Web Search)：根據使用者提問自動判斷是否需要連網搜尋，如果連網搜尋，將搜尋結果和使用者問題一併輸入大語言模型服務。使用連網搜尋需要給EAS情境一：讓EAS服務訪問公網。
Chat(Knowledge Base)：將向量資料庫檢索返回的結果與使用者問題合并填充至已選擇的Prompt模板中，一併輸入大語言模型服務進行處理，從中擷取問答結果。

更多推理參數說明如下：

通用參數

參數	說明
Streaming Output	選中Streaming Output後，系統將以流式方式輸出結果。
Need Citation	回答中是否需要給出引用。
Inference with multi-modal LLM	使用多模態大語言模型時是否展示圖片。

向量檢索相關參數
Retrieval Mode：支援以下三種檢索方式：
- Embedding Only：向量資料庫檢索召回。
- Keyword Only：關鍵詞檢索召回。
- Hybrid：向量資料庫和關鍵詞檢索多路召回融合。
說明
在大多數複雜情境下，向量資料庫檢索召回都能有較好的表現。但在某些語料稀缺的垂直領域，或要求準確匹配的情境，向量資料庫檢索召回方式可能不如傳統的稀疏檢索召回方式。稀疏檢索召回方法通過計算使用者查詢與知識文檔的關鍵詞重疊度來進行檢索，因此更為簡單和高效。
PAI提供了BM25等關鍵詞檢索召回演算法來完成稀疏檢索召回操作。向量資料庫檢索召回和關鍵詞檢索召回具有各自的優勢和不足，因此綜合二者的召回結果能夠提高整體的檢索準確性和效率。
倒數排序融合（Reciprocal Rank Fusion, RRF）演算法通過對每個文檔在不同召回方法中的排名進行加權求和，以此計算融合後的總分數。當Retrieval選擇Hybrid時，PAI將預設使用RRF演算法對向量資料庫召回結果和關鍵詞檢索召回結果進行多路召回融合。
連網搜尋相關
參數
說明
bing：配置Bing搜尋。
Bing API Key
用於訪問Bing搜尋。
Search Count
搜尋的網頁數量，預設為10。
Language
搜尋語言，支援選擇zh-CN（中文）和en-US（英文）。
LLM相關
Temperature ：控制產生內容的隨機性。溫度值越低，輸出結果也相對固定；而溫度越高，輸出結果則更具多樣性和創造性。

步驟三：API調用

以下內容介紹了RAG常用功能的API調用方法。如需瞭解更多功能的API調用方法（如管理知識庫索引、更新RAG服務配置等），請參見RAG API介面說明。

重要

查詢和上傳API均可以指定index_name來切換知識庫，當index_name參數省略時，預設為default_index知識庫。詳情請參見如何使用RAG服務進行知識庫資料隔離？。

擷取調用資訊

單擊RAG服務名稱，進入服務詳情頁面。
在基本資料地區，單擊查看調用資訊。
在調用資訊對話方塊，擷取服務訪問地址和Token。
說明
您可以選擇使用公網地址或VPC內網地址：
- 使用公網地址，調用用戶端需支援訪問公網。
- 使用內網地址：調用用戶端必須與RAG服務位於同一個專用網路內。

上傳知識庫檔案

支援通過API上傳本地的知識庫檔案。根據上傳介面返回的task_id可以查詢檔案上傳任務的狀態。

以下樣本中，<EAS_SERVICE_URL>替換為RAG服務的訪問地址；<EAS_TOKEN>替換為RAG服務的Token。擷取方式詳情請參見擷取調用資訊。

上傳單個檔案

 # <EAS_TOKEN>和<EAS_SERVICE_URL>需分別替換為服務Token和訪問地址。
 # "-F 'files=@"後的路徑需替換為您的檔案路徑。 
 # index_name配置為您的知識庫索引名稱。 
   curl -X 'POST' <EAS_SERVICE_URL>/api/v1/upload_data \
  -H 'Authorization: <EAS_TOKEN>' \
  -H 'Content-Type: multipart/form-data' \
  -F 'files=@example_data/paul_graham/paul_graham_essay.txt' \
  -F 'index_name=default_index'

上傳多份檔案，可以使用多個-F 'files=@path'參數，每個參數對應一個要上傳的檔案，樣本如下：

  # <EAS_TOKEN>和<EAS_SERVICE_URL>需分別替換為服務Token和訪問地址。
  # “-F 'files=@”後的路徑需替換為您的檔案路徑。 
  # index_name配置為您的知識庫索引名稱。 
  curl -X 'POST' <EAS_SERVICE_URL>/api/v1/upload_data \
  -H 'Authorization: <EAS_TOKEN>' \
  -H 'Content-Type: multipart/form-data' \
  -F 'files=@example_data/paul_graham/paul_graham_essay.txt' \
  -F 'files=@example_data/another_file1.md' \
  -F 'files=@example_data/another_file2.pdf' \
  -F 'index_name=default_index'

查詢上傳任務狀態

# <EAS_TOKEN>和<EAS_SERVICE_URL>需分別替換為服務Token和訪問地址。
# task_id配置為“上傳知識庫檔案”返回的task_id。 
curl -X 'GET' '<EAS_SERVICE_URL>/api/v1/get_upload_state?task_id=2c1e557733764fdb9fefa0635389****' -H 'Authorization: <EAS_TOKEN>'

單輪對話請求

cURL 命令

注意：以下樣本中，<service_url>替換為RAG服務的訪問地址；<service_token>替換為RAG服務的Token。擷取方式詳情請參見擷取調用資訊。

Retrieval：api/v1/query/retrieval

curl -X 'POST'  '<service_url>api/v1/query/retrieval' -H 'Authorization: <service_token>' -H 'accept: application/json' -H 'Content-Type: application/json'  -d '{"question": "什麼是人工智慧平台PAI?"}'

LLM：/api/v1/query/llm

curl -X 'POST'  '<service_url>api/v1/query/llm' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question": "什麼是人工智慧平台PAI?"}'

支援添加其他可調推理參數，例如{"question":"什麼是人工智慧平台PAI?", "temperature": 0.9}。

Chat(Knowledge Base)：api/v1/query

curl -X 'POST'  '<service_url>api/v1/query' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question": "什麼是人工智慧平台PAI?"}'

支援添加其他可調推理參數，例如{"question":"什麼是人工智慧平台PAI?", "temperature": 0.9}。

Chat(Web Search)：api/v1/query/search

curl --location '<service_url>api/v1/query/search' \
--header 'Authorization: <service_token>' \
--header 'Content-Type: application/json' \
--data '{"question":"中國電影票房排名", "stream": true}'

Python指令碼

注意：以下樣本中，SERVICE_URL配置為RAG服務的訪問地址；Authorization配置為RAG服務的Token。擷取方式詳情請參見擷取調用資訊。

import requests

SERVICE_URL = 'http://xxxx.****.cn-beijing.pai-eas.aliyuncs.com/'
headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json',
    'Authorization': 'MDA5NmJkNzkyMGM1Zj****YzM4M2YwMDUzZTdiZmI5YzljYjZmNA==',
}

def test_post_api_query(url):
    data = {
       "question":"什麼是人工智慧平台PAI?" 
    }
    response = requests.post(url, headers=headers, json=data)

    if response.status_code != 200:
        raise ValueError(f'Error post to {url}, code: {response.status_code}')
    ans = dict(response.json())

    print(f"======= Question =======\n {data['question']}")
    if 'answer' in ans.keys():
        print(f"======= Answer =======\n {ans['answer']}")
    if 'docs' in ans.keys():
        print(f"======= Retrieved Docs =======\n {ans['docs']}\n\n")
 
# LLM 
test_post_api_query(SERVICE_URL + 'api/v1/query/llm')
# Retrieval
test_post_api_query(SERVICE_URL + 'api/v1/query/retrieval')
# Chat（Knowledge Base）
test_post_api_query(SERVICE_URL + 'api/v1/query')

多輪對話請求

LLM和Chat（Knowledge Base）支援發送多輪對話請求，程式碼範例如下：

cURL命令

注意：以下樣本中，<service_url>替換為RAG服務的訪問地址；<service_token>替換為RAG服務的Token。擷取方式詳情請參見擷取調用資訊。

以RAG對話為例：

# 發送請求。 
curl -X 'POST'  '<service_url>api/v1/query' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question": "什麼是人工智慧平台PAI?"}'

# 傳入上述請求返回的session_id（對話歷史會話唯一標識），傳入session_id後，將對話歷史進行記錄，調用大模型將自動攜帶儲存的對話歷史。
curl -X 'POST'  '<service_url>api/v1/query' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question": "它有什麼優勢?","session_id": "ed7a80e2e20442eab****"}'

# 傳入chat_history（使用者與模型的對話歷史），list中的每個元素是形式為{"user":"使用者輸入","bot":"模型輸出"}的一輪對話，多輪對話按時間順序排列。
curl -X 'POST'  '<service_url>api/v1/query' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question":"它有哪些功能？", "chat_history": [{"user":"PAI是什嗎？", "bot":"PAI是阿里雲的人工智慧平台......"}]}'

# 同時傳入session_id和chat_history，會用chat_history對儲存的session_id所對應的對話歷史進行追加更新。 
curl -X 'POST'  '<service_url>api/v1/query' -H 'Authorization: <service_token>' -H 'accept: application/json'  -H 'Content-Type: application/json'  -d '{"question":"它有哪些功能？", "chat_history": [{"user":"PAI是什嗎？", "bot":"PAI是阿里雲的人工智慧平台......"}], "session_id": "1702ffxxad3xxx6fxxx97daf7c"}'

Python

注意：以下樣本中，SERVICE_URL配置為RAG服務的訪問地址；Authorization配置為RAG服務的Token。擷取方式詳情請參見擷取調用資訊。

import requests

SERVICE_URL = 'http://xxxx.****.cn-beijing.pai-eas.aliyuncs.com'
headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json',
    'Authorization': 'MDA5NmJkN****jNlMDgzYzM4M2YwMDUzZTdiZmI5YzljYjZmNA==',
}

def test_post_api_query_with_chat_history(url):
    # Round 1 query
    data = {
       "question": "什麼是人工智慧平台PAI?"
    }
    response = requests.post(url, headers=headers, json=data)

    if response.status_code != 200:
        raise ValueError(f'Error post to {url}, code: {response.status_code}')
    ans = dict(response.json())
    print(f"=======Round 1: Question =======\n {data['question']}")
    if 'answer' in ans.keys():
        print(f"=======Round 1: Answer =======\n {ans['answer']} session_id: {ans['session_id']}")
    if 'docs' in ans.keys():
        print(f"=======Round 1: Retrieved Docs =======\n {ans['docs']}")
   
    # Round 2 query
    data_2 = {
       "question": "它有什麼優勢？",
       "session_id": ans['session_id']
    }
    response_2 = requests.post(url, headers=headers, json=data_2)

    if response.status_code != 200:
        raise ValueError(f'Error post to {url}, code: {response.status_code}')
    ans_2 = dict(response_2.json())
    print(f"=======Round 2: Question =======\n {data_2['question']}")
    if 'answer' in ans.keys():
        print(f"=======Round 2: Answer =======\n {ans_2['answer']} session_id: {ans_2['session_id']}")
    if 'docs' in ans.keys():
        print(f"=======Round 2: Retrieved Docs =======\n {ans['docs']}")
    print("\n")

# LLM
test_post_api_query_with_chat_history(SERVICE_URL + "api/v1/query/llm")
# Chat（Knowledge Base）
test_post_api_query_with_chat_history(SERVICE_URL + "api/v1/query")

注意事項

本實踐受制於LLM服務的最大Token數量限制，旨在協助您體驗RAG對話系統的基本檢索功能：

該對話系統受制於LLM服務的伺服器資源大小以及預設Token數量限制，能支援的對話長度有限。
如果無需進行多輪對話，建議您關閉with chat history功能，這樣能有效減少達到限制的可能性。
WebUI操作方式：在RAG服務WebUI頁面的Chat頁簽，去勾選Chat history複選框。

常見問題

如何使用RAG服務進行知識庫資料隔離？

當不同部門或個人使用各自獨立的知識庫時，可以通過以下方法實現資料的有效隔離：

在WebUI頁面的Settings頁簽，配置以下參數，然後單擊Add Index。
- Index Name：選擇NEW。
- New Index Name：自訂新的索引名稱。例如INDEX_1。
- Path：當選擇Faiss作為VectorStore時，需要同步更新Path路徑，確保路徑末尾的索引名稱與新的索引名稱一致。
在Upload頁簽上傳知識庫檔案時，您可以選擇Index Name（索引名稱）。上傳後，檔案將被儲存到所選索引下。
在Chat頁簽進行對話時，請選擇相應的索引名稱。系統將使用該索引下的知識庫檔案進行知識問答，從而實現不同知識庫資料的隔離。

如何收費？

計費說明

在部署大模型RAG對話系統時，僅收取EAS資源的費用。如果在使用過程中，使用了阿里雲百鍊、向量資料庫（如Elasticsearch、Hologres、OpenSearch或RDS PostgreSQL）、Object Storage Service、公網NAT Gateway或網路搜尋服務（如Bing）等其他產品，將依據各產品的計費規則在相應產品中單獨計費。

停止收費

停止EAS服務後，僅能停止EAS資源的收費。若需停止其他產品的收費，請參考對應產品的文檔指引，按照說明停止或刪除相關執行個體。

通過API上傳的知識庫文檔可永久使用嗎？

RAG服務通過API上傳的知識庫檔案並非永久儲存，其儲存期限取決於所選向量檢索庫（如Object Storage Service、Elasticsearch、Hologres等）的配置。建議查閱相關文檔，瞭解儲存策略以確保資料長期儲存。

參數	描述
部署資源	在選擇模型類別後，系統將自動匹配適合的資源規格。更換至其他資源規格，可能會導致模型服務啟動失敗。

參數	說明
bing：配置Bing搜尋。
Bing API Key	用於訪問Bing搜尋。
Search Count	搜尋的網頁數量，預設為10。
Language	搜尋語言，支援選擇zh-CN（中文）和en-US（英文）。