部署和调用RAG对话系统服务 -

RAG（Retrieval-Augmented Generation，检索增强生成）技术通过从外部知识库检索相关信息，并将其与用户输入合并后传入大语言模型（LLM），从而增强模型在私有领域知识问答方面的能力。EAS提供场景化部署方式，能快速构建与部署RAG对话系统，并支持灵活选择大语言模型和向量检索库。本文为您介绍如何部署RAG对话系统服务以及如何进行模型推理验证。

重要

本文适用于RAG版本0.3.4和0.3.5，推荐使用最新版本。

步骤一：部署RAG服务

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
在推理服务页签，单击部署服务，然后在场景化模型部署区域，单击大模型RAG对话系统部署。
在部署大模型RAG对话系统页面，配置如下关键参数：
- 版本选择：RAG服务支持两种部署模式，根据应用场景和资源规划进行选择。
  - LLM一体化部署：将RAG服务与大语言模型（如Qwen）部署在同一个EAS服务实例中。此模式配置简单，适合快速验证和原型开发。
  - LLM分离式部署：仅部署RAG服务，大语言模型作为独立的服务存在。此模式允许RAG服务连接到不同的LLM服务（如其他EAS部署的LLM或阿里云百炼模型服务），便于资源复用和独立扩展。适合生产环境或已有LLM服务的场景。
- 部署资源：为服务分配合适的计算资源。
  - LLM一体化部署：系统会根据所选的模型类别自动推荐资源规格。更改为更低的规格可能导致服务启动失败。
  - LLM分离式部署：RAG服务本身资源消耗较低。建议选择至少8核CPU和16 GB内存的规格，例如 ecs.g6.2xlarge 或 ecs.g6.4xlarge。
- 向量检索库设置：
  - 版本类型：选择FAISS（构建本地向量库以便快速实践）。生产环境建议使用其他成熟的向量检索库，配置方式请参见使用阿里云向量数据库。
  - OSS地址：选择当前地域下已创建的OSS存储目录，用来存储上传的知识库文件。如果没有可选的存储路径，您可以参考控制台快速入门进行创建。
    说明
    如果您选择使用自持微调模型部署服务，请确保所选的OSS存储路径不与自持微调模型所在的路径重复，以避免造成冲突。
- 专有网络：如下进行EAS访问公网或内网资源，确保RAG服务能与LLM服务、向量检索库及其他云服务正常通信。
  - 访问公网服务：通过公网访问向量数据库、LLM服务（如阿里云百炼模型服务）以及使用联网搜索，必须为EAS服务配置公网访问能力。
  - 访问私网服务：
    - 通过内网地址访问向量数据库，需RAG服务与向量数据库处于同一VPC内。
    - 通过内网地址访问LLM服务，需RAG服务与LLM服务处于同一VPC内。
  说明
  - Hologres、ElasticSearch、RDS PostgreSQL支持通过内网或公网访问，推荐使用内网访问。
  - Faiss向量检索库，无需通过网络访问。OpenSearch只支持通过公网访问。

参数配置完成后，单击部署。当服务状态变为运行中时，表示服务部署成功（服务部署时长通常约为5分钟，具体时长可能因模型参数量或其他因素略有差异，请耐心等待）。

步骤二：API调用

RAG服务提供API接口（如知识库管理、对话等），便于集成到应用程序中。详情请参见RAG API接口说明。

成本与风险说明

成本构成

部署和使用本方案涉及的费用主要包括：

EAS资源的费用: RAG服务运行所占用的计算资源（vCPU、内存、GPU等）按时收费。服务停止后，此部分费用即停止。
向量检索库费用: 若使用Elasticsearch、、Hologres、OpenSearch或RDS PostgreSQL，需支付相应产品的实例费用。
对象存储OSS费用: 用于存储原始知识库文件。
大语言模型调用费用: 若使用阿里云百炼等商业模型服务，会产生API调用费用。
公网NAT网关费用: 若EAS服务需要访问公网，会产生NAT网关的费用。
网络搜索服务费用: 若启用联网搜索功能（如Bing），会产生相应搜索服务的费用。

重要

停止EAS服务后，仅能停止EAS资源的收费。若需停止其他产品的收费，请参考对应产品的文档指引，按照说明停止或删除相关实例。

关键风险与限制

对话长度限制: 受限于所选LLM服务的上下文窗口大小（Token限制），单次对话能处理的文本长度有限。
文件覆盖: 在使用除FAISS外的向量检索库时，上传同名文件将直接覆盖已有数据，操作前需谨慎。
API参数限制: 仅部分功能参数可通过API进行配置，其余高级配置（如多数检索调优参数）仍需通过WebUI完成。

注意事项

本实践受制于LLM服务的服务器资源大小以及默认Token数量限制，能支持的对话长度有限，旨在帮助您体验RAG对话系统的基本检索功能。

常见问题

通过API设置的参数为什么没有生效？

目前，PAI-RAG服务仅支持通过API设置接口说明文档中列出的参数，其余参数需通过WebUI界面进行配置。