全部产品
Search
文档中心

:大模型RAG对话系统(v0.3.x)

更新时间:Jun 16, 2026

RAG(Retrieval-Augmented Generation,检索增强生成)技术通过从外部知识库检索相关信息,并将其与用户输入合并后传入大语言模型(LLM),从而增强模型在私有领域知识问答方面的能力。EAS提供场景化部署方式,能快速构建与部署RAG对话系统,并支持灵活选择大语言模型和向量检索库。本文为您介绍如何部署RAG对话系统服务以及如何进行模型推理验证。

重要

本文适用于RAG版本0.3.4和0.3.5,推荐使用最新版本

步骤一:部署RAG服务

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 推理服务页签,单击部署服务,然后在场景化模型部署区域,单击大模型RAG对话系统部署

  3. 部署大模型RAG对话系统页面,配置如下关键参数:

    • 版本选择RAG服务支持两种部署模式,根据应用场景和资源规划进行选择。

      • LLM一体化部署:将RAG服务与大语言模型(如Qwen)部署在同一个EAS服务实例中。此模式配置简单,适合快速验证和原型开发。

      • LLM分离式部署:仅部署RAG服务,大语言模型作为独立的服务存在。此模式允许RAG服务连接到不同的LLM服务(如其他EAS部署的LLM或阿里云百炼模型服务),便于资源复用和独立扩展。适合生产环境或已有LLM服务的场景。

    • 部署资源:为服务分配合适的计算资源。

      • LLM一体化部署:系统会根据所选的模型类别自动推荐资源规格。更改为更低的规格可能导致服务启动失败。

      • LLM分离式部署:RAG服务本身资源消耗较低。建议选择至少8核CPU和16 GB内存的规格,例如 ecs.g6.2xlargeecs.g6.4xlarge

    • 向量检索库设置:

      • 版本类型:选择FAISS(构建本地向量库以便快速实践)。生产环境建议使用其他成熟的向量检索库,配置方式请参见使用阿里云向量数据库

      • OSS地址:选择当前地域下已创建的OSS存储目录,用来存储上传的知识库文件。如果没有可选的存储路径,您可以参考控制台快速入门进行创建。

        说明

        如果您选择使用自持微调模型部署服务,请确保所选的OSS存储路径不与自持微调模型所在的路径重复,以避免造成冲突。

    • 专有网络:如下进行EAS访问公网或内网资源,确保RAG服务能与LLM服务、向量检索库及其他云服务正常通信。

      • 访问公网服务:通过公网访问向量数据库、LLM服务(如阿里云百炼模型服务)以及使用联网搜索,必须为EAS服务配置公网访问能力。

      • 访问私网服务

        • 通过内网地址访问向量数据库,需RAG服务与向量数据库处于同一VPC内。

        • 通过内网地址访问LLM服务,需RAG服务与LLM服务处于同一VPC内。

      说明
      • Hologres、ElasticSearch、RDS PostgreSQL支持通过内网或公网访问,推荐使用内网访问。

      • Faiss向量检索库,无需通过网络访问。OpenSearch只支持通过公网访问。

  1. 参数配置完成后,单击部署。当服务状态变为运行中时,表示服务部署成功(服务部署时长通常约为5分钟,具体时长可能因模型参数量或其他因素略有差异,请耐心等待)。

步骤:API调用

RAG服务提供API接口(如知识库管理、对话等),便于集成到应用程序中。详情请参见RAG API接口说明

成本与风险说明

成本构成

部署和使用本方案涉及的费用主要包括:

  • EAS资源的费用: RAG服务运行所占用的计算资源(vCPU、内存、GPU等)按时收费。服务停止后,此部分费用即停止。

  • 向量检索库费用: 若使用Elasticsearch、、HologresOpenSearchRDS PostgreSQL,需支付相应产品的实例费用。

  • 对象存储OSS费用: 用于存储原始知识库文件。

  • 大语言模型调用费用: 若使用阿里云百炼等商业模型服务,会产生API调用费用。

  • 公网NAT网关费用: 若EAS服务需要访问公网,会产生NAT网关的费用。

  • 网络搜索服务费用: 若启用联网搜索功能(如Bing),会产生相应搜索服务的费用。

重要

停止EAS服务后,仅能停止EAS资源的收费。若需停止其他产品的收费,请参考对应产品的文档指引,按照说明停止或删除相关实例。

关键风险与限制

  • 对话长度限制: 受限于所选LLM服务的上下文窗口大小(Token限制),单次对话能处理的文本长度有限。

  • 文件覆盖: 在使用除FAISS外的向量检索库时,上传同名文件将直接覆盖已有数据,操作前需谨慎。

  • API参数限制: 仅部分功能参数可通过API进行配置,其余高级配置(如多数检索调优参数)仍需通过WebUI完成。

注意事项

本实践受制于LLM服务的服务器资源大小以及默认Token数量限制,能支持的对话长度有限,旨在帮助您体验RAG对话系统的基本检索功能。

常见问题

通过API设置的参数为什么没有生效?

目前,PAI-RAG服务仅支持通过API设置接口说明文档中列出的参数,其余参数需通过WebUI界面进行配置。