RAG(Retrieval-Augmented Generation,检索增强生成)技术通过从外部知识库检索相关信息,并将其与用户输入合并后传入大语言模型(LLM),从而增强模型在私有领域知识问答方面的能力。EAS提供场景化部署方式,能快速构建与部署RAG对话系统,并支持灵活选择大语言模型和向量检索库。本文为您介绍如何部署RAG对话系统服务以及如何进行模型推理验证。
本文适用于RAG版本0.3.4和0.3.5,推荐使用最新版本。
步骤一:部署RAG服务
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
在推理服务页签,单击部署服务,然后在场景化模型部署区域,单击大模型RAG对话系统部署。
在部署大模型RAG对话系统页面,配置如下关键参数:
版本选择:RAG服务支持两种部署模式,根据应用场景和资源规划进行选择。
LLM一体化部署:将RAG服务与大语言模型(如Qwen)部署在同一个EAS服务实例中。此模式配置简单,适合快速验证和原型开发。
LLM分离式部署:仅部署RAG服务,大语言模型作为独立的服务存在。此模式允许RAG服务连接到不同的LLM服务(如其他EAS部署的LLM或阿里云百炼模型服务),便于资源复用和独立扩展。适合生产环境或已有LLM服务的场景。
部署资源:为服务分配合适的计算资源。
LLM一体化部署:系统会根据所选的模型类别自动推荐资源规格。更改为更低的规格可能导致服务启动失败。
LLM分离式部署:RAG服务本身资源消耗较低。建议选择至少8核CPU和16 GB内存的规格,例如
ecs.g6.2xlarge或ecs.g6.4xlarge。
向量检索库设置:
版本类型:选择FAISS(构建本地向量库以便快速实践)。生产环境建议使用其他成熟的向量检索库,配置方式请参见使用阿里云向量数据库。
OSS地址:选择当前地域下已创建的OSS存储目录,用来存储上传的知识库文件。如果没有可选的存储路径,您可以参考控制台快速入门进行创建。
说明如果您选择使用自持微调模型部署服务,请确保所选的OSS存储路径不与自持微调模型所在的路径重复,以避免造成冲突。
专有网络:如下进行EAS访问公网或内网资源,确保RAG服务能与LLM服务、向量检索库及其他云服务正常通信。
访问公网服务:通过公网访问向量数据库、LLM服务(如阿里云百炼模型服务)以及使用联网搜索,必须为EAS服务配置公网访问能力。
访问私网服务:
通过内网地址访问向量数据库,需RAG服务与向量数据库处于同一VPC内。
通过内网地址访问LLM服务,需RAG服务与LLM服务处于同一VPC内。
说明Hologres、ElasticSearch、RDS PostgreSQL支持通过内网或公网访问,推荐使用内网访问。
Faiss向量检索库,无需通过网络访问。OpenSearch只支持通过公网访问。
参数配置完成后,单击部署。当服务状态变为运行中时,表示服务部署成功(服务部署时长通常约为5分钟,具体时长可能因模型参数量或其他因素略有差异,请耐心等待)。
步骤二:API调用
RAG服务提供API接口(如知识库管理、对话等),便于集成到应用程序中。详情请参见RAG API接口说明。
成本与风险说明
成本构成
部署和使用本方案涉及的费用主要包括:
EAS资源的费用: RAG服务运行所占用的计算资源(vCPU、内存、GPU等)按时收费。服务停止后,此部分费用即停止。
向量检索库费用: 若使用Elasticsearch、、Hologres、OpenSearch或RDS PostgreSQL,需支付相应产品的实例费用。
对象存储OSS费用: 用于存储原始知识库文件。
大语言模型调用费用: 若使用阿里云百炼等商业模型服务,会产生API调用费用。
公网NAT网关费用: 若EAS服务需要访问公网,会产生NAT网关的费用。
网络搜索服务费用: 若启用联网搜索功能(如Bing),会产生相应搜索服务的费用。
停止EAS服务后,仅能停止EAS资源的收费。若需停止其他产品的收费,请参考对应产品的文档指引,按照说明停止或删除相关实例。
关键风险与限制
对话长度限制: 受限于所选LLM服务的上下文窗口大小(Token限制),单次对话能处理的文本长度有限。
文件覆盖: 在使用除FAISS外的向量检索库时,上传同名文件将直接覆盖已有数据,操作前需谨慎。
API参数限制: 仅部分功能参数可通过API进行配置,其余高级配置(如多数检索调优参数)仍需通过WebUI完成。
注意事项
本实践受制于LLM服务的服务器资源大小以及默认Token数量限制,能支持的对话长度有限,旨在帮助您体验RAG对话系统的基本检索功能。
常见问题
通过API设置的参数为什么没有生效?
目前,PAI-RAG服务仅支持通过API设置接口说明文档中列出的参数,其余参数需通过WebUI界面进行配置。