全部产品
Search
文档中心

表格存储:产品概览

更新时间:May 12, 2026

通过知识存储(RAG)服务,将文档上传后即可通过混合检索为大语言模型(LLM)提供精准的上下文信息。以下介绍知识存储服务的定位、核心价值、典型应用场景和与开源方案的对比。

什么是知识存储(RAG)服务

知识存储(RAG)服务是基于阿里云表格存储(Tablestore)构建的全托管 RAG(Retrieval-Augmented Generation,检索增强生成)服务。它为企业和开发者提供了从文档导入、智能解析、自动切片、向量化到混合检索的一站式能力,帮助用户快速构建高质量的知识检索系统,为大语言模型(LLM)提供精准的上下文信息。

知识存储服务采用 Serverless 架构,用户通过 API 即开即用,无需部署和维护任何物理服务器或基础设施。文档上传后,系统自动完成解析、切块、构建索引等全部处理流程,用户只需关注业务逻辑本身。

在典型的 AI 应用链路中,知识存储服务处于核心的“知识管理与检索”环节。

说明

当前支持地域:华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、中国香港、新加坡。可就近选择区域接入。

核心价值

Serverless,即开即用

知识存储服务是完全的 Serverless 服务。用户通过 API 调用即可创建知识库、上传文档、执行检索,无需购买和部署物理服务器,无需关心底层资源的扩缩容。这意味着从零到生产环境可用,只需要几行 API 调用,极大地降低了技术门槛和运维成本。

按量付费,零元起步

无最小规格、无最低消费。存储与计算独立按量计费,用多少付多少。业务低谷期近乎零成本,高峰期自动弹性扩展,彻底告别资源闲置浪费。

海量规模,弹性无上限

单个知识库默认最大支持 1 亿级文档。无论是初创团队的小规模试用,还是大型企业的海量知识管理,知识存储服务都能从容应对。底层基于表格存储的分布式架构,天然具备水平扩展能力,业务增长无需担忧容量瓶颈。

全托管知识库流水线

文档上传后,系统自动完成文档解析、智能切块、Embedding 向量化、索引构建等全部处理流程。当前已支持 PDF、Word(doc/docx)、Excel(xls/xlsx)、PowerPoint(ppt/pptx)、纯文本(txt)、Markdown(md)等主流文档格式。用户无需自行搭建文档处理 Pipeline,无需管理 Embedding 模型的部署和运维,也无需手动构建和维护向量索引。整个知识库的生命周期管理都由服务端自动完成。

数据自持,完全可控

整个流程中的原始数据、中间数据和结果数据都存储在用户自己的云服务账号(OSS Bucket或Tablestore实例)内。服务本身不持有或转存任何用户数据。这种架构确保了数据的所有权和安全性完全掌握在客户手中,满足金融、政务、医疗等对数据合规性要求极高的行业需求。

灵活重排,精准召回

内置 RRF、加权融合、模型 Rerank 三种重排策略,可按业务场景灵活选用,对召回结果进行多维度精排,确保最相关的内容优先呈现。同时支持向量检索与全文检索双通道混合召回——向量检索捕捉语义相似性,全文检索保障关键词精确匹配,二者互补,最大化召回覆盖面。

自主可控,开放定制

核心模块均支持客户通过接口和参数进行控制与调整。从 Embedding 模型选择(内置百炼模型或自定义模型)、检索策略配置(检索类型、召回数量、Rerank 方式)、元数据过滤条件,到 Chunk 级别的内容修改和状态管理,用户可以根据业务需求精细调控知识库的每一个环节。

典型应用场景

企业知识问答系统

将企业内部的产品文档、技术手册、FAQ、规章制度等导入知识库,结合 LLM 构建智能问答系统。员工或客户提出问题时,系统从知识库中检索最相关的内容片段,交由 LLM 生成准确、有据可查的回答。适用于客服、HR、法务、IT 运维等多个部门。

文档智能搜索与摘要

替代传统的关键词搜索引擎,利用向量检索理解用户的搜索意图,返回语义最相关的文档片段。配合元数据过滤(按时间、分类、作者等维度筛选),实现精准的文档检索体验。

多租户 SaaS 知识库

利用 Subspace 机制,在同一个知识库内为不同租户(用户、部门、客户)隔离数据。每个租户只能检索到自己 Subspace 下的文档,天然实现数据隔离,无需为每个租户创建独立的知识库,大幅降低管理复杂度和成本。

RAG Pipeline 集成

作为 RAG 架构中的检索层,与 LangChain、LlamaIndex 等主流 AI 框架集成。用户将文档灌入知识库,在推理阶段调用 Retrieve 接口获取相关上下文,拼接到 Prompt 中送入 LLM,实现知识增强的生成效果。

合规文档管理与审计

金融、医疗、政务等行业的合规文档管理场景。所有数据存储在客户自己的云账户内,满足数据不出域的合规要求。通过元数据(metadata)标注文档的分类、版本、有效期等属性,结合 Metadata Filter 实现精准的合规文档检索。

与开源方案对比

对比维度

知识存储(RAG)服务

自建方案(某开源RAG方案)

部署方式

Serverless,API 即开即用

需自行部署系统,对机器有最低配置要求

依赖组件

无需关心,底层 OSS/Tablestore 由云平台全托管

需自行部署和运维 Elasticsearch、MySQL、Redis、MinIO 等组件

运维成本

零运维,容量自动弹性

需持续维护多个组件的升级、监控和故障恢复

计费模式

按量付费,零用量零费用

开源免费,但需承担服务器、存储和带宽成本

文档处理

全自动(上传→解析→切片→向量化→索引)

需配置解析模板和切块策略

数据安全

数据存储在客户自己的 OSS/Tablestore 账户

数据在自建服务器上,安全性取决于运维水平

多租户

Subspace 原生支持,开箱即用

需自行设计隔离方案

Embedding

内置百炼模型(零配置),支持自定义模型

需自行配置模型 API Key

配置参数复杂度

全部参数内置已调优的默认值,零配置开箱即用

参数众多,需逐一学习、理解与配置,上手与调优成本高