全部产品
Search
文档中心

云原生数据库 PolarDB:什么是企业知识空间

更新时间:Jun 04, 2026

企业知识空间是PolarDB Agent Express提供的一站式RAG(Retrieval-Augmented Generation,检索增强生成)Serverless服务。基于PolarDB一体化架构,企业知识空间将数据摄入、多模态解析、向量化、混合检索和Agent编排封装为托管能力,帮助您快速构建可检索、可问答、可溯源的企业知识服务。

功能简介

自建RAG系统通常需要拼装文档解析、分块、向量化、索引构建、混合检索、重排、Agent编排等多个环节,链路长、组件多、一致性难以保证。企业知识空间将这条链路收敛为一个托管服务,解决以下核心问题:

  • 内置多模态解析与搜索:文档、图片、表格、音视频等非结构化数据一站式解析与跨模态检索,无需集成多个解析工具链。

  • 内置模型服务:Embedding、Rerank、LLM、版面分析、OCR等模型统一托管,无需自建模型推理集群。

  • RAG一体化方案:从数据摄入、解析、分块、向量化、索引构建到混合检索、重排、Agent编排,全链路开箱即用。

  • Serverless按量付费:计算资源按实际使用量弹性伸缩,空闲时零成本,无需预置集群。

  • 零数据同步链路:原始数据是唯一可信数据源,索引作为派生投影自动保持一致,支持OSS、NAS等多种数据源。

  • Agentic RAG:检索以工具形式提供给Agent,由Agent自行决定检索次数、改写查询和判断结果充分性,超越传统固定管线RAG。

一体化架构

企业知识空间基于PolarDB一体化架构构建,各组件按职责协同。

组件

职责

关系型数据库(PolarDB MySQL版

元数据精准管理:任务状态、空间配置、文档生命周期、审计日志,提供事务一致性保障。

智能搜索(PolarSearch)- 搜索节点

百亿级向量数据存储与检索,支持BM25 + KNN多路召回,存算分离弹性扩缩。

GPU集群

文档解析编排能力:版面分析、表格结构识别、OCR、公式识别、图片理解、ASR/VLM。

核心优势

优势

说明

一站式RAG方案

从数据摄入、多模解析、分块、向量化、索引到混合检索、重排、Agent编排,全链路开箱即用。

内置多模态能力

多模解析(文档/表格/图片/音视频)与多模搜索一体提供,解析模型由GPU集群托管运行。

零数据同步链路

原始数据即真相源,索引自动维护一致性。无需构建CDC、ETL等同步管道,多数据源(对象存储OSS/文件存储NAS等)即插即用。

Serverless极致性价比

按量付费,计算资源按需弹性伸缩,空闲时缩零,无需预置集群。

百亿级向量检索

智能搜索(PolarSearch)支持百亿级向量数据存储与检索,BM25 + KNN多路召回,存算分离可独立扩展。

内置模型服务

Embedding / Rerank / LLM / 解析小模型统一托管,模型切换对线上无感。

Agentic原生

检索以工具形式提供给Agent,支持多轮迭代推理、查询改写与结果充分性判断。

产品架构

企业知识空间由以下部署单元组成,按职责分为摄入数据流、查询面、管理面三条主链路。

部署单元

职责

数据源(对象存储OSS/文件存储NAS等)

原始数据层,存放文档、音视频等非结构化数据,是系统的唯一可信数据源。

摄入层(Ray 集群)

由事件触发网关与处理集群(Ray 集群)组成,订阅数据变更并定期对账,完成解析、元数据抽取和分块。

引擎层

PolarDB一体化架构核心,包含编排引擎、智能搜索(PolarSearch)索引存储(倒排+向量库)和PolarDB MySQL版(元数据管理)。

Agentic服务

查询面入口,运行ReAct推理环、工具注册表与Agent记忆。

控制面 + Dashboard

管理面入口,负责数据源绑定、同步状态、任务中心和审计。

模型服务(GPU集群)

托管Embedding、Rerank、LLM等通用模型,以及版面分析、OCR等解析专用小模型。

三条主链路

  • 摄入数据流:数据源变更 → 摄入层捕获、解析、分块 → 引擎层向量化并写入索引。全程无需维护同步管道。

  • 查询面:自然语言查询 → Agentic服务以ReAct环编排 → 调用引擎层检索工具 → 返回带溯源的结果。

  • 管理面:通过控制面声明数据源绑定、配置索引与模型参数、查看同步状态与审计。

核心能力

  • 事件驱动的数据摄入

    摄入层订阅数据源的变更(新增/修改/删除),并辅以定期对账兜底,确保索引与原始数据最终一致。您只需维护原始数据,无需手动触发同步或构建额外的同步链路。

  • 多模态文档解析

    内置GPU集群运行一组解析专用小模型,提供端到端的多模态解析能力:版面分析、表格结构识别、OCR、公式与代码识别、图片理解。音视频经ASR/VLM转写。解析结果统一切块为可索引的内容单元。

  • 混合检索与多模搜索

    引擎层在智能搜索(PolarSearch)节点上通过Query Plan执行多路召回:BM25关键词召回与向量KNN召回并行执行,经分数归一化与融合后,由Rerank模型重排,输出最相关的结果。支持跨模态语义检索和多种检索模式。

  • Agentic RAG

    检索以工具形式提供给Agentic服务。Agentic服务以ReAct环(Thought → Action → Observation)编排问答:由Agent推理是否需要检索、如何改写或拆解查询,多轮迭代直至结果充分,再生成答案。

  • 内置模型服务

    统一托管Embedding、Rerank、LLM等通用模型,以及版面分析、OCR等解析专用小模型。模型服务被摄入层、引擎层和Agentic服务共享,您只需在空间配置中选择所需模型即可。

  • 存算分离

    引擎层遵循PolarDB的存算分离架构:索引构建与检索计算无状态,可弹性扩缩为多个计算节点。索引数据落于PolarDB共享存储,计算与存储可独立扩展。

应用场景

  • 企业知识库问答

    将企业内部的产品文档、规章制度、技术资料等存入数据源,企业知识空间自动完成解析、分块和索引。员工通过自然语言提问获得带溯源的答案。文档更新后索引自动同步,无需人工维护。

  • 多模态媒资检索

    面向包含文档、图片、音视频的媒资库场景。企业知识空间对多模态数据统一解析、分块和索引,支持跨模态语义检索,适用于金融研报、行业资料和培训音视频等知识资产的统一检索与问答。

  • Agent应用的检索后端

    企业知识空间将检索能力以API形式暴露,可作为上层Agent应用的检索后端。Agent在多轮推理中按需调用检索工具,实现复杂问题的迭代式求解。