记忆存储服务(Memory Storage)基于表格存储 Tablestore 构建,为 AI Agent 提供 Serverless 的记忆写入、自动提取与语义检索能力,支持百万租户级数据隔离与跨会话记忆复用。
什么是记忆存储服务
记忆存储服务(Memory Storage)是基于表格存储 Tablestore 构建、面向 AI Agent 场景提供的记忆存储与管理能力。开发者将对话消息或文本写入记忆库,服务保存原始消息,并从中提取可检索的长期记忆单元。后续对话中,Agent 通过自然语言查询召回相关记忆,用于生成更连续、更贴合用户上下文的回复。
AI Agent 在真实业务中通常需要处理连续对话、跨会话偏好、用户画像和历史事实。仅依赖当前上下文窗口会带来 Token 成本上升、历史信息遗漏和上下文干扰等问题;完全由应用自行管理记忆抽取、存储和检索,则需要额外建设 LLM 调用、向量检索、全文检索、数据隔离和审计等能力。记忆存储服务将这些能力封装为统一的记忆库接口,开发者可通过 SDK、CLI 或 Agent 插件接入,无需从零实现记忆抽取与检索链路。
核心价值
Serverless,即开即用
服务采用全托管的 Serverless 架构,开发者通过 API 完成记忆的写入和检索,无需关心底层资源的部署和运维。按量付费,零用量零费用。
记忆自动提取,无需额外开发
将对话消息或文本传入后,系统自动从中提取关键事实和偏好,生成结构化的记忆单元。开发者无需编写额外的提取逻辑,也无需自行处理记忆的抽取和组织。
海量规模,弹性无上限
基于表格存储的分布式架构,系统支持水平扩展,理论上没有存储规模上限。满足百万租户、百亿条记忆存储的场景需求。
精准语义检索
支持向量检索与全文检索的混合检索模式,以自然语言作为查询输入即可召回相关记忆,同时可选启用 Rerank 二次排序进一步提升结果相关性。相较于业界主流mem0记忆的检索准确率大幅提升。
Token 成本大幅降低
相比传入完整对话历史,记忆存储方案实现约 84% 的 Token 节省,且回答语义质量几乎无损。减少无关上下文注入帮助 LLM 聚焦关键信息,避免全量历史注入带来的 Token 消耗 O(N²) 增长和"Lost in the Middle"性能退化。
海量租户隔离
通过 appId、tenantId、agentId、runId 四级 Scope 实现数据隔离,开发者可按应用、租户、Agent 和会话组织记忆数据边界,满足百万租户级别的多租户隔离需求。
多种接入方式
支持 Python SDK、Node.js SDK、命令行工具,以及 Hermes、OpenClaw 等 Agent 生态插件。开发者可根据业务场景选择合适的接入方式。
与开源方案对比
记忆存储服务与业界主流开源记忆方案 mem0 的核心差异如下。
对比维度 | 记忆存储服务(Memory Storage) | 开源 mem0 |
部署运维 | Serverless,API 即开即用,零运维 | 需自行部署和运维底层组件 |
记忆提取 | 系统自动提取,无需额外开发 | 需自行管理记忆抽取逻辑 |
检索准确率 | LoCoMo 综合 76.34%,复杂推理场景表现突出 | LoCoMo 综合 64.20% |
检索延时 | 亿级数据 P95 ≤ 288 ms | 亿级数据 P95 约为表格存储的 4 倍 |
存储规模 | 水平扩展,已验证 120 万租户、1 亿+ 条记忆 | 受限于底层存储方案 |
多租户隔离 | 四级 Scope 原生支持,开箱即用 | 需自行设计隔离方案 |
详细评测数据和方法请参见架构与技术选型。
适用场景
多轮对话连续性
长对话场景中,将历史消息写入记忆库,由服务保留原始消息并提取关键事实。后续对话仅按需召回相关记忆,避免将完整历史全量注入上下文。
跨会话偏好沿用
用户在多个会话中表达的偏好、习惯和约束被提取为长期记忆单元,新会话中通过语义检索召回,使 Agent 在不同时间、不同入口仍能保持一致的应答风格。
多 Agent 知识共享
通过四级 Scope 中 agentId 通配,多个 Agent 可在同一租户范围内共享同一份用户记忆,避免在每个 Agent 中重复抽取和维护相同的事实。
用户画像沉淀
将用户行为、属性和历史事实持续写入记忆库,由服务自动归并为结构化的画像单元,供推荐、客服、营销等下游 Agent 直接召回使用。
接入方式
接入方式 | 适用场景 | 文档 |
SDK | 在业务服务或 Agent 应用中直接调用记忆服务 | |
CLI | 本地调试、运维管理、自动化脚本 | |
Agent 插件 | 在现有 Agent 框架中自动接入记忆检索和写回 |
支持地域
当前仅在华北 2(北京)地域提供服务。