概述
向量检索服务 DashVector基于阿里云的向量引擎Proxima内核开发。它提供完全托管在云原生架构上的高效向量检索服务,并支持垂直和水平扩展以满足业务需求。 向量检索服务将强大的向量管理、检索等能力,通过简洁易用的SDK和API接口透出,方便您轻松地将其与智能问答、多模态搜索等各种场景的应用进行集成。
工作原理
-
应用
通过低代码API和简单易用的SDK,可以将向量检索服务DashVector集成到各种场景的应用中,如多模态搜索、智能问答、基于LLM的服务等。
-
向量检索服务DashVector
基于云原生架构,向量检索服务DashVector可以实现跨集群和跨地域部署,这样您就可以通过扩展集群和服务(搜索器)来调整服务量和性能(如QPS),从而灵活应对业务变化。 您可以在DashVector控制台中管理和配置向量搜索服务(如集群、集合、API-KEY等)。 我们提供主流编程语言的SDK,方便您以低代码方式快速上手。
-
云基础架构
阿里云提供强大的计算、存储和网络云资源,以及强大的数据处理和容器管理服务,以支持灵活、可靠的云原生架构。
功能特性
全托管向量检索云服务
高精度高效检索
向量检索服务DashVector集成了阿里云向量搜索引擎Proxima,该引擎提供高性能算法,可实现针对大规模数据的低延迟搜索。
低运维成本
全托管、云原生的向量搜索服务具备水平和垂直扩展能力,能够降低运维成本,您只需关注业务需求,无需担心底层架构。
极简SDK设计
低代码API和简单易用的SDK支持服务与各种业务场景的AI应用快速集成。
向量数据实时索引
流数据索引构建
向量检索服务DashVector采用扁平化的索引架构,支持从0到1对大规模流数据进行在线索引构建。
实时在线更新
当向量发生新增、删除、修改后,向量状态即时生效, 实现了向量即增即查、即时落盘 以及向量实时动态更新。
海量数据的快速索引构建
向量检索服务DashVector通过多种方式优化索引结构和加载方式,支持2维至20,000维的大规模向量数据导入。
条件过滤查询
支持自定义Schema
在进行条件过滤查询时,DashVector使用预定义字段以加快检索速度并减少计算功耗。
支持多种表达式过滤
您可以使用比较运算符(包括“<”、“<=”、“=”、“!=”、“>=”和“>”)、and和or逻辑运算符以及like字符串运算符执行组合搜索。
稀疏向量
关键词搜索和混合搜索
您可以使用DashVector执行关键词搜索、向量搜索或混合搜索(关键词+向量),该服务同时支持稀疏向量和稠密向量,以实现语义和关键词之间的平衡。
稀疏向量生成工具
我们建议使用DashVector中的DashText进行稀疏向量编码。 DashText使用BM25算法将原始文本转换为稀疏向量数据,由此大大简化了基于关键词的向量搜索过程。
应用场景
您可以使用DashVector的API,基于文本索引和向量搜索功能,从0到1快速构建语义搜索服务,以支持像通义千问这样的生成式AI应用。 这些应用程序可以创建基于文本的内容(包括翻译、改写、总结等)、编写代码和扮演角色。
产品优势
-
高效
支持实时向量增删查改,支持多数据源全量和增量同步。
-
快速精确
支持使用各种运算符的组合来执行筛选搜索,同时支持自定义Schema Free类型的数据字段,从而加快向量搜索过程。
DashVector将单个图片/视频/文本文件抽象成高维向量特征作为嵌入信息,然后基于所有特征构建高效的向量索引。 用户只需输入文本或者上传照片或视频,即可搜索类似文件。 这种多模态搜索服务大大提升了用户体验。
产品优势
-
灵活
您可以为数据设置多个集合和分区,并轻松管理它们
-
Schema Free
支持自定义数据字段,提高向量搜索的灵活性和准确性。
-
方便快捷
支持通过低代码API和简单易用的SDK,快速建立多模态搜索服务。
您可以将DashVector与大型语言模型(LLM)相结合,以构建特定领域的知识问答系统。 首先,将用户输入内容和知识库内容转换为高质量的向量,然后使用DashVector将匹配过程转换为语义搜索,从而更准确、更高效地提取相关知识。 通过相应的提示,该服务可以理解用户意图,并利用知识库中的信息提供解答。
产品优势
-
云原生
采用云原生系统架构,将计算资源与存储资源分离,支持向上和向外扩展。
-
易集成
支持与专属领域知识库结合,问题回答更精准。
-
范围广
支持大规模向量数据的快速召回,以提高向量搜索的准确性。
在智能搜索、广告推荐等场景,购买记录等用户洞察将被转化为向量数据。DashVector根据相似度在向量数据库中搜索相关产品信息,推荐给潜在买家,由此提高购买率并改善用户体验。
产品优势
-
高兼容
支持广泛的数据类型和各种搜索方法。
-
高性能
达摩院的向量搜索引擎适用于大规模文本和向量数据,阿里云的高可用架构可为各种搜索场景提供高性能支持。
-
自定义
您可以自定义搜索距离,并设置相似度阈值(可将相似度高于阈值的向量数据筛选掉)。
5步轻松上手向量检索服务