全部产品
Search
文档中心

对象存储 OSS:数据湖管理

更新时间:Feb 05, 2025

OSS提供的数据湖管理旨在帮助您高效构建和管理数据湖,满足海量数据存储、分析和迁移的需求。OSS-HDFS服务作为核心,结合OSS加速器,为您提供无缝集成大数据生态系统的能力。通过兼容HDFS接口、提供分层命名空间以及优化实时计算场景的支持,显著提升了数据分析性能,降低了存储成本,同时简化了传统HDFS向云端迁移的复杂性。

OSS-HDFS服务

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。

OSS-HDFS服务深度整合了丰富的生态工具,包括但不限于Hadoop、Hive、Presto、Spark等开源生态和MaxCompute、SLS等阿里云生态,使得您无需额外开发即可轻松完成从数据存储到分析的全流程。

使用场景

  • 离线数仓:支持Hive、Spark离线数仓的文件和目录操作。

  • OLAP分析:提供常用文件操作(如append、truncate、flush等),满足存储与计算分离方案需求。

  • HBase存储与计算分离:原生支持文件、目录语义和操作,并支持flush操作,可用于替代HDFS在HBase存储与计算分离方案中的应用。

  • 实时计算:高效支持flush和truncate操作,可无缝替代HDFS在Flink实时计算应用场景下的Sink、Checkpoint存储方案。

  • 数据迁移:作为新一代云原生数据湖存储,支持IDC HDFS平迁上云,优化HDFS使用体验,享受弹性伸缩、按需付费的成本效益。

功能优势

  • 兼容性:无需修改现有的Hadoop、Spark等大数据分析应用,通过简单配置即可像在原生HDFS中那样管理和访问数据。

  • 弹性扩展:提供无限容量、弹性扩展的存储服务,确保高安全性、可靠性和可用性。

  • 分层命名空间:支持将对象组织到目录层次结构中进行管理,并通过统一元数据管理能力进行内部自动转换。

  • 高性能:满足EB级数据分析、亿级文件管理服务、TB级吞吐量的需求。

OSS加速器

针对AI、数据仓库和大数据分析等对延迟和吞吐量要求较高的业务场景,OSS加速器通过将热点文件缓存在NVMe SSD高性能介质上,减少数据写入延迟并提高吞吐量,显著优化了实时计算作业的表现,帮助您在云端快速部署稳定的流处理管道。

使用场景

  • 低时延数据共享:适用于需要快速访问上传数据的场景,如移动应用的图片上传和分析。

  • 模型推理:适用于需要频繁加载和切换模型文件的场景,提升推理效率。

  • 大数据分析:适用于数据量大且查询范围不确定的分析场景,减少查询延迟。

  • 多级加速:与客户端缓存结合使用,实现多级加速,提升数据访问效率。

功能优势

  • 低延迟:通过将热点文件缓存在NVMe SSD上,OSS加速器提供毫秒级的下载延迟,适合推理模型下载和数据仓库热数据查询。

  • 高吞吐量:加速器的带宽与容量线性增长,支持高达百GB/s的突发吞吐能力,满足大量数据的快速读取需求。

  • 弹性伸缩:支持在线扩容或缩容,容量范围从50 GB到100 TB,帮助您根据需求调整资源,降低成本。

  • 数据一致性:加速器提供强一致性,确保读取到的是最新的数据。

  • 多种预热策略:支持读时预热、同步预热和异步预热,确保计算引擎读取到最新数据。

相关文档