全部产品
Search
文档中心

云原生大数据计算服务 MaxCompute:开放存储概述

更新时间:Aug 01, 2025

为了更好地融入大数据生态,并支持外部引擎访问MaxCompute中的数据,MaxCompute提供了开放存储(Storage API)。第三方主流计算引擎可通过调用Storage API直接访问MaxCompute的底层存储,从而显著提升数据访问和交互效率(本功能处于公测阶段)。

开放存储介绍

开放存储(Storage API)是一种数据服务接口,提供了高效、低延迟、安全的数据读方式,支持第三方主流计算引擎(Spark on EMR、StarRocks、Presto、PAI)直接访问MaxCompute的底层存储系统,提升了MaxCompute与开源计算引擎的机器学习引擎的集成度和数据处理效率。其中,Spark on EMR、StarRocks和Presto还可通过Connector直接读取MaxCompute的数据,更加简化了读取数据的过程,提高了数据访问性能。架构图如下:

image

应用场景

开放存储(Storage API)可应用于数据开放与多引擎计算场景,当企业或开发者需要在不同的计算框架间灵活切换,或者利用特定引擎的特性处理MaxCompute中的数据时,Storage API可以作为桥梁促进数据流通和处理的多样化。

关键特性

  • 高吞吐:具备列级高效读取的能力,支持在数据传输前通过谓词下推来过滤数据,同时支持Arrow格式。

  • 安全易用:提供Table语义直读底层存储,屏蔽存储细节,同时满足项目隔离、权限控制、数据加密等安全策略。

  • 生态融合:Spark on EMR和StarRocks可通过Connector直接读取MaxCompute的数据,简化了计算引擎的集成过程。

使用限制

  • 第三方引擎访问MaxCompute时,支持读取普通表、分区表、聚簇表、Delta Table和物化视图;不支持读取MaxCompute的外部表、逻辑视图。

  • 不支持读JSON数据类型。

  • 开放存储(按量付费)每个租户的请求并发数限制默认为1000个,并且每个并发传输速率为10 MB/s。

数据传输资源

第三方引擎通过MaxCompute开放存储进行数据传输任务时,可选择使用数据传输服务独享资源组(包年包月)资源。详细介绍如下。

资源组名称

费用说明

支持地域

使用说明

数据传输服务独享资源组(包年包月)

包年包月,按购买并发数的数量计费,详情请参见数据传输独享资源费用(包年包月)

  • 华东1(杭州)

  • 华北2(北京)

  • 华东2(上海)

  • 华南1(深圳)

  • 中国香港

  • 新加坡

  • 印度尼西亚(雅加达)

  • 美国(弗吉尼亚)

购买与使用独享数据传输服务资源组

您可以在资源观测页面,查看数据传输服务独享资源组(包年包月)的使用详情,请参见资源观测

使用示例