MaxCompute は、ビッグデータエコシステムとの統合を改善し、外部コンピュートエンジンが MaxCompute データにアクセスできるようにするために Storage API を提供します。Storage API を呼び出すことで、主要なサードパーティのコンピュートエンジンは MaxCompute の基盤となるストレージに直接アクセスできます。この機能により、データアクセスとインタラクションの効率が大幅に向上します。この機能はパブリックプレビュー中です。
Open Storage の概要
Storage API は、データ読み取り操作のための効率的で低レイテンシかつ安全なメソッドを提供するデータサービスインターフェイスです。Storage API を使用すると、Spark on EMR、StarRocks、Presto、PAI などの主要なサードパーティのコンピュートエンジンが、MaxCompute の基盤となるストレージシステムに直接アクセスできます。これにより、MaxCompute とオープンソースのコンピュートエンジンまたは機械学習エンジンとの間の統合とデータ処理効率が向上します。データ読み取りプロセスを簡素化し、データアクセスパフォーマンスを向上させるために、Spark on EMR、StarRocks、および Presto はコネクタを使用して MaxCompute から直接データを読み取ることができます。次の図にアーキテクチャを示します。

シナリオ
Storage API は、データのアクセシビリティとマルチエンジンコンピューティングのシナリオに最適です。企業や開発者がコンピューティングフレームワークを柔軟に切り替えたり、特定のエンジンの機能を使用して MaxCompute のデータを処理したりする必要がある場合、Storage API はデータ循環を促進し、データ処理を多様化するためのブリッジとして機能します。
主な特徴
高スループット: Storage API は、効率的なカラムナデータ読み取り、転送前のデータフィルタリングのための述語プッシュダウン、および Arrow データ形式をサポートします。
安全でフレンドリ: プロジェクトの隔離、アクセスの制御、データ暗号化などのセキュリティポリシーを遵守しながら、ストレージの複雑さを抽象化し、テーブルセマンティクスで基盤となるストレージへの直接読み取りアクセスを提供します。
エコシステム統合: Spark on EMR と StarRocks はコネクタを使用して MaxCompute から直接データを読み取ることができます。これにより、コンピュートエンジンの統合が簡素化されます。
制限事項
MaxCompute にアクセスするサードパーティエンジンは、標準テーブル、パーティションテーブル、クラスター化テーブル、Delta テーブル、およびマテリアライズドビューを読み取ることができます。MaxCompute の外部テーブルや論理ビューは読み取ることができません。
JSON 型のデータの読み取りはサポートされていません。
従量課金 Storage API の場合、デフォルトの制限はテナントあたり 1,000 同時リクエストで、転送レートは同時リクエストあたり 10 MB/s です。
データ転送リソース
サードパーティエンジンが MaxCompute Storage API を使用してデータ転送タスクを実行する場合、Data Transmission Service (DTS) (サブスクリプション) リソースの排他的リソースグループを使用できます。次の表にリソースについて説明します。
リソースグループ名 | 課金説明 | サポートされるリージョン | 使用手順 |
Data Transmission Service (サブスクリプション) のための排他的リソースグループ | このリソースグループは、サブスクリプション課金方法に基づいています。購入した同時インスタンスの数に基づいて課金されます。詳細については、「データ転送のための排他的リソースのサブスクリプション料金」をご参照ください。 |
|
[リソース観察] ページに移動して、Data Transmission Service (DTS) (サブスクリプション) の排他的リソースグループの使用状況の詳細を表示できます。詳細については、「リソース観察」をご参照ください。
使用例
コネクタを使用して MaxCompute にアクセスします。詳細については、次のトピックをご参照ください。
SDK を使用して MaxCompute にアクセスします。詳細については、次のトピックをご参照ください。