分散大数据処理向け MaxCompute Spark の概要 - MaxCompute

MaxCompute Spark は、MaxCompute が提供するオープンソース互換の Spark コンピューティングサービスです。これは、統合計算リソースとデータセット権限システムの上に Spark コンピューティングフレームワークを提供します。これにより、使い慣れた開発手法を使用して Spark ジョブを送信および実行し、多様なデータ処理およびデータ分析要件を満たすことができます。

主な特徴

ネイティブな複数バージョン Spark ジョブのサポート
ネイティブ Apache Spark は MaxCompute で実行されます。Spark API と完全に互換性があり、複数バージョンの Spark をサポートします。
統合計算リソース
MaxCompute Spark は、MaxCompute SQL、MapReduce、その他のタスクタイプと同様に、MaxCompute プロジェクトで有効化された統合計算リソース上で実行されます。
統合データおよび権限管理
MaxCompute プロジェクトの権限システムに従い、割り当てられた権限内でデータを安全にクエリできます。
オープンソースシステムと同様のユーザーエクスペリエンス
ネイティブなオープンソースのリアルタイム Spark UI と、履歴ログを取得する機能を提供します。

サポートされる機能

MaxCompute Spark は以下の機能をサポートします。

オフラインコンピューティング: GraphX、MLlib、RDD、Spark SQL、PySpark など。
MaxCompute テーブルからの読み取りと書き込み。
MaxCompute 内のファイルリソースの参照。
Alibaba Cloud VPC 環境にデプロイされたサービスへのアクセス。
Alibaba Cloud OSS の非構造化ストレージへのアクセス。
MaxCompute OSS 外部テーブルの読み取り。
DataWorks Notebook。

制限事項

MaxCompute Spark は現在、以下のシナリオをサポートしていません。

Spark-Shell、Spark-SQL-Shell、PySpark-Shell などのインタラクティブシェルはサポートしていません。
MaxCompute のビルトイン関数またはユーザー定義関数 (UDF) にアクセスできません。
MaxCompute の外部テーブルへのアクセスは、OSS 外部テーブルに限定されます。