データ処理 AI ワークロード向けのフルマネジメントサーバーレス Spark ランタイム - EMR Serverless Spark - E-MapReduce (EMR)

EMR Serverless Spark は、データと AI 向けのパフォーマンス専有型レイクハウスプロダクトです。タスク開発、デバッグ、スケジューling、運用保守 (O&M) などの機能を備えたワンストップのデータプラットフォームを企業に提供します。これにより、データ処理とモデルトレーニングのプロセス全体が簡素化されます。このプロダクトは、オープンソースの Spark エコシステムと 100% 互換性があり、既存のデータプラットフォームにシームレスに統合できます。EMR Serverless Spark を使用することで、企業はデータ処理、分析、モデルトレーニングの最適化に集中し、作業効率を向上させることができます。

サービスアーキテクチャ

EMR Serverless Spark のアーキテクチャは、次の 4 つのレイヤーで構成されています。

アプリケーションシナリオレイヤー
EMR Serverless Spark は、幅広いデータニーズに対応します。データウェアハウスと BI 分析シナリオ向けに、簡単なデータクエリとレポート開発のための SQL エディターを提供します。また、従来のデータウェアハウスの使用パターンとも互換性があります。人工知能とデータサイエンス向けに、Python 環境管理とインタラクティブな機械学習開発をサポートする Notebook 機能を統合しています。このプラットフォームは、複数のシナリオを組み合わせた統合ソリューションとして設計されています。これにより、ユーザーはツールを切り替えることなく、データ分析からモデルトレーニングまでのワークフロー全体を効率的に完了できます。
プラットフォーム機能レイヤー
このレイヤーは、アプリケーションシナリオレイヤーのシナリオをサポートします。ワークフローオーケストレーションを使用して、バッチ処理、ストリームコンピューティング、AI ジョブの混合スケジューリングを可能にします。同じパイプラインで ETL タスク、リアルタイム分析、機械学習トレーニングをオーケストレーションできます。これにより、断片化されたシステムによって引き起こされる問題が回避されます。すべての操作は、RAM 認証と権限付与を通じて管理できます。これにより、リソース、データ、機能へのアクセスを詳細に制御し、エンタープライズグレードのセキュリティを確保します。さらに、SQL エディターと Notebook 機能は、それぞれデータウェアハウスと AI の開発エクスペリエンスを最適化します。Notebook、Kyuubi、Livy サービスは、開発者に柔軟なプログラミングインターフェイスとタスク送信サービスを提供します。
コアエンジンレイヤー
- Fusion エンジン: CPU 負荷の高いシナリオ向けに設計されており、C++ ベースのベクトル化 SQL エンジンを提供します。Java 仮想マシン (JVM) と比較して、Fusion エンジンは SIMD 命令をより有効に活用します。これにより、CPU 使用率が向上し、メモリオーバーヘッドが削減されます。
- Celeborn: エンタープライズグレードのリモートシャッフルサービスで、I/O 負荷の高いシナリオ向けにマルチテナントデータ分離とリソースの弾力性をサポートします。
レイクハウスストレージレイヤー
このレイヤーは、Paimon や Iceberg などのオープンなデータレイクフォーマットに基づいています。データレイクの柔軟性を維持しながら、従来のデータウェアハウスの主要な機能を提供します。これらの機能には、ACID トランザクション、効率的なデータアップサート、完全なデータリネージレコードなどがあります。

メリット

クラウドネイティブの高速コンピュートエンジン

内蔵 Fusion Engine (Spark Native Engine): オープンソース版と比較して 300% のパフォーマンス向上を実現し、ビッグデータコンピューティングタスクを大幅に高速化します。このエンジンは、ベクトル化エンジンとバッチデータ処理技術により、コンピューティング効率を最適化します。また、メモリ使用量を削減し、全体的なパフォーマンスを向上させます。
内蔵 Celeborn (リモートシャッフルサービス): ペタバイト規模のシャッフルデータ処理をサポートし、大規模なシャッフルタスクの安定性とパフォーマンスを大幅に向上させます。コンピュートノードに大容量ディスクは必要ありません。このサービスは、Spark の動的リソーススケーリング機能を最大限に活用して、ストレージコストを削減します。計算資源の総コストを最大 30% 削減できます。

柔軟なスケーリングと効率的なリソース利用

オンデマンドの弾力的なスケーリング: コンピュートとストレージが分離されたアーキテクチャをサポートします。計算資源は数秒以内に弾力的にスケーリングでき、最小粒度は 1 コアです。リソースは、タスクまたはキューレベルで詳細に計測されます。ストレージは従量課金モデルを使用しており、リソースの無駄を防ぎ、運用コストを大幅に削減します。
シームレスな移行と互換性: OSS-HDFS と統合され、HDFS クラウドストレージと完全な互換性があり、ビジネスのクラウドへのスムーズな移行をサポートします。DLF を使用してレイクハウスのメタデータを完全に統合します。これにより、データアクセスの一貫性と完全な権限管理が保証され、最新のデータレイクハウスアーキテクチャを簡単に構築するのに役立ちます。

シームレスなエコシステム互換性

オープンソース Spark との完全な互換性: コードを変更することなくジョブを直接実行できます。互換性のある spark-submit および spark-sql ツールを提供し、移行の障壁を低くします。
主流のレイクハウスフォーマットとの緊密な統合: Apache Paimon、Iceberg、Delta、Hudi などの主流のレイクハウスフォーマットを完全にサポートし、多様なデータストレージのニーズに対応します。
スケジューリングシステムとセキュリティ機能: Apache Airflow や Apache DolphinScheduler などの主流のスケジューリングシステムとの統合をサポートします。外部の Kerberos または LDAP に接続して身分認証を行い、Apache Ranger を使用してデータ権限付与を行い、データセキュリティを確保できます。
機械学習への適応: 組み込みの SparkML 環境と Notebook を提供します。サードパーティの Python ライブラリの完全なライフサイクル管理をサポートします。

ワンストップの開発エクスペリエンス

エンドツーエンドの開発サポート: タスク開発、デバッグ、公開からスケジューリングまで、ワンストップの開発エクスペリエンスを提供します。これにより、エンタープライズレベルの開発とリリースの高い基準を満たします。組み込みのバージョン管理機能は、各リリースの完全な履歴を記録し、ソースコードと構成の差分比較をサポートして、変更が追跡可能であることを保証します。
効率的なコラボレーションと安定性: 開発環境と本番環境は厳密に分離されており、ビジネスの安定性を確保します。これにより、チームが効率的に共同作業し、安定した結果を提供できるよう支援します。

サーバーレスリソースプラットフォーム

すぐに使える: 手動管理や複雑なインフラストラクチャ設定なしで、タスク開発を迅速に開始できます。
秒単位の弾力性: Spark タスクのリソース要件に基づいて、リソースを動的にプルし、Pod を起動します。計算が完了すると、リソースはすぐに解放されます。課金は実際に使用されたリソース量にのみ基づいており、これにより総コンピューティングコストがさらに削減されます。
コスト見積もり: タスクレベルのリソース計測とコスト見積もりを提供し、詳細な運用を実現するのに役立ちます。

課金

次の課金方法がサポートされています。

サブスクリプション: 特定の期間のリソースを購入します。リソースを使用する前に支払います。
従量課金: 必要に応じてリソースをアクティブ化および解放します。リソースを使用した後に支払います。

使用方法

EMR Serverless Spark コンソール: インタラクティブな操作のための Web ベースのサービスページです。
API: GET および POST リクエストを使用する RPC スタイルの API 操作をサポートします。API 操作の詳細については、「API リファレンス」をご参照ください。以下は、API 操作を呼び出すための一般的な開発者ツールです。
- OpenAPI Developer Portal: 迅速な API 取得、オンライン API 呼び出し、SDK サンプルコードの動的生成などのサービスを提供します。
- Alibaba Cloud SDK: Java、Python、PHP などのさまざまなプログラミング言語向けのソフトウェア開発キット (SDK) を提供します。