大規模な本番データパイプラインの管理は複雑です。相互依存タスクのスケジューリング、障害への対応、オープンソースのスケジューラのメンテナンスには、すべて多大な運用オーバーヘッドが必要です。EMR Workflow は、このオーバーヘッドを解消するフルマネージドのスケジューリングサービスです。オープンソースの Apache DolphinScheduler と完全な互換性を持ち、インフラストラクチャのデプロイや管理を行うことなく、ワークフローやタスクをオーケストレーションできるサーバーレス環境を提供します。
EMR Workflow は現在、パブリックプレビュー中です。詳細については、「EMR Workflow のパブリックプレビュー」をご参照ください。
メリット
-
デプロイや運用保守が不要: EMR Workflow はすぐに使用でき、スケジューラクラスターのプロビジョニング、パッチ適用、メンテナンスは不要です。
-
クラウドネイティブの信頼性: このサービスは Alibaba Cloud のサーバーレスインフラストラクチャ上で実行され、容量計画なしで安定的かつ回復力のある実行を提供します。
-
エンタープライズレベルのセキュリティと隔離: EMR Workflow は Resource Access Management (RAM) と統合されており、ロールベースアクセス制御とエンタープライズレベルの隔離を実現します。
-
ネイティブなビッグデータ統合: カスタムコネクタなしで、EMR クラスターや、Hive、Spark、Flink などの一般的なコンピュートエンジンに直接接続できます。
-
互換性のある API と簡単な移行: EMR Workflow は Apache DolphinScheduler と互換性のある API オペレーションを公開しているため、既存の DolphinScheduler ワークフローやレガシー EMR ジョブを数回のクリックで移行できます。
機能
| 機能 | 説明 |
|---|---|
| 複数のタスクタイプ | SHELL、SPARK、HIVECLI など、さまざまなタイプのタスクをスケジュールできます。 |
| ビジュアルワークフローエディター | タスクを視覚的に構築して接続します。詳細については、「ワークフローの作成」をご参照ください。 |
| リアルタイムモニタリング | ワークフローの実行中にタスクのステータスを追跡し、ログを表示またはダウンロードできます。 |
| スケジュールされたタスクの管理 | cron ベースのスケジュールを定義し、単一のインターフェイスから管理します。詳細については、「スケジュールされたワークフローの設定」をご参照ください。 |
| 例外ベースのアラート機能 | タスクの失敗時や例外発生時に、自動で通知を受け取ることができます。詳細については、「アラートインスタンスの作成」をご参照ください。 |
| リソース管理 | ビジュアルインターフェイスを通じてリソースファイルを作成・アップロードし、ワークフローで使用できます。詳細については、「リソース管理」をご参照ください。 |