ワークフローは、データ処理フローを自動化するためのツールです。ドラッグアンドドロップによる直感的なインターフェイスを提供し、さまざまな種類のタスクノードを統合できます。これにより、タスク間の後続依存関係の構築が簡素化され、データ処理フローのセットアップが加速し、開発効率が向上します。
ワークフローとは
ワークフローは、DataWorks におけるデータタスクのオーケストレーションおよび管理のコア単位です。SQL、Shell、Python、データ同期、チェックなどのタスクノードを、有向非循環グラフ(DAG)として視覚的に整理します。この構造により、明確な後続依存関係が確立され、一元化されたスケジューリングおよび実行が可能となり、安定的で保守性の高いデータパイプラインを構築できます。さらに、複数のワークフローを相互にオーケストレーションすることで、複雑なビジネスシナリオにおける開発をサポートします。
ワークフローは、本質的に個別のデータタスクを構造化・視覚化されたプロセスに統合します。これにより、個々のタスク管理から、全体のデータ生産ラインの管理へと焦点が移ります。ワークフローのコア価値は、以下の 3 つの領域に集約されます:
開発フローの抽象化と可視化
SQL や Shell など依存関係を持つノードを、「日次アクティブユーザー分析」などのビジネス指向ワークフローにカプセル化し、明確な DAG を形成します。これにより、技術的な実行パスが明確になるだけでなく、非技術者もデータ転送ロジックを理解しやすくなり、ビジネスとテクノロジーの配置(alignment)が促進されます。開発および運用の原子単位管理
変更および運用の最小単位として、ワークフローは包括的な提出、デプロイメント、テスト、再実行、データバックフィルなどの運用・保守(O&M)をサポートします。これにより、部分的な変更に起因する本番環境の障害を防止し、エンドツーエンドの一貫性および安定性を確保します。チーム連携の境界定義
複数チームが関与する環境において、ワークフローは所有権および責任範囲を明確にします。たとえば、トランザクションチームはトランザクションデータを、製品チームは製品データをそれぞれ担当します。これにより、権限の隔離および課題の追跡が可能になります。標準化された出力は、上流および下流チーム間の効率的かつ疎結合な連携も支援します。
ワークフロータイプの比較
DataWorks では、現在、以下の 2 つの主要なワークフロータイプを推奨しています:
スケジュール実行型ワークフロー: 毎時、毎日、毎週など、固定のスケジュールで自動実行されるワークフローであり、定期的な実行が必要なデータ処理シナリオに適しています。設定済みのスケジューリングルールによってトリガーされ、内部ノードの実行はスケジュールされた時間によって制御されます。
イベントトリガー型ワークフロー: 手動操作、OpenAPI 呼び出し、イベントメッセージなどの外部信号によってオンデマンドでトリガーされるワークフローであり、リアルタイム処理や外部イベントへの応答が求められるシナリオに適しています。このタイプのワークフローは固定のスケジューリングサイクルに依存せず、手動、API、イベントによるトリガーをサポートします。
機能 | スケジュール実行型ワークフロー | イベントトリガー型ワークフロー | 手動実行型ワークフロー(推奨しません) |
スケジューリング方法 | スケジュール時間および依存関係によるトリガー | 手動/イベント/API によるトリガー | 手動実行 |
シナリオ | 日次/毎時/毎週/毎月バッチ処理 | リアルタイム処理/オンデマンド実行/外部連携 | 一時的なタスク(下位互換性のため) |
パラメーター優先順位 | ノード > ワークフロー > ワークスペース | ノード > ワークフロー > ワークスペース | ワークフロー > ノード |
代表的な利用シーン | 毎日深夜の T+1 レポート生成 | OSS ファイル到着時に自動処理 | ワンタイムのデータ修正 |
トリガー設定のないイベントトリガー型ワークフローは、手動実行型ワークフローとしても使用でき、段階的に手動実行型ワークフローを置き換えることができます。
手動実行型ワークフローは、主に旧来のデータ開発パターンとの下位互換性を確保するために用意されています。新規プロジェクトでは使用しないでください。
迅速な選択ガイド
以下の 3 つの質問に答えることで、ご自身に最適なワークフロータイプを素早く特定できます:
参考文献
ご利用のシナリオに応じて、適切なドキュメントを選択してください:
スケジュール実行型のシナリオについては、「スケジュール実行型ワークフローのオーケストレーション」をご参照ください。
イベント駆動型のシナリオについては、「イベントトリガー型ワークフロー」をご参照ください。
運用・保守およびモニタリングについては、「オペレーションセンターの概要」をご参照ください。