このトピックでは、DataWorks に関連する基本的な概念 (ワークフロー、ソリューション、SQL スクリプトテンプレート、ノード、インスタンス、コミット操作、スクリプト、リソース、関数、出力名など) について説明します。
ワークフロー
- ワークフロー内のノードはタイプ別に整理されます。
- 階層ディレクトリ構造がサポートされています。 最大 4 つのレベルのサブフォルダーを作成することを推奨します。
- ビジネスの観点から各ワークフローを表示および最適化できます。
- 各ワークフロー全体のデプロイと管理ができます。
- ダッシュボードで各ワークフローを表示して、コードを効率的に開発できます。
解決方法
ソリューションには、1 つ以上のワークフローが含まれます。
- ソリューションには複数のワークフローを含めることができます。
- ワークフローは複数のソリューションに追加できます。
- ワークスペースのメンバーは、ワークスペースのすべてのソリューションを共同で開発および管理することができます。
SQL スクリプトテンプレート
SQL スクリプトテンプレートは、SQL スクリプトから抽象化された一般的なロジックチャンクです。 コード開発の効率を高めるために再利用できます。
各 SQL スクリプトテンプレートには、1 つ以上のソーステーブルが含まれます。 ソーステーブルのデータをフィルタリングし、ソーステーブルを結合し、それらを集約して、新しい業務の要件に基づいて結果テーブルを生成できます。 SQL スクリプトテンプレートには、複数の入力パラメーターと出力パラメーターが含まれています。
Node
- 同期ノードは、ApsaraDB for RDS から MaxCompute にデータを同期するために使用されます。
- ODPS SQL ノードは、データ変換のために MaxCompute SQL を実行するために使用されます。
各ノードには 0 個以上の入力テーブルまたはデータセットがあり、1 つ以上の出力テーブルまたはデータセットを生成します。
データ型 | 説明 |
---|---|
ノードタスク | ノードタスクはデータに対して実行される操作です。 ノードタスクと他のノードタスクまたはフロータスク間の依存関係を構成して、有向非巡回グラフ (DAG) を形成できます。 |
フロータスク | フロータスクは、ワークフロータスクを処理する内部ノードのグループを含みます。 作成するフロータスクは 10 個未満にすることを推奨します。
フロータスク内の内部ノードは、他のフロータスクやノードタスクに依存関係として使用することはできません。 フロータスクと他のフロータスクまたはノードタスク間の依存関係を構成して、DAG
を形成できます。
注 DataWorks V2.0 以降では、DataWorks V1.0 で作成されたフロータスクを見つけることは可能です。ただし、フロータスクを作成することはできません。
ワークフローを作成して同様の操作を実行することは可能です。
|
内部ノード | 内部ノードはフロータスク内のノードです。 基本的にノードタスクと同じ機能を持っています。 ドラッグアンドドロップ操作でフロータスクの内部ノード間の依存関係を構成できます。 ただし、内部ノードはフロータスクの定期実行の構成に従っているため、内部ノードの定期実行を構成することはできません。 |
インスタンス
インスタンスは、特定の時点でのノードのスナップショットです。 ノードがスケジューリングシステムによってスケジュールされたとき、または手動でトリガーされたときに生成されます。 インスタンスには、ノードの実行時間、ノードの実行ステータス、操作ログなどの情報が含まれています。
コミット
スクリプト
スクリプトは、データ分析用のコードを保存します。 スクリプト内のコードは、データのクエリと分析にのみ使用できます。 スケジューリングシステムへの展開やスケジューリングはできません。
リソースと関数
リソースと関数は MaxCompute の概念です。 詳細については、「リソース」および「関数」をご参照ください。
DataWorks コンソールでは、リソースと関数を管理できます。 DataWorks のリソースと関数は、MaxCompute などの他のサービスを介してアップロードされている場合はクエリできません。
出力名
Alibaba Cloud アカウントでは、各ノードにその子孫ノードへの接続に使用される出力名があります。