レガシー DataStudio の機能と準備 - DataWorks - Alibaba Cloud ドキュメントセンター

DataStudio への移動

DataWorks コンソールにログインします。左側のナビゲーションウィンドウで、[データモデリングと開発] > [DataStudio] を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。

説明

DataStudio は、PC の Google Chrome 69 以降でのみサポートされています。

概要

機能

次の表では、DataStudio の主な機能について説明します。主要な用語は、「付録: 概念」で定義されています。

タイプ	説明
オブジェクトの整理と管理	DataStudio は、以下の方法でオブジェクトを整理および管理します。オブジェクトの整理：Solution > ワークフローによる 2 段階の管理。オブジェクトはディレクトリツリーと視覚的なパネルでワークフローごとに整理されます。ツリーでオブジェクトを作成するか、パネル上でコンポーネントをドラッグアンドドロップしてデータフローを構築します。ソリューションは関連するワークフローをグループ化します。オブジェクト管理：視覚的なインターフェイスを通じて、ノード、テーブル、リソース、関数を作成および管理します。「ワークフローの作成」および「管理モード」をご参照ください。説明 DataStudio では、ワークスペース内に作成できるワークフローとオブジェクトの数に以下の制限が適用されます。ワークフロー：最大で `10,000` 個のワークフローを作成できます。オブジェクト (ノード、ファイル、テーブル、リソース、関数)：DataWorks Enterprise Edition をご利用の場合、最大で `200,000` 個のオブジェクトを作成できます。DataWorks Professional、Standard、または Basic Edition をご利用の場合、最大で `100,000` 個のオブジェクトを作成できます。現在のワークスペース内のワークフローまたはオブジェクトの数が上限に達した場合、新規に作成することはできません。
タスク開発	豊富な機能：幅広いコンピューティングエンジンノードをサポートしています。複雑なロジックに対応する汎用ノードを提供します：外部トリガー、ファイルチェック、条件分岐、ループ、出力の受け渡し。簡素化された操作：マルチエンジンのタスクをドラッグアンドドロップでオーケストレーションするための視覚的なワークフローエディター。スマートヒント、視覚的な演算子構造、権限チェックを備えたインテリジェントな SQL エディター。利用可能なすべてのノードタイプは、「サポートされているノードタイプ」に記載されています。
タスクスケジューリング	トリガー方法：外部トリガー、イベントベースのトリガー、およびデータリネージから解析された依存関係ベースのトリガーをサポートします。依存関係のタイプ：異なるタスクタイプとスケジューリングサイクルにまたがる、同一サイクルおよびサイクル間の依存関係をサポートします。実行制御：再実行ポリシー、下流タスクのスケジューリング制御、有効日、およびドライラン (実行をスキップし、下流タスクをブロックしない) やフリーズ (実行をスキップし、下流タスクをブロックする) などのスケジューリングタイプを設定します。べき等性：カスタムの再実行条件と再実行回数をサポートします。「時間プロパティの設定」および「スケジューリング依存関係の設定ガイド」をご参照ください。
タスクのデバッグ	DataStudio は、個別のタスクとワークフロー全体のデバッグをサポートしています。詳細については、「タスクのデバッグプロセス」をご参照ください。
プロセス制御	標準化されたタスク発行とプロセス制御を提供します。発行前の手動によるコードレビューとスモークテスト。DataStudio は問題のあるワークフローをブロックできます。データガバナンスセンターからのガバナンス項目チェックと拡張機能ベースの検証による、カスタムおよび自動化された提出制御。
その他の機能	拡張性：オープンプラットフォームと統合し、OpenAPI 操作、組み込みの拡張ポイント、イベントサブスクリプションを利用できます。権限制御：UI 機能とデータアクセス権限を制御します。詳細については、「ワークスペースレベルのサービスに対する権限の管理」をご参照ください。操作記録の表示：Alibaba Cloud ActionTrail と統合されており、操作ログの表示と検索が可能です。

UI の概要

データ開発インターフェイスと各モジュールの機能の使用方法については、「DataStudio 機能ガイド」をご参照ください。

開発プロセス

DataStudio は、さまざまなコンピューティングエンジンに対して、リアルタイム同期タスク、オフラインスケジュールタスク (同期と処理を含む)、および手動トリガータスクをサポートします。データ同期機能については、「Data Integration」をご参照ください。開始する前に、各コンピューティングエンジンの開発要件を理解し、適切なタスクタイプを選択してください。

コンピューティングエンジンの開発ガイド：DataWorks はさまざまなデータソースとコンピューティングエンジンをサポートしています。設定要件はエンジンによって異なります。主要なコンピューティングエンジンのガイドは次のとおりです。
一般的な開発プロセス：DataWorks ワークスペースは標準モードと基本モードで実行されます。開発プロセスはモードによって若干異なります。

標準モードのワークスペースにおける開発プロセス。

基本モードのワークスペースにおける開発プロセス。
- 基本プロセス：標準モードでは、スケジュールタスクのライフサイクルには、開発、デバッグ、スケジューリング設定、コミット、発行、O&M が含まれます。詳細については、「データ開発プロセスのガイド」をご参照ください。
- プロセス制御：組み込みのコードレビューとスモークテスト、データガバナンスセンターの事前設定チェック、およびオープンプラットフォーム拡張機能によるカスタム検証を使用して、標準への準拠を徹底します。
  
  説明
  プロセス制御のオプションはワークスペースのモードによって異なります。コンソールで利用可能な機能が優先されます。

整理

DataStudio では、ワークフローがコード開発とリソースの整理の基本単位です。ワークフローとタスクノードは各ワークスペースで独立して開発され、互いに影響しません。詳細については、「ワークフローの作成」をご参照ください。

ワークフローはディレクトリツリーと操作パネルとして表示され、ビジネスの観点からコードを整理するのに役立ちます。

ディレクトリツリー構造：タスクタイプに基づいてコードを整理する方法を提供します。
ワークフローパネル：ビジネスロジックをプロセス指向で表示します。

Development organization structure

はじめに

前提条件

DataWorks でタスクの開発、データのモデリング、または定期的なタスクのスケジューリングを行うには、データソースまたはクラスターを DataStudio のコンピューティングリソースとして関連付ける必要があります。この関連付けがないと、データ開発ノードを作成できません。

計画しているタスクタイプに必要なデータソースまたはクラスターを作成します。

データソースまたはクラスター	説明
MaxCompute コンピューティングリソースの関連付け	DataWorks は最初の MaxCompute データソースを自動的に関連付けます。それ以降のものは手動で関連付けます。
Hologres コンピューティングリソースの関連付け	作成後、これらのデータソースを手動で関連付けます。
AnalyticDB for PostgreSQL コンピューティングリソースの関連付け
AnalyticDB for MySQL 3.0 コンピューティングリソースの関連付け
ClickHouse コンピューティングリソースの関連付け
E-MapReduce (EMR) クラスターを DataWorks に登録する	DataWorks は登録されたクラスターを自動的に関連付けます。手動での関連付けは不要です。
CDH または CDP クラスターを DataWorks に登録する	DataWorks は登録されたクラスターを自動的に関連付けます。手動での関連付けは不要です。

DataStudioページに移動します。
DataWorks コンソールにログインします。左側のナビゲーションウィンドウで、[データモデリングと開発] > [DataStudio] を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。
左側メニューで、[コンピューティングリソース] をクリックします。

左側のナビゲーションペインにComputing Resource モジュールが表示されない場合は、[個人設定] の [モジュール管理] から追加してください。
コンピューティングリソースを関連付けます。

Computing Resource ページで、Computing Resource Name または Computing Resource Type で対象のデータソースまたはクラスターを検索し、Associate をクリックします。関連付け後、開発にデータソースを使用できます。

説明
データソース情報が変更された場合は、ページを更新して変更内容を表示してください。
- 場合によっては、データソースまたはクラスターが DataStudio に関連付けられないことがあります。
  - 関連付けは設定に依存します。たとえば、AccessKey ペアを使用するデータソースは関連付けできません。制限については、関連付けページで確認してください。
  - データソースに開発環境または本番環境がありません。
  - MaxCompute コンピューティングリソースは、同時に複数の DataWorks ワークスペースに関連付けることはできません。
  説明
  プラットフォームには、関連付けに失敗した理由が表示されます。
- DataStudio に関連付けできるのは、MaxCompute、EMR、Hologres、AnalyticDB for MySQL、ClickHouse、CDH/CDP、および AnalyticDB for PostgreSQL のみです。
- 関連付け可能なデータソースのタイプと制限は、DataWorks のエディションによって異なります。詳細については、「DataWorks の各エディションの機能」をご参照ください。

チュートリアル

「データ開発の開始」では、基本的な操作と開発プロセスについて説明しています。

サポートされているノードタイプ

DataStudio はさまざまなノードタイプを提供しており、その多くは定期的なスケジューリングをサポートしています。ビジネスニーズに基づいてノードを選択してください。詳細については、「サポートされているノードタイプ」をご参照ください。

付録: 概念

タスク開発

用語	説明
ソリューション	まとめて管理されるワークフローのコレクション。ワークフローは複数のソリューションで再利用でき、共同作業が可能です。
ワークフロー	ビジネス要件に応じたタスク、テーブル、リソース、関数のコレクション。タスクはスケジュールに従って実行されます。
手動トリガーワークフロー	特定のビジネス要件に応じたタスク、テーブル、リソース、関数のコレクション。通常のワークフローとは異なり、手動トリガーワークフロー内のタスクは、スケジュールに従って実行されるのではなく、手動でトリガーする必要があります。
DAG	`有向非巡回グラフ`の略語です。ノードとその依存関係を表示します。DataStudio では、ワークフロー内のすべてのタスクが 1 つの DAG を共有します。
タスク	DataWorks の基本的な実行単位。タスクは依存関係に基づいて順次実行されます。
ノード	DAG 内のタスクを表します。ノードは依存関係に基づいて順次実行されます。

タスクスケジューリング

用語	説明
依存関係	タスク間の実行順序を定義します。タスク B がタスク A の完了後にのみ実行される場合、A は B の上流の依存関係です。DAG 内では矢印で表示されます。
出力名	ノードのグローバルに一意な識別子。1 つのノードは複数の出力名を持つことができます。DataWorks は、スケジューリングの依存関係を定義するために出力名を使用します。
出力テーブル名	タスクの出力テーブルの名前で、下流のタスクが正しいデータソースを確認するのに役立ちます。自動生成された出力テーブル名は変更しないでください。この識別子は実際のテーブル名には影響せず、実際のテーブル名は SQL ロジックによって決定されます。説明ノードの Output Name はグローバルに一意である必要がありますが、Output Table Name にはこの制限はありません。
スケジューリングリソースグループ	タスクのスケジューリングに使用されるリソースグループ。詳細については、「DataWorks リソースグループの概要」をご参照ください。
スケジューリングパラメーター	日付や時刻などの実行時の値を動的に取得するための、コード内の変数です。DataWorks でスケジューリングパラメーターを定義して、実行時にコード変数に値を割り当てます。
業務日	ビジネストランザクションが発生した日付。オフラインコンピューティングでは、これは通常、タスクが実行される前日です。デフォルトでは、DataWorks はこれをタスク実行の前日に設定し、日付単位となります。たとえば、昨日の売上統計を生成する場合、昨日が業務日となります。
スケジューリング時間	タスクが実行される予定の時刻で、秒単位で正確です。実際の開始時刻は、さまざまな要因により異なる場合があります。