すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataStudio (レガシー)

最終更新日:Jun 04, 2026

DataStudio は、定期的なタスクを開発し、スケジューリングするための DataWorks のモジュールです。オペレーションセンターと統合されており、MaxCompute、Hologres、E-MapReduce (EMR) などのコンピューティングエンジン向けの視覚的な開発インターフェイスを提供し、インテリジェントなコード開発、マルチエンジンハイブリッドワークフロー、標準化されたタスク発行をサポートします。DataStudio は、オフラインデータウェアハウス、リアルタイムデータウェアハウス、アドホッククエリシステムの構築を支援します。

DataStudio への移動

DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、[データモデリングと開発] > [DataStudio] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。

説明

DataStudio は、PC の Google Chrome 69 以降でのみサポートされています。

概要

機能

次の表では、DataStudio の主な機能について説明します。主要な用語は、「付録: 概念」で定義されています。

image

タイプ

説明

オブジェクトの整理と管理

DataStudio は、以下の方法でオブジェクトを整理および管理します。

  • オブジェクトの整理:Solution > ワークフローによる 2 段階の管理。オブジェクトはディレクトリツリーと視覚的なパネルでワークフローごとに整理されます。ツリーでオブジェクトを作成するか、パネル上でコンポーネントをドラッグアンドドロップしてデータフローを構築します。ソリューションは関連するワークフローをグループ化します。

  • オブジェクト管理:視覚的なインターフェイスを通じて、ノード、テーブル、リソース、関数を作成および管理します。

ワークフローの作成」および「管理モード」をご参照ください。

説明

DataStudio では、ワークスペース内に作成できるワークフローとオブジェクトの数に以下の制限が適用されます。

  • ワークフロー:最大で 10,000 個のワークフローを作成できます。

  • オブジェクト (ノード、ファイル、テーブル、リソース、関数):DataWorks Enterprise Edition をご利用の場合、最大で 200,000 個のオブジェクトを作成できます。DataWorks Professional、Standard、または Basic Edition をご利用の場合、最大で 100,000 個のオブジェクトを作成できます。

現在のワークスペース内のワークフローまたはオブジェクトの数が上限に達した場合、新規に作成することはできません。

タスク開発

  • 豊富な機能

    • 幅広いコンピューティングエンジンノードをサポートしています。

    • 複雑なロジックに対応する汎用ノードを提供します:外部トリガー、ファイルチェック、条件分岐、ループ、出力の受け渡し。

  • 簡素化された操作

    • マルチエンジンのタスクをドラッグアンドドロップでオーケストレーションするための視覚的なワークフローエディター。

    • スマートヒント、視覚的な演算子構造、権限チェックを備えたインテリジェントな SQL エディター。

利用可能なすべてのノードタイプは、「サポートされているノードタイプ」に記載されています。

タスクスケジューリング

  • トリガー方法:外部トリガー、イベントベースのトリガー、およびデータリネージから解析された依存関係ベースのトリガーをサポートします。

  • 依存関係のタイプ:異なるタスクタイプとスケジューリングサイクルにまたがる、同一サイクルおよびサイクル間の依存関係をサポートします。

  • 実行制御:再実行ポリシー、下流タスクのスケジューリング制御、有効日、およびドライラン (実行をスキップし、下流タスクをブロックしない) やフリーズ (実行をスキップし、下流タスクをブロックする) などのスケジューリングタイプを設定します。

  • べき等性:カスタムの再実行条件と再実行回数をサポートします。

時間プロパティの設定」および「スケジューリング依存関係の設定ガイド」をご参照ください。

タスクのデバッグ

DataStudio は、個別のタスクとワークフロー全体のデバッグをサポートしています。詳細については、「タスクのデバッグプロセス」をご参照ください。

プロセス制御

標準化されたタスク発行とプロセス制御を提供します。

その他の機能

UI の概要

データ開発インターフェイスと各モジュールの機能の使用方法については、「DataStudio 機能ガイド」をご参照ください。

開発プロセス

DataStudio は、さまざまなコンピューティングエンジンに対して、リアルタイム同期タスク、オフラインスケジュールタスク (同期と処理を含む)、および手動トリガータスクをサポートします。データ同期機能については、「Data Integration」をご参照ください。開始する前に、各コンピューティングエンジンの開発要件を理解し、適切なタスクタイプを選択してください。

  • コンピューティングエンジンの開発ガイド:DataWorks はさまざまなデータソースとコンピューティングエンジンをサポートしています。設定要件はエンジンによって異なります。主要なコンピューティングエンジンのガイドは次のとおりです。

  • 一般的な開発プロセス:DataWorks ワークスペースは標準モードと基本モードで実行されます。開発プロセスはモードによって若干異なります。

    標準モードのワークスペースにおける開発プロセス。Development process in standard mode

    基本モードのワークスペースにおける開発プロセス。Development process in basic mode

    • 基本プロセス:標準モードでは、スケジュールタスクのライフサイクルには、開発、デバッグ、スケジューリング設定、コミット、発行、O&M が含まれます。詳細については、「データ開発プロセスのガイド」をご参照ください。

    • プロセス制御:組み込みのコードレビュースモークテストデータガバナンスセンターの事前設定チェック、およびオープンプラットフォーム拡張機能によるカスタム検証を使用して、標準への準拠を徹底します。

      説明

      プロセス制御のオプションはワークスペースのモードによって異なります。コンソールで利用可能な機能が優先されます。

整理

DataStudio では、ワークフローがコード開発とリソースの整理の基本単位です。ワークフローとタスクノードは各ワークスペースで独立して開発され、互いに影響しません。詳細については、「ワークフローの作成」をご参照ください。

ワークフローはディレクトリツリーと操作パネルとして表示され、ビジネスの観点からコードを整理するのに役立ちます。

  • ディレクトリツリー構造:タスクタイプに基づいてコードを整理する方法を提供します。

  • ワークフローパネル:ビジネスロジックをプロセス指向で表示します。

Development organization structure

はじめに

前提条件

DataWorks でタスクの開発、データのモデリング、または定期的なタスクのスケジューリングを行うには、データソースまたはクラスターを DataStudio のコンピューティングリソースとして関連付ける必要があります。この関連付けがないと、データ開発ノードを作成できません。

  1. 計画しているタスクタイプに必要なデータソースまたはクラスターを作成します。

    データソースまたはクラスター

    説明

    MaxCompute コンピューティングリソースの関連付け

    DataWorks は最初の MaxCompute データソースを自動的に関連付けます。それ以降のものは手動で関連付けます。

    Hologres コンピューティングリソースの関連付け

    作成後、これらのデータソースを手動で関連付けます。

    AnalyticDB for PostgreSQL コンピューティングリソースの関連付け

    AnalyticDB for MySQL 3.0 コンピューティングリソースの関連付け

    ClickHouse コンピューティングリソースの関連付け

    E-MapReduce (EMR) クラスターを DataWorks に登録する

    DataWorks は登録されたクラスターを自動的に関連付けます。手動での関連付けは不要です。

    CDH または CDP クラスターを DataWorks に登録する

  2. DataStudioページに移動します。

    DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、[データモデリングと開発] > [DataStudio] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。

  3. 左側メニューで、[コンピューティングリソース] をクリックします。

    左側のナビゲーションペインにComputing Resource モジュールが表示されない場合は、[個人設定][モジュール管理] から追加してください。
  4. コンピューティングリソースを関連付けます。

    Computing Resource ページで、Computing Resource Name または Computing Resource Type で対象のデータソースまたはクラスターを検索し、Associate をクリックします。関連付け後、開発にデータソースを使用できます。

    説明

    データソース情報が変更された場合は、ページを更新して変更内容を表示してください。

    image

    • 場合によっては、データソースまたはクラスターが DataStudio に関連付けられないことがあります。

      • 関連付けは設定に依存します。たとえば、AccessKey ペアを使用するデータソースは関連付けできません。制限については、関連付けページで確認してください。

      • データソースに開発環境または本番環境がありません。

      • MaxCompute コンピューティングリソースは、同時に複数の DataWorks ワークスペースに関連付けることはできません。

      説明

      プラットフォームには、関連付けに失敗した理由が表示されます。

    • DataStudio に関連付けできるのは、MaxCompute、EMR、Hologres、AnalyticDB for MySQL、ClickHouse、CDH/CDP、および AnalyticDB for PostgreSQL のみです。

    • 関連付け可能なデータソースのタイプと制限は、DataWorks のエディションによって異なります。詳細については、「DataWorks の各エディションの機能」をご参照ください。

チュートリアル

データ開発の開始」では、基本的な操作と開発プロセスについて説明しています。

サポートされているノードタイプ

DataStudio はさまざまなノードタイプを提供しており、その多くは定期的なスケジューリングをサポートしています。ビジネスニーズに基づいてノードを選択してください。詳細については、「サポートされているノードタイプ」をご参照ください。

付録: 概念

  • タスク開発

    用語

    説明

    ソリューション

    まとめて管理されるワークフローのコレクション。ワークフローは複数のソリューションで再利用でき、共同作業が可能です。

    ワークフロー

    ビジネス要件に応じたタスク、テーブル、リソース、関数のコレクション。タスクはスケジュールに従って実行されます。

    手動トリガーワークフロー

    特定のビジネス要件に応じたタスク、テーブル、リソース、関数のコレクション。

    通常のワークフローとは異なり、手動トリガーワークフロー内のタスクは、スケジュールに従って実行されるのではなく、手動でトリガーする必要があります。

    DAG

    有向非巡回グラフの略語です。ノードとその依存関係を表示します。DataStudio では、ワークフロー内のすべてのタスクが 1 つの DAG を共有します。

    タスク

    DataWorks の基本的な実行単位。タスクは依存関係に基づいて順次実行されます。

    ノード

    DAG 内のタスクを表します。ノードは依存関係に基づいて順次実行されます。

  • タスクスケジューリング

    用語

    説明

    依存関係

    タスク間の実行順序を定義します。タスク B がタスク A の完了後にのみ実行される場合、A は B の上流の依存関係です。DAG 内では矢印で表示されます。

    出力名

    ノードのグローバルに一意な識別子。1 つのノードは複数の出力名を持つことができます。DataWorks は、スケジューリングの依存関係を定義するために出力名を使用します。

    出力テーブル名

    タスクの出力テーブルの名前で、下流のタスクが正しいデータソースを確認するのに役立ちます。自動生成された出力テーブル名は変更しないでください。この識別子は実際のテーブル名には影響せず、実際のテーブル名は SQL ロジックによって決定されます。

    説明

    ノードの Output Name はグローバルに一意である必要がありますが、Output Table Name にはこの制限はありません。

    スケジューリングリソースグループ

    タスクのスケジューリングに使用されるリソースグループ。詳細については、「DataWorks リソースグループの概要」をご参照ください。

    スケジューリングパラメーター

    日付や時刻などの実行時の値を動的に取得するための、コード内の変数です。DataWorks でスケジューリングパラメーターを定義して、実行時にコード変数に値を割り当てます。

    業務日

    ビジネストランザクションが発生した日付。オフラインコンピューティングでは、これは通常、タスクが実行される前日です。デフォルトでは、DataWorks はこれをタスク実行の前日に設定し、日付単位となります。たとえば、昨日の売上統計を生成する場合、昨日が業務日となります。

    スケジューリング時間

    タスクが実行される予定の時刻で、秒単位で正確です。実際の開始時刻は、さまざまな要因により異なる場合があります。