Data Studio は、アリババの 15 年にわたるビッグデータエクスペリエンスを組み込んだ、インテリジェントなデータレイクハウス開発プラットフォームです。Alibaba Cloud のさまざまなコンピュートサービスと互換性があり、インテリジェントな ETL (抽出・変換・書き出し)、データカタログ管理、およびエンジン間のワークフローオーケストレーションを提供します。Data Studio は、個人開発環境を通じて Python 開発、Notebook 分析、および Git 統合をサポートします。また、豊富なプラグインエコシステムを備えており、リアルタイムおよびオフラインコンピューティング、データレイクハウス、ビッグデータと AI を統合します。これにより、「Data+AI」ライフサイクル全体を管理できます。
Data Studio の概要
Data Studio は、アリババの 15 年にわたるビッグデータの方法論に基づいて構築された、インテリジェントなデータレイクハウス開発プラットフォームです。MaxCompute、E-MapReduce、Hologres、Realtime Compute for Apache Flink、PAI など、Alibaba Cloud のさまざまなビッグデータおよび AI コンピュートサービスと深く統合されています。データウェアハウス、データレイク、および OpenLake データレイクハウスアーキテクチャ向けのインテリジェントな ETL 開発サービスを提供します。Data Studio は、次の機能をサポートしています。
データカタログ:データレイクハウスのメタデータ管理機能を備えたデータカタログです。
ワークフロー:さまざまなエンジンタイプのリアルタイム、オフライン、および AI ノードを含むワークフローのオーケストレーションをサポートする開発モデルです。
個人開発環境:Python ノードの開発とデバッグ、Notebook を使用したインタラクティブな分析、コード管理のための Git との統合、およびストレージのための NAS または OSS のサポートを提供します。
Notebook:データ開発と分析のためのインテリジェントでインタラクティブなツールです。さまざまなデータエンジンに対する SQL または Python 分析をサポートし、コードを即座に実行またはデバッグでき、可視化されたデータ結果を提供します。
Data Studio (新バージョン) の有効化
Data Studio (新バージョン) は、次のいずれかの方法で有効にできます。
ワークスペースを作成する際に、[Data Studio (新バージョン) を使用] を選択します。詳細については、「ワークスペースの作成」をご参照ください。
以前の DataStudio で、ページ上部の [新バージョンにアップグレード] ボタンをクリックします。画面の指示に従って、データを Data Studio (新バージョン) に移行します。

Data Studio (新バージョン) は、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア) のリージョンで利用できます。
Data Studio (新バージョン) の使用中に問題が発生した場合は、 DataWorks アップグレードサポート専用の DingTalk グループに参加できます。
Data Studio (新バージョン) と DataStudio (以前のバージョン) のデータは独立しており、相互運用性はありません。
DataStudio (以前のバージョン) から新バージョンへのアップグレードは不可逆的な操作です。アップグレードが成功した後、以前のバージョンにロールバックすることはできません。切り替える前に、Data Studio (新バージョン) を有効にしたテストワークスペースを作成することを推奨します。これにより、アップグレードする前に新バージョンがビジネス要件を満たしていることを確認できます。
2025 年 2 月 19 日以降、Alibaba Cloud アカウントを使用して DataWorks を初めてアクティベートし、Data Studio (新バージョン) をサポートするリージョンでワークスペースを作成すると、新バージョンがデフォルトで有効になります。以前のバージョンはサポートされなくなります。
Data Studio への移動
DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[操作] 列で を選択します。
このエントリポイントは、[Data Studio (新バージョン) を使用] 機能が有効になっているワークスペースにのみ表示されます。詳細については、「Data Studio (新バージョン) の有効化」をご参照ください。
Data Studio は、PC の Chrome 69 以降でのみサポートされています。
Data Studio の主な機能
このセクションでは、Data Studio の主な機能について説明します。詳細については、「付録:Data Studio の概念」をご参照ください。
タイプ | 説明 |
フロー制御 | DataWorks Data Studio は、[ワークフロー] 開発モデルを提供します。ワークフローは、ビジネスの観点から可視化された有向非循環グラフ (DAG) インターフェイスを提供する新しい開発手法です。これにより、複雑なノードプロジェクトの管理が容易になります。 詳細については、「自動トリガーワークフロー」、「イベントトリガーワークフロー」、および「手動トリガーワークフロー」をご参照ください。 説明 DataWorks Data Studio では、各 ワークスペースで作成できる内部ノードとオブジェクトの数に次の制限が適用されます。
ワークスペース内のワークフローとオブジェクトの数が上限に達した場合、新しいものを作成することはできません。 |
タスク開発 |
DataWorks がサポートするノードタイプの詳細については、「ノード開発」をご参照ください。 |
タスクスケジューリング |
スケジューリングの詳細については、「ノードスケジューリング構成」をご参照ください。 |
品質管理 | 標準化されたノード公開メカニズムと、さまざまな品質管理手法を提供します。これらには、以下のシナリオが含まれますが、これらに限定されません。
|
その他 |
|
Data Studio のインターフェイス
Data Studio 機能ガイドを使用して、Data Studio のインターフェイスと各モジュールの機能について学ぶことができます。
ノード開発プロセス
DataWorks の Data Studio は、リアルタイム同期タスク、オフラインスケジューリングタスク (オフライン同期タスクとオフライン処理タスクを含む)、およびさまざまなエンジンタイプの手動トリガータスクの作成をサポートします。データ同期の詳細については、「Data Integration」をご参照ください。
DataWorks ワークスペースは、標準モードと基本モードで利用できます。ノード開発プロセスは、2 つのモードで異なります。次の図に、両方のモードの開発プロセスを示します。
標準モードのワークスペースでの開発プロセス
基本モードのワークスペースでの開発プロセス
基本プロセス:例えば、標準モードでは、スケジューリングノードの開発プロセスには、開発、デバッグ、スケジューリング構成、公開、および O&M が含まれます。一般的な開発プロセスの詳細については、「データ開発プロセスガイド」をご参照ください。
フロー制御:ノード開発中に、Data Studio に組み込まれている コードレビュー、Data Management の事前設定チェック、Open Platform の拡張プログラムを使用したカスタムロジック検証などの機能を使用して、開発ノードが標準に準拠していることを確認できます。
データ開発方法
Data Studio では、開発プロセスをカスタマイズできます。ワークフローを使用してデータ処理フローを迅速に構築することも、個々のタスクノードを手動で作成してからその依存関係を構成することもできます。
詳細については、「ワークフローオーケストレーション」をご参照ください。
Data Studio がサポートするノードのコレクション
Data Studio は、Data Integration、MaxCompute、Hologres、EMR、Flink、Python、Notebook、AnalyticDB for MySQL ノードなど、さまざまなノードタイプをサポートしています。これらのノードタイプの多くは、定期的なスケジューリングをサポートしています。必要に応じて、開発操作に適したノードを選択できます。DataWorks がサポートするノードのリストについては、「サポートされているノードタイプ」をご参照ください。
付録:Data Studio の概念
タスク開発
概念 | 説明 |
ワークフロー | ビジネスの観点から可視化された DAG インターフェイスを提供する新しい開発手法です。これにより、複雑なノードプロジェクトの管理が容易になります。ワークフローは、Data Integration、MaxCompute、Hologres、EMR、Flink、Python、Notebook、AnalyticDB for MySQL ノードなど、数十種類のノードタイプのオーケストレーションをサポートします。また、ワークフローレベルのスケジューリング構成もサポートします。定期的およびイベントトリガーのワークフローがサポートされています。 |
手動トリガーワークフロー | 特定のビジネス要件のためのノード、テーブル、リソース、および関数のコレクションです。 手動トリガーワークフローと定期的ワークフローの違いは、手動トリガーワークフローのノードは手動でトリガーする必要があるのに対し、定期的ワークフローのノードはスケジュールに基づいてトリガーされる点です。 |
タスクノード | タスクノードは、DataWorks の基本的な実行単位です。Data Studio は、さまざまなノードタイプを提供します。これらには、データ同期のためのデータ統合ノード、データクレンジングのためのコンピュートエンジンノード (ODPS SQL、Hologres SQL、EMR Hive など)、および複雑なロジック処理のための汎用ノード (複数のノードを管理するためのゼロロードノードやコードをループするための do-while ノードなど) が含まれます。これらのノードを組み合わせて、データ処理のニーズを満たすことができます。 |
ノードスケジューリングの概念
概念 | 説明 |
依存関係 | ノード間の依存関係は、それらの実行順序を定義します。ノード B がノード A の実行後にのみ実行できる場合、A は B の上流依存関係である、または B は A に依存すると言います。DAG では、依存関係はノード間の矢印で表されます。 |
出力名 | 各タスクの出力ポイントの名前です。これは、単一のテナント (Alibaba Cloud アカウント) 内で依存関係を設定する際に、上流タスクと下流タスクを接続するために使用される仮想エンティティです。 タスクの上流または下流の依存関係を設定する際には、ノード名や ID ではなく、出力名を使用する必要があります。設定後、タスクの出力名は、その下流ノードの入力名としても機能します。 |
出力テーブル名 | 出力テーブル名を現在のノードの出力テーブルに設定することを推奨します。出力テーブル名を正しく指定することで、下流ノードがデータが期待される先祖テーブルから来ているかどうかを確認するのに役立ちます。自動的に解析された場合、出力テーブル名を手動で変更しないことを推奨します。出力テーブル名は単なる識別子です。これを変更しても、SQL スクリプト内の実際の出力テーブル名には影響しません。実際の出力テーブル名は、SQL ロジックによって決定されます。 説明 ノードの出力名はグローバルに一意でなければなりませんが、出力テーブル名にはこの制限はありません。 |
スケジュールリソースグループ | ノードスケジューリングに使用される リソースグループを指します。 |
スケジューリングパラメーター | スケジューリングパラメーターは、実行時に動的に値が割り当てられるコード内の変数です。繰り返し実行中にコードが実行環境から日付や時刻などの情報を取得する必要がある場合は、DataWorks CDN マッピングシステムによって定義されたスケジューリングパラメーターを使用して、コード内の変数に動的に値を割り当てることができます。 |
データタイムスタンプ | これは通常、ビジネス活動に直接関連する日付を指し、ビジネスデータが生成された実際の時間を反映します。この概念は、オフラインコンピューティングのシナリオで特に重要です。例えば、小売業で 2024 年 10 月 10 日の売上高を計算する必要があるとします。この計算は、多くの場合 2024 年 10 月 11 日の早朝に開始されます。計算されたデータは、実際には 2024 年 10 月 10 日の売上高を表します。この場合、2024 年 10 月 10 日がデータタイムスタンプです。 |
スケジュール時刻 | ユーザーが定期的なタスクを実行するために設定する、分単位で正確な時点です。 重要 ノードの実行時期には多くの要因が影響する可能性があります。ノードは、必ずしもスケジュール時刻にすぐに実行されるわけではありません。ノードが実行される前に、DataWorks はその上流ノードが正常に実行されたか、スケジュール時刻に達したか、およびスケジュールリソースが十分であるかを確認します。ノードは、これらすべての条件が満たされた後にのみトリガーされます。 |