すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Data Studio(新バージョン)の概要

最終更新日:Feb 04, 2026

Data Studio は、Alibaba Cloud の長年にわたるビッグデータ経験に基づいて構築されたインテリジェントなデータレイクハウス開発プラットフォームです。幅広い Alibaba Cloud コンピュートサービスをサポートし、インテリジェントな抽出・変換・書き出し(ETL)、データカタログ管理、マルチエンジンにまたがるワークフローのオーケストレーション機能を提供します。Python 開発、Notebook 分析、Git 統合をサポートする個人開発環境と豊富なプラグインエコシステムにより、リアルタイム処理とバッチ処理の統合、データレイクハウスの統一、ビッグデータと AI ワークフローのシームレスな連携を実現し、「Data+AI」ライフサイクル全体にわたるデータ管理を支援します。

Data Studio の紹介

Data Studio は、Alibaba Cloud のビッグデータ構築方法論を取り入れたインテリジェントなデータレイクハウス開発プラットフォームです。MaxCompute、EMR、Hologres、Flink、PAI など、数十種類の Alibaba Cloud ビッグデータおよび AI コンピュートサービスと深く統合されており、データウェアハウス、データレイク、OpenLake データレイクハウスアーキテクチャ向けのインテリジェント ETL 開発サービスを提供します。主な機能は以下のとおりです。

  • データレイクハウスおよびマルチエンジン対応
    OSS などのデータレイクや MaxCompute などのデータウェアハウスに格納されたデータにアクセスし、統一されたデータカタログと多様なエンジンノードを通じてマルチエンジンハイブリッド開発を実行できます。

  • 柔軟なワークフローとスケジューリング
    さまざまなフロー制御ノードを提供し、ワークフロー内でクロスエンジンタスクを視覚的にオーケストレーションできます。時間駆動型スケジューリングとイベント駆動型トリガースケジューリングをサポートしています。

  • オープンな Data+AI 開発環境
    カスタマイズ可能な依存関係を備えた個人開発環境と、SQL と Python の混在プログラミングをサポートする Notebook を提供します。データセットや Git 統合などの機能により、オープンで柔軟な AI 研究開発ワークステーションを構築できます。

  • インテリジェントアシストおよび AI エンジニアリング
    組み込みの Copilot インテリジェントアシスタントがコード開発プロセス全体をサポートします。専門的な PAI アルゴリズムノードおよび LLM ノードにより、エンドツーエンドの AI エンジニアリングをネイティブにサポートします。

Data Studio の基本概念

概念

用語

コアバリュー

キーワード

ワークフロー

タスクの組織およびオーケストレーション単位

複雑なタスクの依存関係を管理し、自動スケジューリングを実現します。「開発およびスケジューリングのコンテナー」として機能します。

可視化、DAG、定期実行/トリガー実行、オーケストレーション

ノード

ワークフローにおける最小実行単位

コードを記述し、具体的なビジネスロジックを実装する場所です。データ処理におけるアトミック操作です。

SQL、Python、Shell、データ統合

カスタムイメージ

環境の標準化されたスナップショット

環境の拡張性、一貫性、再現性を保証します。

環境強化、標準化、再現性、一貫性

スケジューリング

タスクを自動的にトリガーするためのルール

手動タスクを自動実行可能な本番タスクに変換することで、データ生成を自動化します。

定期スケジューリング、トリガースケジューリング、依存関係、自動化

データカタログ

統一されたメタデータワークベンチ

テーブルなどのデータ資産や関数・リソースなどのコンピュートリソースを構造化された形で整理・管理します。

メタデータ、テーブル管理、データ探索

データセット

外部ストレージへの論理的マッピング

画像やドキュメントなどの外部非構造化データに接続します。AI 開発における重要なデータブリッジです。

OSS/NAS アクセス、データマウント、非構造化

Notebook

インタラクティブな Data+AI 開発キャンバス

SQL と Python コードを統合し、データ探索およびアルゴリズム検証を加速します。

インタラクティブ、マルチ言語、可視化、探索的分析

Data Studio 開発プロセスガイド

Data Studio は、データウェアハウス開発および AI 開発向けのプロセスを提供します。以下では、一般的な 2 つのパスを紹介します。必要に応じて他のパスもご確認ください。

標準パス:定期 ETL タスク向けデータウェアハウス開発プロセス

このプロセスは、安定した自動化されたバッチデータ処理を実現するためのエンタープライズレベルのデータウェアハウス構築に適しています。

  • 対象者:データエンジニア、ETL 開発者

  • 主要目的:バッチデータ処理およびレポート生成のための、安定的で標準化され、自動スケジューリング可能なエンタープライズレベルのデータウェアハウスを構築すること

  • 主要技術:データカタログ、定期ワークフロー、SQL ノード、スケジューリング設定

image

ステップ

フェーズ名

主要操作と目的

主要パスと参照先

1

コンピュートエンジンを関連付け

MaxCompute などの 1 つ以上の主要コンピュートエンジンをワークスペースに関連付け、すべての SQL タスクの実行環境として使用します。

image

コンソール > ワークスペース設定

詳細については、「コンピュートリソースを関連付ける」をご参照ください。

2

データカタログを管理

データカタログで、データウェアハウスの各レイヤー(ODS、DWD、ADS など)に必要なテーブルスキーマを作成または探索します。これにより、データ処理の入力および出力が定義されます。

データモデリングモジュールを使用してデータウェアハウスシステムを構築することを推奨します。

image

Data Studio > データカタログ

詳細については、「データカタログ」をご参照ください。

3

定期スケジュール付きワークフローを作成

ワークスペースディレクトリ内に定期スケジュール付きワークフローを作成し、関連する ETL タスクを整理・管理するコンテナーとして使用します。

Data Studio > ワークスペースディレクトリ > 定期スケジューリング

詳細については、「定期ワークフローのオーケストレーション」をご参照ください。

4

ノードを開発・デバッグ

ODPS SQL ノードなどのノードを作成し、エディターでコアとなる ETL ロジック(データクリーニング、変換、集約)を記述してデバッグします。

  • Data Studio > ノード開発 > ノードエディター

  • Data Studio > ノード開発 > デバッグ設定

詳細については、「ノード開発」をご参照ください。

5

Copilot のアシストで開発

DataWorks Copilot を使用して、SQL および Python コードを生成、修正、再書き込み、変換します。

  • Data Studio > ノード開発 > Copilot

  • Data Studio > Copilot > エージェント

    詳細については、「DataWorks Copilot」をご参照ください。

6

ノードのオーケストレーションとスケジューリング

ワークフローの DAG キャンバス上で、ノード間の上流・下流の依存関係をドラッグ&接続によって定義します。複雑なフローのオーケストレーションを可能にするさまざまなフロー制御ノードをサポートしています。

本番環境でワークフローやノードのスケジューリングプロパティ(スケジューリング周期、時刻、依存関係など)を設定します。1 日あたり数千万件規模のタスクの大規模スケジューリングをサポートしています。

  • Data Studio > ワークフロー > ワークフローキャンバス

  • Data Studio > ノード開発 > スケジューリング設定

詳細については、「一般的なフロー制御ノード」および「ノードスケジューリング設定」をご参照ください。

7

デプロイと O&M

  • デプロイ:デバッグ済みのノードまたはワークフローをデプロイ機能を通じて本番環境にデプロイします。

  • O&M:オペレーションセンターでタスクを監視し、アラートを設定し、バックフィルを実行し、定期的な検証を行います。インテリジェントベースラインを使用してタスクが期限内に完了することを保証し、監視アラートを使用して異常タスクを迅速に処理します。

説明

関連するクイックスタート例については、「上級編:売れ筋商品カテゴリの分析」をご参照ください。

高度なパス:ビッグデータおよび AI 開発プロセス

このプロセスは、AI モデル開発、データサイエンス探索、リアルタイム AI アプリケーションの構築に適しています。環境の柔軟性とインタラクティブ性を重視します。具体的なプロセスは実際のニーズに応じて異なる場合があります。

  • 対象者:AI エンジニア、データサイエンティスト、アルゴリズムエンジニア

  • 主要目的:データ探索、モデルトレーニング、アルゴリズム検証を実行するか、検索拡張生成(RAG)やリアルタイム推論サービスなどのリアルタイム AI アプリケーションを構築すること

  • 主要技術:個人開発環境、Notebook、イベントトリガーワークフロー、データセット、カスタムイメージ

    image

ステップ

ステージ名

主要操作と目的

主要パスと参照ドキュメント

1

個人開発環境を作成

複雑な Python 依存関係をインストールし、専門的な AI 開発を行うための、分離されたカスタマイズ可能なクラウドコンテナーインスタンスを作成します。

Data Studio > 個人開発環境

詳細については、「個人開発環境」をご参照ください。

2

イベントトリガーワークフローを作成

ワークスペースディレクトリ内に外部イベント駆動型のワークフローを作成します。これは、リアルタイム AI アプリケーションのオーケストレーションコンテナーを提供します。

Data Studio > ワークスペースディレクトリ > イベントトリガーワークフロー

詳細については、「イベントトリガーワークフロー」をご参照ください。

3

トリガーを作成・設定

オペレーションセンターでトリガーを設定し、OSS イベントや Kafka メッセージイベントなどの外部イベントによってワークフローを開始する条件を定義します。

  • 作成:オペレーションセンター > トリガー管理

  • 使用:Data Studio > イベントトリガーワークフロー > スケジューリング設定

詳細については、「トリガーの管理」および「イベントトリガーワークフローの設計」をご参照ください。

4

Notebook ノードを作成

AI/Python コードを記述するためのコア開発単位を作成します。通常、最初に個人フォルダ内の Notebook で探索を行います。

プロジェクトフォルダ > イベントトリガーワークフロー > Notebook ノード

詳細については、「ノードの作成」をご参照ください。

5

データセットを作成・使用

OSS/NAS に保存された非構造化データ(画像やドキュメントなど)をデータセットとして登録し、開発環境またはタスクにマウントしてコードからアクセスできるようにします。

  • 作成:データマップ > データカタログ > データセット

  • 使用:Data Studio > 個人開発環境 > データセット設定

詳細については、「データセットの管理」および「データセットの使用」をご参照ください。

6

Notebook/ノードを開発・デバッグ

個人開発環境が提供するインタラクティブ環境で、アルゴリズムロジックを記述し、データを探索し、モデルを検証し、迅速に反復します。

Data Studio > Notebook エディター

詳細については、「Notebook 開発の基本」をご参照ください。

7

カスタム依存関係パッケージをインストール

個人開発環境のターミナルまたは Notebook セルで、pip などのツールを使用して、モデルに必要なサードパーティ製 Python ライブラリをすべてインストールします。

Data Studio > 個人開発環境 > ターミナル

詳細については、「付録:個人開発環境の整備」をご参照ください。

8

カスタムイメージを作成

すべての依存関係を設定した個人開発環境を標準化されたイメージに固定化します。これにより、本番環境と開発環境が同一であることを保証します。

カスタム依存関係パッケージをインストールしていない場合は、このステップをスキップしてください。

  • Data Studio > 個人開発環境 > 環境管理

  • コンソール > カスタムイメージ

詳細については、「個人開発環境から DataWorks イメージを作成する」をご参照ください。

9

ノードスケジューリングを設定

本番ノードのスケジューリング設定で、前ステップで作成したカスタムイメージをランタイム環境として指定し、必要なデータセットをマウントします。

Data Studio > Notebook ノード > スケジューリング

詳細については、「ノードスケジューリング設定」をご参照ください。

10

デプロイと O&M

  • デプロイ:設定済みのイベントトリガーワークフローを本番環境にデプロイします。

  • O&M:ファイルのアップロードなどの実際のイベントをトリガーして、エンドツーエンドのプロセスがスムーズに動作することを確認し、トリガー検証を実行します。

Data Studio の主要モジュール

image

主要モジュール

主要機能

ワークフローのオーケストレーション

ドラッグ&ドロップによる複雑なタスクプロジェクトの構築・管理を容易にする視覚的な DAG キャンバスを提供します。定期ワークフローのオーケストレーションイベントトリガーワークフロー手動トリガーワークフローをサポートし、さまざまなシナリオでの自動化ニーズに対応します。

実行環境とモード

柔軟でオープンな開発環境を提供し、開発効率とコラボレーションを向上させます。

ノード開発

幅広いノードタイプおよびコンピュートエンジンをサポートし、柔軟なデータ処理および分析を実現します。

  • コンピュートエンジン:MaxCompute、EMR、Hologres、Flink などのビッグデータコンピュートエンジンおよび PAI などの AI コンピューティングサービスとシームレスに統合されています。

  • ノードタイプ:データ統合、SQL、Python、Shell、Notebook、LLM、さまざまな AI インタラクティブノードを提供し、データ同期、クリーニング、処理、AI トレーニングなどの多様なニーズに対応します。

詳細については、「コンピュートリソース管理」および「ノード開発」をご参照ください。

ノードスケジューリング

強力で柔軟な自動スケジューリング機能を提供し、タスクが正確なタイミングで順序通りに実行されることを保証します。

  • スケジューリングメカニズム:時間ベース(年、月、日、時、分、秒)の定期スケジューリングに加え、イベントまたは OpenAPI によってトリガーされるスケジューリングをサポートします。

  • スケジューリング依存関係:同一サイクル内、サイクル間、ワークフロー間、ワークスペース間の複雑な依存関係の設定をサポートします。また、異なるスケジューリングサイクルおよび異なるタイプのタスク間の依存関係もサポートします。

  • スケジューリングポリシー:タスク有効期間、失敗時の再実行、ドライラン、フリーズなどの高度なポリシーの設定をサポートします。

  • スケジューリングパラメーター:ワークフローパラメーター、ワークスペースパラメーター、コンテキストパラメーター、ノードパラメーターをサポートします。

    詳細については、「ノードスケジューリング設定」をご参照ください。

開発リソース管理

データ開発プロセスに関与するさまざまな資産を一元管理します。

  • データカタログ:データレイクハウスのメタデータ管理機能を提供し、データテーブルの作成、表示、管理をサポートします。

  • 関数およびリソース:ユーザー定義関数(UDF)および JAR ファイルや Python ファイルなどの各種リソースファイルの管理および参照をサポートします。

  • データセット:OSS/NAS などの外部ストレージからのデータセットのマウントおよび管理をサポートします。

    詳細については、「データカタログ」、「リソース管理」、「データセットの使用」をご参照ください。

品質管理

データ生成プロセスの標準化および出力データの正確性を保証するための複数の制御メカニズムを内蔵しています。

  • コードレビュー:タスク公開前の手動コードレビューをサポートし、コード品質を保証します。

  • フロー制御:スモークテスト、ガバナンス項目チェック、拡張機能と組み合わせることで、タスクの送信および公開時に自動検証を実行できます。

  • データ品質:Data Quality 監視ルールと関連付けることで、タスク実行後に自動的にデータ検証をトリガーし、データの問題を即座に発見できます。

    詳細については、「コードレビュー」、「チェック項目の設定」、「スモークテスト」、「Data Quality ルールの設定」をご参照ください。

オープン性と拡張性

外部システムとの統合およびカスタム開発を容易にするための豊富なオープンインターフェイスおよび拡張ポイントを提供します。

  • OpenAPI:開発タスクのプログラムによる管理および操作をサポートする包括的な API インターフェイスを提供します。

  • イベントメッセージ:データ開発関連のイベントメッセージをサブスクライブすることで、外部システムとの連携を実現します。

    詳細については、「OpenAPI」、「OpenEvent」、「拡張機能」をご参照ください。

Data Studio の課金

  • DataWorks 料金(DataWorks 請求書に計上される費用)

  • 他のサービスからの料金(DataWorks 請求書に計上されない費用)

    データ開発ノードタスクを実行する際に、OSS ストレージ料金などのコンピュートエンジンおよびストレージ料金が発生する場合があります。これらの料金は DataWorks によって請求されません。

Data Studio のクイックスタート

Data Studio(新バージョン)の作成または有効化

  • ワークスペースを作成する際、[Data Studio (新バージョン) を使用]を選択します。具体的な操作については、「ワークスペースの作成」をご参照ください。

  • 旧バージョンの DataStudio では、データ開発ページの上部にあるData Studio にアップグレードボタンをクリックし、画面の指示に従ってデータを新しい Data Studioに移行できます。詳細については、「Data Studio アップグレードガイド」をご参照ください。

    image

新しい Data Studio へのアクセス

DataWorks コンソールのワークスペース一覧ページにアクセスします。上部ナビゲーションバーで目的のリージョンを選択し、目的のワークスペースを見つけたら、操作列でショートカット > Data Studioを選択します。

よくある質問

  • Q:自分が新しい Data Studio と旧バージョンのどちらを使用しているかを確認する方法はありますか?

    A:ページのスタイルはまったく異なります。新バージョンはこのドキュメントのスクリーンショットのような見た目であり、旧バージョンは以下の図のようになります。

    image

  • Q:新しい Data Studio にアップグレードした後、旧バージョンに戻すことはできますか?

    A:旧バージョンから新バージョンへのアップグレードは不可逆的な操作です。アップグレードが成功した後は、旧バージョンに戻すことはできません。切り替え前に、まず新しい Data Studio を有効にしたワークスペースを新規作成してテストすることを推奨します。新バージョンがビジネスニーズを満たすことを確認してからアップグレードしてください。また、新しい Data Studio と旧バージョンの Data Studio のデータは相互に独立しています。

  • Q:ワークスペース作成時に Data Studio(新バージョン)を使用 オプションが表示されないのはなぜですか?

    A:画面にこのオプションが表示されない場合、ワークスペースで既に新しい Data Studio がデフォルトで有効になっていることを意味します。

    重要

    新しい Data Studio の使用中に問題が発生した場合は、DataWorks Data Studio アップグレードサポート専用 DingTalk グループに参加してご支援を受けてください。