すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Data Studio 概要

最終更新日:May 13, 2026

Data Studio は Alibaba Cloud が提供するインテリジェントなデータレイクハウス開発プラットフォームであり、10 年以上にわたるビッグデータ分野での専門知識に基づいて構築されています。幅広い Alibaba Cloud コンピュートサービスをサポートし、インテリジェント ETL、データカタログ管理、マルチエンジンによるワークフローのオーケストレーション機能を提供します。また、Python、ノートブック分析、Git 統合をサポートするパーソナル開発環境インスタンスを備えています。豊富なプラグインエコシステムと組み合わせることで、リアルタイム処理とバッチ処理、データレイクハウスアーキテクチャ、ビッグデータと AI を統合し、Data+AI データ管理ライフサイクル全体を強力に支援します。

Data Studio

Data Studio は Alibaba のビッグデータベストプラクティスを組み込んだインテリジェントなデータレイクハウス開発プラットフォームです。MaxCompute、E-MapReduce、Hologres、Flink、PAI など、数十種類の Alibaba Cloud ビッグデータおよび AI コンピュートサービスと深く統合されています。データウェアハウス、データレイク、OpenLake データレイクハウスアーキテクチャ向けのインテリジェント ETL 開発サービスを提供します。主な特徴は以下のとおりです。

  • データレイクハウスおよびマルチエンジン対応
    統一された データカタログ を通じて、データレイク (OSS など) およびデータウェアハウス (MaxCompute など) にまたがるデータへシームレスにアクセスできます。豊富なエンジンノードにより、マルチエンジンのハイブリッド開発が可能になります。



  • 柔軟なワークフローとスケジューリング
    多彩なフローコントロールノードを使用して、ワークフロー内で マルチエンジンタスク を視覚的にオーケストレーションできます。時間ベースの 定期スケジューリング およびイベントドリブンの トリガー型スケジューリング の両方をサポートしています。



  • オープンな Data+AI 開発環境
    パーソナル開発環境(カスタム依存関係の設定が可能)、SQL と Python コードを混在させた記述をサポートする ノートブックデータセット 管理、Git 統合 などの機能により、柔軟な AI 研究開発ワークステーションを構築できます。



  • インテリジェント支援と AI エンジニアリング
    強力な内蔵型 Copilot がコード開発プロセス全体を支援します。専門的な PAI アルゴリズムノード および 大規模モデルノード により、エンドツーエンドの AI エンジニアリングをネイティブにサポートします。



基本概念

概念

定義

コアバリュー

キーワード

ワークフロー

タスクを整理・オーケストレーションする単位です。

複雑なタスクの依存関係を管理し、スケジューリングを自動化します。開発およびスケジューリングのコンテナとして機能します。

可視化、DAG、定期/トリガー型、オーケストレーション

ノード

ワークフローにおける最小実行単位です。

コードを記述し、具体的なビジネスロジックを実装する場所です。データ処理におけるアトミック操作となります。

SQL、Python、Shell、データ統合

カスタムイメージ

環境の標準化されたスナップショットです。

環境の拡張性、一貫性、再現性を保証します。

環境永続化、標準化、再現性、一貫性

スケジューリング

タスクを自動的にトリガーするためのルールです。

手動タスクを自動化された本番ワークロードに変換することで、データ生成を自動化します。

定期スケジューリング、トリガー型スケジューリング、依存関係、自動化

データカタログ

統一されたメタデータワークベンチです。

テーブルなどのデータ資産や、関数・リソースなどの計算リソースを構造化された形で整理・管理します。

メタデータ、テーブル管理、データ探索

データセット

外部ストレージへの論理的マッピングです。

画像やドキュメントなどの外部非構造化データへのギャップを埋め、AI 開発における重要なデータブリッジとして機能します。

OSS/NAS アクセス、データマウント、非構造化

ノートブック

インタラクティブな Data+AI 開発キャンバスです。

SQL と Python コードを統合し、データ探索およびアルゴリズム検証を加速します。

インタラクティブ、マルチ言語、可視化、探索的分析

開発プロセス

Data Studio はデータウェアハウス開発および AI 開発のためのプロセスを提供します。以下のセクションでは、2 つの一般的なパスについて説明します。お客様の具体的なニーズに応じて、他のパスもご検討いただけます。

標準パス:データウェアハウス開発

このプロセスは、安定した自動化されたバッチデータ処理を実現するエンタープライズデータウェアハウスの構築に適しています。

  • 対象ユーザー:データエンジニアおよび ETL 開発者

  • 主要目的:バッチデータ処理およびレポート生成のための、安定的で標準化された自動スケジューリング機能を備えたエンタープライズデータウェアハウスを構築すること

  • 主要技術:データカタログ、定期ワークフロー、SQL ノード、スケジューリング構成

ステップ

フェーズ

説明

場所とリファレンス

1

コンピュートエンジンの関連付け

MaxCompute などの 1 つ以上のコアコンピュートエンジンをワークスペースに関連付けて、すべての SQL タスクを実行できるようにします。

image

コンソール > ワークスペース構成

関連ドキュメントについては、「コンピュートリソースの関連付け」をご参照ください。

2

データカタログの管理

データカタログで、データウェアハウスの各レイヤー (ODS、DWD、ADS など) に必要なテーブルスキーマを作成または探索します。これにより、データ処理の入出力が定義されます。

データモデリング モジュールを使用してデータウェアハウスシステムを構築することを推奨します。

Data Studio > データカタログ

関連ドキュメントについては、「データカタログ」をご参照ください。

3

定期ワークフローの作成

プロジェクトディレクトリ内に定期ワークフローを作成し、関連する ETL タスクを整理・管理するコンテナとして使用します。

Data Studio > プロジェクトディレクトリ > 定期ワークフロー

関連ドキュメントについては、「定期ワークフローのオーケストレーション」をご参照ください。

4

ノードの開発とデバッグ

ODPS SQL ノードなどのノードを作成し、エディターでコアとなる ETL ロジック (データクレンジング、変換、集約) を記述します。その後、ノードをデバッグします。

  • Data Studio > ノード開発 > ノードエディター

  • Data Studio > ノード開発 > 実行構成

関連ドキュメントについては、「ノード開発」をご参照ください。

5

Copilot の支援による開発

DataWorks Copilot を使用して、SQL および Python コードの生成、修正、再書き込み、変換を行います。

  • Data Studio > ノード開発 > Copilot

  • Data Studio > Copilot > エージェント

    関連ドキュメントについては、「Data Agent 概要」をご参照ください。

6

ノードのオーケストレーションとスケジューリング

ワークフローの DAG キャンバス上で、ノード間の上流・下流の依存関係をドラッグ&接続によって定義します。複雑なオーケストレーションに対応するため、さまざまなフローコントロールノードが利用可能です。

ワークフローまたは個々のノードに対して、周期、時刻、依存関係などの本番スケジューリングプロパティを構成します。このプラットフォームは、1 日あたり数千万件のインスタンスの大規模スケジューリングをサポートしています。

  • Data Studio > ワークフロー > ワークフローキャンバス

  • Data Studio > ノード開発 > スケジューリング構成

関連ドキュメントについては、「汎用フローコントロールノード」および「ノードスケジューリング構成」をご参照ください。

7

ワークフロー/ノードのデプロイと運用保守

  • デプロイ:デバッグ済みのノードまたはワークフローを本番環境にデプロイします。

  • 運用保守:オペレーションセンターで本番タスクを監視し、アラートを設定し、データをバックフィルし、定期検証 を実行します。スマートベースラインを使用してタスクが期限内に完了することを保証し、モニタリングアラートで例外発生時に迅速に通知を受け取ることができます。

説明

関連する入門例については、「上級編:売れ筋商品カテゴリの分析」をご参照ください。

高度なパス:ビッグデータおよび AI 開発

このプロセスは、AI モデル開発、データサイエンス探索、リアルタイム AI アプリケーションの構築に適しています。環境の柔軟性とインタラクティブ性を重視します。ユースケースに応じてステップを調整してください。

  • 対象ユーザー:AI エンジニア、データサイエンティスト、アルゴリズムエンジニア

  • 主要目的:データ探索、モデルトレーニング、アルゴリズム検証、またはリアルタイム AI アプリケーション (例:Retrieval-Augmented Generation (RAG) やリアルタイム推論サービス) の構築

  • 主要技術:パーソナル開発環境、ノートブック、イベントトリガー型ワークフロー、データセット、カスタムイメージ

ステップ

フェーズ

説明

場所とリファレンス

1

パーソナル開発環境の作成

複雑な Python 依存関係をインストールし、プロフェッショナルな AI 開発を行うための、分離されカスタマイズ可能なクラウドコンテナインスタンスを作成します。

Data Studio > パーソナル開発環境

関連ドキュメントについては、「パーソナル開発環境」をご参照ください。

2

イベントトリガー型ワークフローの作成

プロジェクトディレクトリ内に外部イベントによって駆動されるワークフローを作成します。これは、リアルタイム AI アプリケーションのオーケストレーションコンテナとして機能します。

Data Studio > プロジェクトディレクトリ > イベントトリガー型ワークフロー

関連ドキュメントについては、「イベントトリガー型ワークフロー」をご参照ください。

3

トリガーの作成と設定

オペレーションセンターで、OSS イベントや Kafka メッセージなどの外部イベントによってワークフローを開始するトリガーを構成します。

  • 作成:オペレーションセンター > トリガー管理

  • 使用:Data Studio > イベントトリガー型ワークフロー > スケジューリング構成

関連ドキュメントについては、「トリガーの管理」および「イベントトリガー型ワークフロー」をご参照ください。

4

ノートブックノードの作成

AI および Python コードを記述するためのコア開発ユニットを作成します。通常、パーソナルフォルダー内のノートブックから探索を開始します。

プロジェクトディレクトリ > イベントトリガー型ワークフロー > ノートブックノード

関連ドキュメントについては、「ノードの作成」をご参照ください。

5

データセットの作成と使用

OSS や NAS に保存されている画像やドキュメントなどの非構造化データをデータセットとして登録し、開発環境またはタスクにマウントしてコードからアクセスできるようにします。

  • 作成:Data Studio > データカタログ > データセット

  • 使用:Data Studio > パーソナル開発環境 > データセット構成

関連ドキュメントについては、「データセットの管理」および「データセットの使用」をご参照ください。

6

ノートブック/ノードの開発とデバッグ

パーソナル開発環境が提供するインタラクティブ環境で、アルゴリズムロジックを記述し、データを探索し、モデルを検証し、迅速に反復処理を行います。

Data Studio > ノートブックエディター

関連ドキュメントについては、「ノートブック開発の基本」をご参照ください。

7

カスタム依存パッケージのインストール

パーソナル開発環境のターミナルまたはノートブックセルで、pip などのツールを使用して、モデルに必要なサードパーティ製 Python ライブラリをインストールします。

Data Studio > パーソナル開発環境 > ターミナル

関連ドキュメントについては、「付録:パーソナル開発環境の整備」をご参照ください。

8

カスタムイメージの作成

構成済みのパーソナル開発環境を標準化されたイメージとしてスナップショット化します。これにより、本番環境が開発環境と同一であることが保証されます。

カスタム依存パッケージをインストールしていない場合は、このステップをスキップできます。
  • Data Studio > パーソナル開発環境 > 環境管理

  • コンソール > カスタムイメージ

関連ドキュメントについては、「パーソナル開発環境から DataWorks イメージを作成する」をご参照ください。

9

ノードスケジューリングの構成

本番ノードのスケジューリング構成では、前ステップで作成したカスタムイメージを実行環境として必ず指定し、必要なデータセットをマウントする必要があります。

Data Studio > ノートブックノード > スケジューリング構成

関連ドキュメントについては、「ノードスケジューリング構成」をご参照ください。

10

ノード/ワークフローのデプロイと運用保守

  • デプロイ:完全に構成されたイベントトリガー型ワークフローを本番環境にデプロイします。

  • 運用保守:ファイルアップロードなどの実際のイベントをトリガーしてエンドツーエンドのプロセスが正しく動作することを確認し、トリガー検証 を実行します。

コアモジュール

モジュール

主要機能

ワークフローのオーケストレーション

ドラッグ&ドロップインターフェイスにより、複雑なプロジェクトを簡単に構築・管理できる視覚的な有向非巡回グラフ (DAG) キャンバスを提供します。定期ワークフローのオーケストレーションイベントトリガー型ワークフロー手動ビジネスプロセス をサポートし、さまざまな自動化ニーズに対応します。

実行環境とモード

開発効率とコラボレーションを向上させる柔軟でオープンな開発環境を提供します。

ノード開発

柔軟なデータ処理および分析を実現するため、幅広いノードタイプおよびコンピュートエンジンをサポートします。

  • コンピュートエンジン:MaxCompute、E-MapReduce、Hologres、Flink などのビッグデータコンピュートエンジンおよび PAI などの AI サービスとシームレスに統合されています。

  • ノードタイプ:データ統合、SQL、Python、Shell、ノートブック、大規模モデルノード、さまざまな AI インタラクティブノードを提供し、データ同期、クレンジング、処理、AI トレーニングなど多様なニーズに対応します。

詳細については、「コンピュートリソース管理」および「ノード開発」をご参照ください。

ノードスケジューリング

タスクが時間通りかつ秩序正しく実行されるよう、強力で柔軟な自動スケジューリング機能を提供します。

  • スケジューリングメカニズム:年、月、日、時、分、秒単位の時間ベース定期スケジューリングのほか、イベントベースまたは OpenAPI トリガー型スケジューリングをサポートします。

  • スケジューリング依存関係:同一周期内、周期間、ワークフロー間、ワークスペース間の複雑な依存関係や、異なるスケジューリング周期およびタスクタイプ間の依存関係をサポートします。

  • スケジューリングポリシー:タスクの有効開始時刻の設定、失敗時の再実行、ドライラン、凍結などの高度なポリシーをサポートします。

  • スケジューリングパラメーター:ワークフローパラメーター、ワークスペースパラメーター、コンテキストパラメーター、ノードパラメーターをサポートします。

    詳細については、「ノードスケジューリング構成」をご参照ください。

開発リソース管理

データ開発プロセスに関与するさまざまな資産を一元管理します。

  • データカタログ:データレイクハウスのメタデータ管理機能を提供し、データテーブルの作成、表示、管理をサポートします。

  • 関数およびリソース:ユーザー定義関数 (UDF) や JAR、Python ファイルなどの各種リソースファイルの管理および参照をサポートします。

  • データセット:OSS や NAS などの外部ストレージシステムからのデータセットのマウントおよび管理をサポートします。

    詳細については、「データカタログ」、「リソース管理」および「データセットの使用」をご参照ください。

品質管理

標準化されたデータ生成プロセスと正確なデータ出力を保証するため、複数の組み込み制御メカニズムを備えています。

  • コードレビュー:タスクデプロイ前に手動コードレビューをサポートし、コード品質を保証します。

  • プロセス制御:スモークテスト、ガバナンス項目チェック、拡張機能などの方法を使用して、タスクの送信およびデプロイ時に自動検証を実行できます。

  • データ品質:タスクを Data Quality モニタリングルールに関連付けることで、実行後に自動的にデータ検証をトリガーし、問題のあるデータを即座に検出できます。

    詳細については、「コードレビュー」、「確認項目の構成」、「スモークテスト」および「Data Quality ルールの構成」をご参照ください。

オープン性と拡張性

外部システムとの統合およびカスタム開発を容易にするため、豊富なオープンインターフェイスおよび拡張ポイントを提供します。

  • OpenAPI:開発タスクのプログラムによる管理および操作をサポートする包括的な API インターフェイスを提供します。

  • イベントメッセージ:データ開発関連のイベントメッセージをサブスクライブすることで、外部システムとの連携を実現します。

    詳細については、「OpenAPI」、「OpenEvent」および「拡張機能」をご参照ください。

課金

  • DataWorks 側の課金 (DataWorks 請求書に含まれる)

  • DataWorks 以外の課金 (DataWorks 請求書に含まれない)

    データ開発ノードタスクを実行する際に発生する可能性のある コンピュートエンジンの計算およびストレージ料金 (OSS ストレージ料金など) は、DataWorks によって課金されません。

クイックスタート

Data Studio の作成または有効化

  • ワークスペースを作成する際、「新しいバージョンのData Development (Data Studio) を使用する」を選択します。詳細については、「ワークスペースの作成」をご参照ください。

  • 旧 DataStudio を使用している場合、DataStudio ページの上部にある 新バージョンにアップグレード をクリックし、画面の指示に従ってデータを Data Studio に移行できます。詳細については、「Data Studio アップグレードガイド」をご参照ください。

Data Studio の開き方

DataWorks コンソールの ワークスペース ページにアクセスします。上部ナビゲーションバーで目的のリージョンを選択し、目的のワークスペースを見つけたら、操作 列で ショートカット > Data Studio を選択します。

よくある質問

  • Q:新 Data Studio と旧 DataStudio の違いをどのように見分ければよいですか?

    A:ユーザーインターフェースはまったく異なります。新 Data Studio は上部バーがダークカラーで、左側にツリー形式のディレクトリが表示されます。一方、旧バージョンは背景がライトカラーで、従来のパネルレイアウトになっています。

  • Q:新 Data Studio にアップグレードした後、旧バージョンに戻すことはできますか?

    A:アップグレードは不可逆です。アップグレードが成功した後は、旧バージョンに戻すことはできません。切り替える前に、新 Data Studio を有効にしてワークスペースを作成し、ビジネスニーズを満たすかどうかをテストすることを推奨します。また、新旧バージョンのデータは別々に管理されます。

  • Q:ワークスペース作成時に 新しいバージョンのData Development (Data Studio) を使用する のオプションが表示されないのはなぜですか?

    A:このオプションが表示されない場合、ワークスペースで新 Data Studio がデフォルトで有効になっているためです。

    重要

    新 Data Studio の使用中に問題が発生した場合は、Data Studio アップグレードサポート用の DataWorks DingTalk グループ に参加してご支援を受けることができます。