Data Studio は、Alibaba Cloud の長年にわたるビッグデータ経験に基づいて構築されたインテリジェントなデータレイクハウス開発プラットフォームです。幅広い Alibaba Cloud コンピュートサービスをサポートし、インテリジェントな抽出・変換・書き出し(ETL)、データカタログ管理、マルチエンジンにまたがるワークフローのオーケストレーション機能を提供します。Python 開発、Notebook 分析、Git 統合をサポートする個人開発環境と豊富なプラグインエコシステムにより、リアルタイム処理とバッチ処理の統合、データレイクハウスの統一、ビッグデータと AI ワークフローのシームレスな連携を実現し、「Data+AI」ライフサイクル全体にわたるデータ管理を支援します。
Data Studio の紹介
Data Studio は、Alibaba Cloud のビッグデータ構築方法論を取り入れたインテリジェントなデータレイクハウス開発プラットフォームです。MaxCompute、EMR、Hologres、Flink、PAI など、数十種類の Alibaba Cloud ビッグデータおよび AI コンピュートサービスと深く統合されており、データウェアハウス、データレイク、OpenLake データレイクハウスアーキテクチャ向けのインテリジェント ETL 開発サービスを提供します。主な機能は以下のとおりです。
データレイクハウスおよびマルチエンジン対応
OSS などのデータレイクや MaxCompute などのデータウェアハウスに格納されたデータにアクセスし、統一されたデータカタログと多様なエンジンノードを通じてマルチエンジンハイブリッド開発を実行できます。柔軟なワークフローとスケジューリング
さまざまなフロー制御ノードを提供し、ワークフロー内でクロスエンジンタスクを視覚的にオーケストレーションできます。時間駆動型スケジューリングとイベント駆動型トリガースケジューリングをサポートしています。オープンな Data+AI 開発環境
カスタマイズ可能な依存関係を備えた個人開発環境と、SQL と Python の混在プログラミングをサポートする Notebook を提供します。データセットや Git 統合などの機能により、オープンで柔軟な AI 研究開発ワークステーションを構築できます。インテリジェントアシストおよび AI エンジニアリング
組み込みの Copilot インテリジェントアシスタントがコード開発プロセス全体をサポートします。専門的な PAI アルゴリズムノードおよび LLM ノードにより、エンドツーエンドの AI エンジニアリングをネイティブにサポートします。
Data Studio の基本概念
概念 | 用語 | コアバリュー | キーワード |
ワークフロー | タスクの組織およびオーケストレーション単位 | 複雑なタスクの依存関係を管理し、自動スケジューリングを実現します。「開発およびスケジューリングのコンテナー」として機能します。 | 可視化、DAG、定期実行/トリガー実行、オーケストレーション |
ノード | ワークフローにおける最小実行単位 | コードを記述し、具体的なビジネスロジックを実装する場所です。データ処理におけるアトミック操作です。 | SQL、Python、Shell、データ統合 |
カスタムイメージ | 環境の標準化されたスナップショット | 環境の拡張性、一貫性、再現性を保証します。 | 環境強化、標準化、再現性、一貫性 |
スケジューリング | タスクを自動的にトリガーするためのルール | 手動タスクを自動実行可能な本番タスクに変換することで、データ生成を自動化します。 | 定期スケジューリング、トリガースケジューリング、依存関係、自動化 |
データカタログ | 統一されたメタデータワークベンチ | テーブルなどのデータ資産や関数・リソースなどのコンピュートリソースを構造化された形で整理・管理します。 | メタデータ、テーブル管理、データ探索 |
データセット | 外部ストレージへの論理的マッピング | 画像やドキュメントなどの外部非構造化データに接続します。AI 開発における重要なデータブリッジです。 | OSS/NAS アクセス、データマウント、非構造化 |
Notebook | インタラクティブな Data+AI 開発キャンバス | SQL と Python コードを統合し、データ探索およびアルゴリズム検証を加速します。 | インタラクティブ、マルチ言語、可視化、探索的分析 |
Data Studio 開発プロセスガイド
Data Studio は、データウェアハウス開発および AI 開発向けのプロセスを提供します。以下では、一般的な 2 つのパスを紹介します。必要に応じて他のパスもご確認ください。
標準パス:定期 ETL タスク向けデータウェアハウス開発プロセス
このプロセスは、安定した自動化されたバッチデータ処理を実現するためのエンタープライズレベルのデータウェアハウス構築に適しています。
対象者:データエンジニア、ETL 開発者
主要目的:バッチデータ処理およびレポート生成のための、安定的で標準化され、自動スケジューリング可能なエンタープライズレベルのデータウェアハウスを構築すること
主要技術:データカタログ、定期ワークフロー、SQL ノード、スケジューリング設定
ステップ | フェーズ名 | 主要操作と目的 | 主要パスと参照先 |
1 | コンピュートエンジンを関連付け | MaxCompute などの 1 つ以上の主要コンピュートエンジンをワークスペースに関連付け、すべての SQL タスクの実行環境として使用します。
| コンソール > ワークスペース設定 詳細については、「コンピュートリソースを関連付ける」をご参照ください。 |
2 | データカタログを管理 | データカタログで、データウェアハウスの各レイヤー(ODS、DWD、ADS など)に必要なテーブルスキーマを作成または探索します。これにより、データ処理の入力および出力が定義されます。 データモデリングモジュールを使用してデータウェアハウスシステムを構築することを推奨します。
| Data Studio > データカタログ 詳細については、「データカタログ」をご参照ください。 |
3 | 定期スケジュール付きワークフローを作成 | ワークスペースディレクトリ内に定期スケジュール付きワークフローを作成し、関連する ETL タスクを整理・管理するコンテナーとして使用します。 | Data Studio > ワークスペースディレクトリ > 定期スケジューリング 詳細については、「定期ワークフローのオーケストレーション」をご参照ください。 |
4 | ノードを開発・デバッグ | ODPS SQL ノードなどのノードを作成し、エディターでコアとなる ETL ロジック(データクリーニング、変換、集約)を記述してデバッグします。 |
詳細については、「ノード開発」をご参照ください。 |
5 | Copilot のアシストで開発 | DataWorks Copilot を使用して、SQL および Python コードを生成、修正、再書き込み、変換します。 |
|
6 | ノードのオーケストレーションとスケジューリング | ワークフローの DAG キャンバス上で、ノード間の上流・下流の依存関係をドラッグ&接続によって定義します。複雑なフローのオーケストレーションを可能にするさまざまなフロー制御ノードをサポートしています。 本番環境でワークフローやノードのスケジューリングプロパティ(スケジューリング周期、時刻、依存関係など)を設定します。1 日あたり数千万件規模のタスクの大規模スケジューリングをサポートしています。 |
詳細については、「一般的なフロー制御ノード」および「ノードスケジューリング設定」をご参照ください。 |
7 | デプロイと O&M |
|
|
関連するクイックスタート例については、「上級編:売れ筋商品カテゴリの分析」をご参照ください。
高度なパス:ビッグデータおよび AI 開発プロセス
このプロセスは、AI モデル開発、データサイエンス探索、リアルタイム AI アプリケーションの構築に適しています。環境の柔軟性とインタラクティブ性を重視します。具体的なプロセスは実際のニーズに応じて異なる場合があります。
対象者:AI エンジニア、データサイエンティスト、アルゴリズムエンジニア
主要目的:データ探索、モデルトレーニング、アルゴリズム検証を実行するか、検索拡張生成(RAG)やリアルタイム推論サービスなどのリアルタイム AI アプリケーションを構築すること
主要技術:個人開発環境、Notebook、イベントトリガーワークフロー、データセット、カスタムイメージ
ステップ | ステージ名 | 主要操作と目的 | 主要パスと参照ドキュメント |
1 | 個人開発環境を作成 | 複雑な Python 依存関係をインストールし、専門的な AI 開発を行うための、分離されたカスタマイズ可能なクラウドコンテナーインスタンスを作成します。 | Data Studio > 個人開発環境 詳細については、「個人開発環境」をご参照ください。 |
2 | イベントトリガーワークフローを作成 | ワークスペースディレクトリ内に外部イベント駆動型のワークフローを作成します。これは、リアルタイム AI アプリケーションのオーケストレーションコンテナーを提供します。 | Data Studio > ワークスペースディレクトリ > イベントトリガーワークフロー 詳細については、「イベントトリガーワークフロー」をご参照ください。 |
3 | トリガーを作成・設定 | オペレーションセンターでトリガーを設定し、OSS イベントや Kafka メッセージイベントなどの外部イベントによってワークフローを開始する条件を定義します。 |
詳細については、「トリガーの管理」および「イベントトリガーワークフローの設計」をご参照ください。 |
4 | Notebook ノードを作成 | AI/Python コードを記述するためのコア開発単位を作成します。通常、最初に個人フォルダ内の Notebook で探索を行います。 | プロジェクトフォルダ > イベントトリガーワークフロー > Notebook ノード 詳細については、「ノードの作成」をご参照ください。 |
5 | データセットを作成・使用 | OSS/NAS に保存された非構造化データ(画像やドキュメントなど)をデータセットとして登録し、開発環境またはタスクにマウントしてコードからアクセスできるようにします。 |
詳細については、「データセットの管理」および「データセットの使用」をご参照ください。 |
6 | Notebook/ノードを開発・デバッグ | 個人開発環境が提供するインタラクティブ環境で、アルゴリズムロジックを記述し、データを探索し、モデルを検証し、迅速に反復します。 | Data Studio > Notebook エディター 詳細については、「Notebook 開発の基本」をご参照ください。 |
7 | カスタム依存関係パッケージをインストール | 個人開発環境のターミナルまたは Notebook セルで、 | Data Studio > 個人開発環境 > ターミナル 詳細については、「付録:個人開発環境の整備」をご参照ください。 |
8 | カスタムイメージを作成 | すべての依存関係を設定した個人開発環境を標準化されたイメージに固定化します。これにより、本番環境と開発環境が同一であることを保証します。 カスタム依存関係パッケージをインストールしていない場合は、このステップをスキップしてください。 |
詳細については、「個人開発環境から DataWorks イメージを作成する」をご参照ください。 |
9 | ノードスケジューリングを設定 | 本番ノードのスケジューリング設定で、前ステップで作成したカスタムイメージをランタイム環境として指定し、必要なデータセットをマウントします。 | Data Studio > Notebook ノード > スケジューリング 詳細については、「ノードスケジューリング設定」をご参照ください。 |
10 | デプロイと O&M |
|
|
Data Studio の主要モジュール
主要モジュール | 主要機能 |
ワークフローのオーケストレーション | ドラッグ&ドロップによる複雑なタスクプロジェクトの構築・管理を容易にする視覚的な DAG キャンバスを提供します。定期ワークフローのオーケストレーション、イベントトリガーワークフロー、手動トリガーワークフローをサポートし、さまざまなシナリオでの自動化ニーズに対応します。 |
実行環境とモード | 柔軟でオープンな開発環境を提供し、開発効率とコラボレーションを向上させます。
|
ノード開発 | 幅広いノードタイプおよびコンピュートエンジンをサポートし、柔軟なデータ処理および分析を実現します。
詳細については、「コンピュートリソース管理」および「ノード開発」をご参照ください。 |
ノードスケジューリング | 強力で柔軟な自動スケジューリング機能を提供し、タスクが正確なタイミングで順序通りに実行されることを保証します。
|
開発リソース管理 | データ開発プロセスに関与するさまざまな資産を一元管理します。 |
品質管理 | データ生成プロセスの標準化および出力データの正確性を保証するための複数の制御メカニズムを内蔵しています。
|
オープン性と拡張性 | 外部システムとの統合およびカスタム開発を容易にするための豊富なオープンインターフェイスおよび拡張ポイントを提供します。 |
Data Studio の課金
DataWorks 料金(DataWorks 請求書に計上される費用)
リソースグループ料金:ノード開発および個人開発者環境にはリソースグループが必要です。リソースグループのタイプに応じて、サーバーレスリソースグループ料金またはスケジューリング専用リソースグループ料金が発生します。
大規模言語モデルサービスを使用する場合も、サーバーレスリソースグループ料金が発生します。
タスクスケジューリング料金:タスクを本番環境に公開してスケジュール実行する場合、タスクスケジューリング料金(サーバーレスリソースグループ使用時)またはスケジューリング専用リソースグループ料金(専用リソースグループ使用時)が発生します。
Data Quality 料金:定期タスクに対して品質監視を設定し、インスタンスが正常にトリガーされた場合、Data Quality インスタンス料金が発生します。
インテリジェントベースライン料金:定期タスクに対してインテリジェントベースラインを設定した場合、有効状態にあるベースラインに対してインテリジェントベースラインインスタンス料金が発生します。
アラートショートメッセージおよび電話通話料金:定期タスクに対してアラート監視を設定し、ショートメッセージまたは電話通話が正常にトリガーされた場合、アラートショートメッセージおよび電話通話料金が発生します。
説明これらの費用は、データ開発、Data Quality、オペレーションセンターの各モジュールに関連しています。
他のサービスからの料金(DataWorks 請求書に計上されない費用)
データ開発ノードタスクを実行する際に、OSS ストレージ料金などのコンピュートエンジンおよびストレージ料金が発生する場合があります。これらの料金は DataWorks によって請求されません。
Data Studio のクイックスタート
Data Studio(新バージョン)の作成または有効化
ワークスペースを作成する際、[Data Studio (新バージョン) を使用]を選択します。具体的な操作については、「ワークスペースの作成」をご参照ください。
旧バージョンの DataStudio では、データ開発ページの上部にあるData Studio にアップグレードボタンをクリックし、画面の指示に従ってデータを新しい Data Studioに移行できます。詳細については、「Data Studio アップグレードガイド」をご参照ください。

新しい Data Studio へのアクセス
DataWorks コンソールのワークスペース一覧ページにアクセスします。上部ナビゲーションバーで目的のリージョンを選択し、目的のワークスペースを見つけたら、操作列でを選択します。
よくある質問
Q:自分が新しい Data Studio と旧バージョンのどちらを使用しているかを確認する方法はありますか?
A:ページのスタイルはまったく異なります。新バージョンはこのドキュメントのスクリーンショットのような見た目であり、旧バージョンは以下の図のようになります。

Q:新しい Data Studio にアップグレードした後、旧バージョンに戻すことはできますか?
A:旧バージョンから新バージョンへのアップグレードは不可逆的な操作です。アップグレードが成功した後は、旧バージョンに戻すことはできません。切り替え前に、まず新しい Data Studio を有効にしたワークスペースを新規作成してテストすることを推奨します。新バージョンがビジネスニーズを満たすことを確認してからアップグレードしてください。また、新しい Data Studio と旧バージョンの Data Studio のデータは相互に独立しています。
Q:ワークスペース作成時に Data Studio(新バージョン)を使用 オプションが表示されないのはなぜですか?
A:画面にこのオプションが表示されない場合、ワークスペースで既に新しい Data Studio がデフォルトで有効になっていることを意味します。
重要新しい Data Studio の使用中に問題が発生した場合は、DataWorks Data Studio アップグレードサポート専用 DingTalk グループに参加してご支援を受けてください。

