新しい Data Studio の概要 - DataWorks - Alibaba Cloud ドキュメントセンター

Data Studio は、Alibaba Cloud が 15 年にわたるビッグデータの経験に基づいて構築した、インテリジェントなデータレイクハウス開発プラットフォームです。複数の Alibaba Cloud コンピューティングサービスと統合し、インテリジェントな抽出・変換・書き出し (ETL)、データカタログ管理、エンジン間のワークフローオーケストレーションを提供します。Python 開発、Notebook 分析、Git 統合をサポートする個人開発環境インスタンスを備えた Data Studio は、豊富なプラグインエコシステムも特徴としており、リアルタイム処理とオフライン処理、レイクハウスアーキテクチャ、ビッグデータと AI を統合し、ライフサイクル全体にわたる「Data+AI」管理を可能にします。

Data Studio とは

Data Studio は、Alibaba Cloud の 15 年にわたるビッグデータの方法論を取り入れた、インテリジェントなデータレイクハウス開発プラットフォームです。MaxCompute、E-MapReduce、Hologres、Flink、PAI を含む数十の Alibaba Cloud ビッグデータおよび AI コンピューティングサービスと深く統合し、データウェアハウス、データレイク、および OpenLake レイクハウスアーキテクチャ向けのインテリジェントな ETL 開発を提供します。以下の機能をサポートしています。

データカタログ：レイクハウス環境向けに設計されたメタデータ管理システムです。
ワークフロー：数十種類のエンジンタイプにわたるリアルタイムおよびオフラインのデータ処理ノードと AI ノードをオーケストレーションする開発モデルです。
個人開発環境：Python ノードの開発とデバッグ、インタラクティブな Notebook 分析、および NAS/OSS ストレージと統合された Git ベースのコード管理をサポートします。
Notebook：データ開発と分析のためのインテリジェントでインタラクティブなツールです。複数のデータエンジンに対して SQL または Python コードを実行またはデバッグし、結果を即座に可視化します。

新しい Data Studio の有効化

新しい Data Studio は、以下の方法で有効化します。

ワークスペースを作成する際に、新しいバージョンのData Development (Data Studio) を使用する を選択します。詳細については、「ワークスペースの作成」をご参照ください。
従来の DataStudio で、ページ上部の DataStudio ボタンをクリックし、次に [新バージョンにアップグレード] をクリックして、プロンプトに従ってデータを新しい Data Studio に移行します。
新しい Data Studio は、次のリージョンで利用可能です：中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、タイ (バンコク)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)。

重要

新しい Data Studio の使用中に問題が発生した場合は、「新しい Data Studio へのアップグレードに関する専用 DingTalk サポートグループ」にご参加ください。
新しい Data Studio と従来の DataStudio のデータは完全に分離されており、共有することはできません。
従来の DataStudio から新バージョンへのアップグレードは元に戻すことはできません。アップグレードが成功すると、従来のバージョンに戻すことはできなくなります。切り替える前に、新しい Data Studio を有効にしたテストワークスペースを作成し、ビジネスニーズを満たしているかを確認してください。
2025 年 2 月 19 日以降、ルートアカウントがサポート対象リージョンで初めて DataWorks ワークスペースを作成すると、新しい Data Studio がデフォルトで有効になります。従来の DataStudio は利用できなくなります。

Data Studio へのアクセス

DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[操作] 列で [ショートカット] > [Data Studio] を選択します。

説明

このエントリは、新しいバージョンのData Development (Data Studio) を使用する が有効になっているワークスペースでのみ表示されます。詳細については、「新しい Data Studio の有効化」をご参照ください。
Data Studio は、デスクトップの Chrome ブラウザバージョン 69 以降でのみ動作します。

Data Studio の主な機能

データ開発は、以下の主な機能を提供します。詳細については、「付録：データ開発に関連する概念」をご参照ください。

タイプ	説明
フロー管理	DataWorks は、Workflow ベースの開発モデルを提供します。ワークフローは、ビジネスの観点から DAG ベースのビジュアルインターフェイスを提供し、複雑なタスクパイプラインの管理を簡素化します。詳細については、「定期的なワークフローオーケストレーション」、「イベントトリガーワークフロー」、および「手動トリガーワークフロー」をご参照ください。説明 Data Studio では、各ワークスペースには、内部のワークフローノードとオブジェクトに関して以下の制限があります。内部ノード：各ワークフローは最大 `400` ノードをサポートします。オブジェクト (ワークフロー、ノード、ファイル、テーブル、リソース、関数)：DataWorks Enterprise Edition のユーザーは最大 `200,000` 個のオブジェクトを作成できます。DataWorks Professional、Standard、または Basic Edition のユーザーは最大 `100,000` 個のオブジェクトを作成できます。ワークスペースがこれらの制限に達した場合、新しいワークフローやオブジェクトを作成できなくなります。
タスク開発	より豊富な機能：完全にカプセル化されたエンジン機能を備えた多様なエンジンノードを提供します。エンジンノードと組み合わせることで、複雑なロジックに対応する汎用ノードを提供します。例えば、外部システムトリガー、ファイルオブジェクトチェック、条件分岐、ループ実行、結果の受け渡しなどです。 Realtime Compute for Apache Flink を使用した Flink ストリーム処理タスクをサポートし、Flink と MaxCompute や Hologres などのエンジンとの協調開発を可能にします。よりシンプルな操作：ビジュアルなワークフロービルダーを備えており、コンポーネントをドラッグアンドドロップするだけで、複数エンジンのタスクを迅速にオーケストレーションできます。コードヒント、演算子構造のビジュアル表示、権限検証などの機能を備えたインテリジェントな SQL エディターが含まれています。サポートされているノードタイプについては、「ノード開発」をご参照ください。
タスクスケジューリング	トリガーメソッド：外部システムトリガー、イベントトリガー、および自動取得されたリネージ解析による上流トリガースケジューリングをサポートします。依存関係のタイプ：同一サイクルおよびサイクル間の依存関係、さらに異なるスケジュールサイクルやタスクタイプ間の相互依存関係をサポートします。実行制御：タスクの再実行が可能かどうかを設定したり、上流タスクに基づいて下流のスケジューリングタイミングを制御したり、定期タスクの有効日を設定したり、スケジューリングの動作 (例：ドライラン (下流タスクをブロックせずに実行をスキップ) やフリーズ (実行をスキップし、下流タスクをブロック)) を定義したりできます。べき等性保証：カスタマイズ可能な条件とリトライ回数を備えた再実行メカニズムを提供します。スケジューリングの詳細については、「ノードスケジューリング構成」をご参照ください。
品質管理	標準化されたタスク公開と、以下を含む複数の品質管理メカニズムを提供します。コードレビュー：公開前に手動のコードレビューを要求し、問題のある本番スケジューリングをブロックできます。検証チェック：データガバナンスからのガバナンス項目チェックと、拡張機能からのカスタム検証ロジックを統合して、提出および公開の制御を自動化およびカスタマイズします。 Data Quality：品質モニタリングをスケジューリングノードにリンクし、タスク完了後にルール検証をトリガーして、データの問題を即座に検出するのに役立ちます。
その他	オープンな機能：Open Platform を通じて広範な OpenAPI を提供し、DataWorks の開発イベントをサブスクライブするための組み込み拡張ポイントを備えています。アクセス制御：UI 機能の権限とデータアクセス権限を管理します。詳細については、「ワークスペースレベルのモジュール権限制御」をご参照ください。

Data Studio のインターフェイス

インターフェイスのレイアウトと各モジュールの使用方法については、「Data Studio 機能ガイド」をご参照ください。

タスク開発ワークフロー

DataWorks は、リアルタイム同期タスク、オフライン定期タスク (オフライン同期および変換ジョブを含む)、および手動トリガータスクの作成をサポートします。データ同期機能については、Data Integration モジュールをご参照ください。

DataWorks ワークスペースは、標準モードまたは基本モードで動作します。タスク開発ワークフローは、以下に示すようにモード間でわずかに異なります。

標準モードのワークスペース開発ワークフロー

基本モードのワークフロー

基本的なワークフロー：標準モードでは、定期タスク開発には、開発、デバッグ、スケジューリング構成、公開、O&M などの段階が含まれます。一般的な開発プロセスについては、「新しい Data Studio の概要」をご参照ください。
ワークフロー制御：開発中に、組み込みのコードレビュー、事前定義されたデータガバナンスチェック、およびOpen Platform 拡張機能からのカスタム検証ロジックを組み合わせて、タスクが標準に準拠していることを確認します。

データ開発のアプローチ

Data Studio では、開発プロセスをカスタマイズできます。ワークフローを使用してデータパイプラインを迅速に構築するか、手動でタスクノードを作成し、その依存関係を構成します。

詳細については、「ワークフロー」をご参照ください。

Data Studio でサポートされるノードタイプ

Data Studio は、データ統合、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB を含む数十種類のノードタイプをサポートしており、その多くは定期的なスケジューリングをサポートしています。ビジネスニーズに基づいて適切なノードタイプを選択してください。完全なリストについては、「サポートされているノードタイプ」をご参照ください。

付録：データ開発における主要な概念

タスク開発

概念	説明
ワークフロー	ビジネスの観点から DAG ベースのビジュアルインターフェイスを備えた新しい開発アプローチで、複雑なタスクパイプラインを簡素化します。ワークフローは、データ統合、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB を含む数十種類のノードタイプのオーケストレーションをサポートし、ワークフローレベルのスケジューリングを提供します。定期的なワークフローとイベントトリガーワークフローの両方をサポートします。
手動トリガーワークフロー	特定のビジネスニーズに対応するためのタスク、テーブル、リソース、および関数のコレクションです。定期的なワークフローとは異なり、手動トリガーワークフローのタスクは、スケジュールではなく手動で開始する必要があります。
タスクノード	タスクノードは、DataWorks の基本的な実行単位です。Data Studio は、データ同期のためのデータ統合ノード、データクレンジングのためのエンジンコンピューティングノード (ODPS SQL、Hologres SQL、EMR Hive など)、および複雑なロジックのための汎用ノード (複数のノードを管理するためのゼロロードノードやループのための do-while ノードなど) といった複数のノードタイプを提供します。これらのノードを組み合わせることで、多様なデータ処理ニーズに対応します。

タスクスケジューリング

概念	説明
依存関係	依存関係は、タスク間の実行順序を定義します。ノード B がノード A の完了後にのみ実行される場合、A は B の上流依存関係です (または B は A に依存します)。DAG では、依存関係はノード間の矢印として表示されます。
出力名	タスクの出力ポイントの名前です。単一のテナント (Alibaba Cloud アカウント) 内で、この仮想エンティティは依存関係を定義する際に上流タスクと下流タスクを接続します。タスク間の依存関係を設定する際は、ノード名や ID ではなく、出力名を使用します。一度設定されると、この出力名は下流ノードの入力名になります。
出力テーブル名	出力テーブル名は、現在のタスクの実際の出力テーブルと一致するように設定することを推奨します。この名前を正しく指定することで、下流タスクが期待される上流データを使用していることを確認できます。自動生成された出力テーブル名は手動で変更しないでください。これらは識別子としてのみ機能し、SQL スクリプトによって生成される実際のテーブルには影響しません。実際のテーブルは SQL ロジック自体によって決定されます。説明ノードの Output Name はグローバルに一意である必要がありますが、その Output table name にはこの制限はありません。
スケジュールリソースグループ	タスクスケジューリングに使用されるリソースグループです。
スケジューリングパラメーター	スケジューリングパラメーターは、ランタイムに動的な値を受け取るコード内の変数です。繰り返し実行中に日付や時刻などのコンテキスト情報にアクセスするには、DataWorks のスケジューリングパラメーター構文を使用して変数を定義します。
データタイムスタンプ	データタイムスタンプは、ビジネスアクティビティに関連付けられた日付です。これは、対応するビジネスデータが生成された日時を示します。この概念は、特にオフラインコンピューティングのシナリオで重要です。例えば、小売業界では、20241010 の売上高は、しばしば 20241011 の早朝に計算されます。その結果は、20241010 の実際の売上高です。この場合、20241010 がデータタイムスタンプです。
スケジュール時刻	定期タスクを実行するために設定した正確な分単位の時刻です。重要スケジュール時刻に達しても、即時実行が保証されるわけではありません。DataWorks は、上流タスクが成功したこと、スケジュール時刻が経過したこと、および十分なスケジューリングリソースが利用可能であることを確認します。すべての条件が満たされた場合にのみ、タスクをトリガーします。