すべてのプロダクト
Search
ドキュメントセンター

DataWorks:環境の準備

最終更新日:Jan 23, 2026

このチュートリアルでは、ユーザープロファイル分析のケースを例に、中国 (上海) リージョンで DataWorks を使用したデータ同期、データ変換、品質モニタリングなどのエンドツーエンドの操作方法を説明します。このチュートリアルを完了するには、必要な E-MapReduce (EMR) Serverless Spark スペースと DataWorks ワークスペースを準備する必要があります。

ビジネスバックグラウンド

より良いビジネス戦略を策定するためには、Web サイトのユーザーグループの行動に基づいて、その基本的なプロファイルデータを取得する必要があります。このデータには、地理的および社会的属性が含まれます。これにより、定期的にプロファイル分析を実行し、きめ細かな Web サイトのトラフィック運用を実装できます。

事前準備

このチュートリアルを進めるには、「はじめに」をご参照いただき、ユーザープロファイル分析の実験についてご理解ください。

注意事項

  • このチュートリアルでは、必要なユーザー情報と Web サイトアクセスのテストデータが提供されます。

  • このチュートリアルのデータは、DataWorks での実践練習のみを目的としています。すべてのデータはモックデータです。

  • このチュートリアルでは、データ変換に Data Studio (新バージョン) を使用します。

OSS 環境の準備

Object Storage Service (OSS) バケットを作成する必要があります。ユーザー情報と Web サイトのアクセスログは、データモデリングと分析のためにこのバケットに同期されます。

  1. OSS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[バケットリスト] をクリックします。[バケットリスト] ページで、[バケットの作成] をクリックします。

  3. [バケットの作成] ダイアログボックスで、パラメーターを設定し、[作成] をクリックします。パラメーターは次のとおりです:

    パラメーター

    バケット名

    この例では、名前は dw-spark-demo です。

    リージョン

    中国 (上海) を選択します。

    HDFS サービス

    インターフェイスのプロンプトに従って HDFS サービスを有効にします。

  4. [バケットリスト] ページで、バケット名をクリックして、[ファイル管理] ページを開きます。

EMR Serverless Spark ワークスペースの準備

このチュートリアルでは EMR Serverless Spark を使用します。Spark ワークスペースがあることを確認してください。ない場合は、ワークスペースを作成してください。パラメーターを次のように設定します:

パラメーター

リージョン

中国 (上海)

課金方法

従量課金。

ワークスペース名

カスタム名を入力します。

メタデータサービスとして DLF を使用

バインドする Data Lake Formation (DLF) データカタログを選択します。異なる EMR クラスター間でメタデータを完全に分離したい場合は、異なるカタログを選択します。

重要

DLF および DLF-Legacy (インターフェイス上では DLF 1.0 と表示) バージョンがサポートされています。バージョンを選択した後、それに応じて Paimon または Hive テーブルを作成します。

ワークスペースのベースパス

ジョブのログファイルを保存する OSS バケットパスを選択します。

説明
  • Professional Edition:このワークスペースには、Basic Edition のすべての機能に加えて、高度な機能とパフォーマンスの向上が含まれています。大規模な抽出、変換、ロード (ETL) ジョブに最適です。

  • Basic Edition:このワークスペースには、すべての基本機能と高性能コンピューティングエンジンが含まれています。

DataWorks 環境の準備

DataWorks を使用して開発を行う前に、DataWorks サービスが有効化されていることを確認してください。詳細については、「購入」をご参照ください。

1. ワークスペースの作成

中国 (上海) リージョンにすでにワークスペース (新バージョン) がある場合は、このステップをスキップして既存のワークスペースを使用できます。

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。左側のナビゲーションウィンドウで、ワークスペース をクリックしてワークスペースリストページに移動します。

  2. [ワークスペースの作成] をクリックして [Data Studio (新バージョン) を使用] ワークスペースを作成し、[開発環境と本番環境の分離] を有効にします。

    説明

    2025年2月18日以降、Alibaba Cloud アカウントが初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成する際、新しい Data Studio がデフォルトで有効になります。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

2. サーバーレスリソースグループの作成

  1. サーバーレスリソースグループの購入

    このチュートリアルでは、データ同期とスケジューリングのために DataWorks サーバーレスリソースグループが必要です。まず、サーバーレスリソースグループを購入し、初期設定を完了する必要があります。

    1. DataWorks - リソースグループリストページにログインします。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。左側のナビゲーションウィンドウで、リソースグループ をクリックしてリソースグループリストページに移動します。

    2. [リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン]中国 (上海) に設定し、[リソースグループ名] を指定します。プロンプトに従って他のパラメーターを設定し、支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。

      説明

      現在のリージョンで利用可能な VPC または vSwitch がない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成します。VPC と vSwitch の詳細については、「Virtual Private Cloud (VPC) とは」をご参照ください。

  2. リソースグループと DataWorks ワークスペースのバインド

    新しく購入したサーバーレスリソースグループは、使用する前にワークスペースにバインドする必要があります。

    DataWorks - リソースグループリストページにログインし、上部のナビゲーションバーでリージョンを 中国 (上海) に設定します。購入したサーバーレスリソースグループを見つけます。[操作] 列で、[ワークスペースの関連付け] をクリックし、作成した DataWorks ワークスペースの横にある [関連付け] をクリックします。

  3. リソースグループのパブリックネットワークアクセスの設定

    このチュートリアルのテストデータはインターネットから取得されます。デフォルトでは、リソースグループにはパブリックネットワークアクセスがありません。リソースグループにバインドされている VPC にインターネット NAT ゲートウェイを設定し、EIP を追加してパブリックネットワークからデータを取得する必要があります。

    1. VPC - インターネット NAT ゲートウェイコンソールにログインします。上部のメニューバーで、リージョンを 中国 (上海) に設定します。

    2. [インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを設定します。次の表に、このチュートリアルの主要なパラメーターを示します。記載されていないパラメーターはデフォルト値のままにします。

      パラメーター

      リージョン

      中国 (上海)。

      ネットワークとゾーン

      リソースグループにバインドされている VPC と vSwitch を選択します。

      DataWorks コンソールに移動し、中国 (上海) リージョンに切り替えることができます。左側のナビゲーションウィンドウで、リソースグループ をクリックします。作成したリソースグループを見つけ、[操作] 列の [ネットワーク設定] をクリックします。[データスケジューリング & データ統合] エリアで、関連付けられている VPCVSwitch を表示します。VPC と vSwitch の詳細については、「Virtual Private Cloud (VPC) とは」をご参照ください。

      ネットワークタイプ

      インターネット NAT ゲートウェイ。

      EIP

      EIP の作成。

      サービスリンクロールの作成

      初めて NAT ゲートウェイを作成する場合、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

    3. [今すぐ購入] をクリックし、サービス利用規約を選択してから [今すぐ有効化] をクリックして購入を完了します。

サーバーレスリソースグループの追加と使用方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。

3. コンピューティングリソースとしての EMR Serverless Spark のバインド

  1. DataWorks - ワークスペースリストページに移動します。上部のナビゲーションバーで、リージョンを 中国 (上海) に設定します。作成したワークスペースを見つけ、その名前をクリックして ワークスペースの詳細 ページを開きます。

  2. 左側のナビゲーションウィンドウで、コンピューティングリソース をクリックします。

  3. [コンピューティングリソースの関連付け] をクリックし、コンピューティングリソースタイプを選択してから、パラメーターを設定します。

    このチュートリアルでは、コンピューティングおよびストレージリソースとして EMR Serverless Spark を使用します。コンピューティングリソースタイプを EMR Serverless Spark に設定し、次の表で説明する主要なパラメーターを設定します。その他のパラメーターはデフォルト値のままにします。

    パラメーター

    説明

    Spark ワークスペース

    バインドする Spark ワークスペースを選択します。ドロップダウンリストから、EMR Serverless Spark ワークスペースを選択します。ドロップダウンリストの [作成] をクリックして EMR Serverless Spark コンソールに移動し、ワークスペースを作成することもできます。その後、DataWorks ワークスペースに戻り、新しい Spark ワークスペースを選択します。

    説明

    デフォルトのエンジンバージョン

    Data Studio で EMR Spark タスクを作成すると、ここで設定したエンジンバージョンとリソースキューがデフォルトで使用されます。

    デフォルトのリソースキュー

    デフォルトのアクセス ID

    現在の DataWorks ワークスペースで Spark ワークスペースにアクセスするために使用される ID を定義します。

    • 開発環境Executor ID のみがサポートされています。

    • 本番環境Alibaba Cloud アカウントRAM ユーザー、および タスク所有者 がサポートされています。

    コンピューティングリソースインスタンス名

    コンピューティングリソースを識別します。タスクの実行時に、インスタンス名を使用してタスクのコンピューティングリソースが選択されます。

  4. [確認] をクリックして、サーバーレス Spark コンピューティングリソースの設定を完了します。

コンピューティングリソースのバインド方法の詳細については、「コンピューティングリソースのバインド」をご参照ください。

次のステップ

環境の準備が整ったので、次のチュートリアルに進むことができます。ユーザー情報と Web サイトのアクセスログを OSS に同期し、Spark SQL ノードを使用してテーブルを作成し、同期されたデータをクエリする方法を学びます。詳細については、「データの同期」をご参照ください。