すべてのプロダクト
Search
ドキュメントセンター

DataWorks:環境の準備

最終更新日:Oct 28, 2025

このチュートリアルでは、ユーザーペルソナの例を使用して、DataWorks を使用して中国 (上海) リージョンのデータを同期、処理、および品質を監視する方法を説明します。このチュートリアルを完了するには、必要な EMR Serverless Spark および DataWorks ワークスペースを準備し、環境構成を完了する必要があります。

DataWorks プロダクトの準備

DataWorks を有効化していることを確認してください。DataWorks を有効化していない場合は、DataWorks ページで有効化できます。詳細については、「購入ガイド」をご参照ください。

EMR Serverless Spark ワークスペースの準備

このチュートリアルでは、計算資源として EMR Serverless Spark を使用します。Spark ワークスペースがあることを確認してください。Spark ワークスペースがない場合は、E-MapReduce コンソールに移動し、Spark を選択してワークスペースを作成します。

  • リージョン: 中国 (上海)。

  • 課金方法: 従量課金。

  • ワークスペース名: カスタム名を入力します。

  • メタデータサービスとしての DLF: DLF データカタログを選択します。異なる EMR クラスター間でメタデータを完全に分離するには、異なるカタログを選択します。

  • ワークスペースベースパス: ジョブログファイルを保存する OSS バケットパスを選択します。

  • ワークスペースタイプ: このチュートリアルでは [Professional Edition] を選択します。

    説明
    • Professional Edition: このワークスペースには、Basic Edition のすべての機能に加えて、高度な機能とパフォーマンスの向上が含まれています。大規模な抽出・変換・書き出し (ETL) ジョブに適しています。

    • Basic Edition: このワークスペースには、すべての基本機能が含まれており、強力なコンピュートエンジンを提供します。

プライベート OSS 環境の準備

このチュートリアルでは、OSS バケットを作成する必要があります。ユーザー情報とウェブサイトのアクセスログは、データモデリングと分析のためにこのバケットに同期されます。

  1. OSS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[バケット] をクリックします。[バケット] ページで、[バケットの作成] をクリックします。

  3. [バケットの作成] ダイアログボックスで、パラメーターを設定し、[作成] をクリックします。

    • バケット名: カスタム名を入力します。

    • リージョン: [中国 (上海)] を選択します。

    • HDFS サービス: UI のプロンプトに従って HDFS サービスを有効にします。

      パラメーターの詳細については、「コンソールでバケットを作成する」をご参照ください。

  4. [バケット] ページで、[バケット] の名前をクリックして、バケットの [ファイル] ページに移動します。

DataWorks 環境の準備

DataWorks、EMR Serverless Spark ワークスペース、および OSS バケットを準備した後、DataWorks ワークスペースを作成し、Spark クラスターを登録し、データソースを作成する必要があります。これらのステップにより、データ同期とデータ処理のための環境が準備されます。

DataWorks ワークスペースの作成

  1. DataWorks コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[ワークスペース管理] をクリックして、ワークスペースリストページに移動します。

  3. [ワークスペースの作成] をクリックします。表示されるパネルで、[標準モード] でワークスペースを作成し、[開発環境と本番環境を分離] を有効にします。

説明

このチュートリアルのデータリソースは、中国 (Shanghai) リージョンにあります。他のリージョンからデータソースを追加する際のネットワーク接続の問題を回避するために、ワークスペースを中国 (Shanghai) リージョンに作成することをお勧めします。より簡単な設定にするには、[開発環境と本番環境を分離] パラメーターに [いいえ] を選択できます。

リソースグループの作成

DataWorks を使用する前に、データ同期とスケジューリングのためのリソースを提供するためにリソースグループを作成する必要があります。リソースグループと Serverless Spark ワークスペース間のネットワーク接続が安定していることを確認してください。

  1. サーバーレスリソースグループを購入します。

    1. DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。

    2. [リソースグループの作成] をクリックします。リソースグループ購入ページで、[リージョンとゾーン][中国 (上海)] に設定し、[リソースグループ名] を指定します。他のパラメーターを設定し、プロンプトに従って支払いを完了します。サーバーレスリソースグループの課金の詳細については、「サーバーレスリソースグループの課金」をご参照ください。

      このチュートリアルでは、[中国 (上海)] リージョンのサーバーレスリソースグループを例として使用します。サーバーレスリソースグループは、クロスリージョン操作をサポートしていません。

  2. サーバーレスリソースグループを設定します。

    1. DataWorks コンソールにログインします。対象のリージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、リソースグループリストページに移動します。

    2. 購入したサーバーレスリソースグループを見つけます。[アクション] 列で、[ワークスペースのバインド] をクリックします。リソースグループを作成した DataWorks ワークスペースにバインドします。

    3. リソースグループのインターネットアクセスを設定します。

      1. VPC - インターネット NAT ゲートウェイコンソールにログインします。トップメニューバーで、[中国 (上海)] リージョンに切り替えます。

      2. [NAT ゲートウェイの作成] をクリックします。パラメーターを設定します。

        パラメーター

        リージョン

        中国 (上海)。

        ネットワークとゾーン

        リソースグループがアタッチされている VPC と vSwitch を選択します。

        DataWorks コンソールに移動します。リージョンに切り替えます。左側のナビゲーションウィンドウで、[リソースグループリスト] をクリックします。作成したリソースグループを見つけます。[アクション] 列で、[ネットワーク設定] をクリックします。[データスケジューリング & データ統合] セクションで、[アタッチされた VPC][VSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

        ネットワークタイプ

        インターネット NAT ゲートウェイ。

        Elastic IP Address

        新しい EIP を購入する。

        サービスリンクロールの作成

        初めて NAT ゲートウェイを作成する場合は、サービスリンクロールを作成する必要があります。[サービスリンクロールの作成] をクリックします。

        表に記載されていないパラメーターは、デフォルト値のままにしてください。

      3. [今すぐ購入] をクリックします。利用規約を選択し、[注文の確認] をクリックして購入を完了します。

EMR Serverless Spark クラスターの登録

ユーザーペルソナ分析のためのデータストレージとデータ処理は、EMR Serverless Spark クラスターで実行されます。使用する前に Spark クラスターを登録する必要があります。

  1. SettingCenter ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

  1. 左のナビゲーションウィンドウで、[クラスター管理] をクリックします。[クラスター管理] ページで、[クラスターの登録] をクリックします。開いたダイアログボックスで、[E-MapReduce] を選択して EMR Serverless Spark クラスターを設定します。

  2. E-MapReduce クラスターを登録します。

    • 表示名: カスタム名を入力します。

    • クラスター用の Alibaba Cloud アカウント: 現在の Alibaba Cloud アカウントを選択します。

    • クラスタータイプ: EMR Serverless Spark。

    • E-MapReduce ワークスペース: 「EMR Serverless Spark ワークスペースの準備」セクションで準備したワークスペースを選択します。

    • デフォルトのエンジンバージョン: このエンジンバージョンは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるエンジンバージョンを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。

    • デフォルトのリソースキュー: このリソースキューは、DataStudio で EMR Spark ノードを作成するときにデフォルトで使用されます。ノードごとに異なるリソースキューを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。

    • デフォルトの SQL コンピュート: この SQL コンピュートは、DataStudio で EMR Spark SQL ノードを作成するときにデフォルトで使用されます。ノードごとに異なる SQL コンピュートを設定するには、Spark ノード編集ウィンドウの [詳細設定] で定義できます。

    • デフォルトのアクセス ID: 開発環境のデフォルト値は [Executor] です。本番環境では、[Alibaba Cloud アカウント][RAM ユーザー]、または [ノード所有者] を選択できます。

      説明

      このチュートリアルでは、上記の設定を使用します。シナリオが異なる場合は、「DataStudio (旧バージョン): EMR コンピュートエンジンをバインドする」をご参照ください。

データソースの作成

このチュートリアルでは、ユーザー情報を格納する MySQL データベースと、ユーザーログデータを格納する OSS バケットを提供します。データ同期に使用するには、DataWorks でそれらのデータソースを作成する必要があります。

説明
  • プラットフォームは、このチュートリアルに必要なテストデータとデータソースを提供します。テストデータにアクセスするには、データソースをワークスペースに追加します。

  • このチュートリアルで提供されるデータは、DataWorks での実践練習専用です。すべてのデータはモックデータであり、Data Integration モジュールからのみ読み取り可能です。

  • 非公開 OSS 環境を準備する」ステップで作成した OSS [バケット] は、MySQL データソースからのユーザー情報と HttpFile データソースからのログデータを受信するために使用されます。

MySQL データソースの作成

このチュートリアルでは、MySQL データソースのデータベースはプラットフォームによって提供されます。これは、データ統合タスクのデータソースとして機能し、ユーザー情報を提供します。

  1. [SettingCenter] ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。[データソース] ページ左上の [データソースの追加] をクリックします。

  2. [データソースの追加] ダイアログボックスで、[MySQL] を選択します。

  3. [MySQL データソースの追加] ページで、パラメーターを設定します。以下の表にパラメーターを示します。この例では、開発環境と本番環境でサンプル値が使用されます。

    パラメーター

    説明

    データソース名

    データソースの名前。この例では、user_behavior_analysis_mysql を使用します。

    データソースの説明

    データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。

    設定モード

    [接続文字列モード] を選択します。

    接続アドレス

    • ホスト IP アドレス: rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com を入力します。

    • ポート番号: 3306 を入力します。

    データベース名

    データベースの名前。この例では、workshop を使用します。

    ユーザー名

    ユーザー名。この例では、workshop を使用します。

    パスワード

    パスワード。この例では、workshop#2017 を使用します。

    認証方法

    認証なしを選択します。

  4. 目的のリソースグループを見つけ、[接続ステータス (開発環境)][接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。

  5. [作成の完了] をクリックします。

HttpFile データソースの作成

このチュートリアルでは、HttpFile データソースはプラットフォームによって提供される OSS バケットです。これは、データ統合タスクのソースとして機能し、ログデータを提供します。

  1. データソースページに移動します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

    2. SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。

  2. [データソース] ページの左上隅で、[データソースの追加] をクリックします。[データソースの追加] ダイアログボックスで、[HttpFile] をクリックします。

  3. [HttpFile データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、開発環境と本番環境でサンプル値が使用されます。

    パラメーター

    説明

    データソース名

    データソースの名前。この例では、user_behavior_analysis_httpfile を使用します。

    データソースの説明

    データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。

    URL

    開発環境と本番環境の URL フィールドに https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com を入力します

  4. 目的のリソースグループを見つけ、[接続ステータス (開発環境)][接続ステータス (本番環境)] 列で [ネットワーク接続のテスト] をそれぞれクリックします。ネットワーク接続テストが成功すると、対応する列に [接続済み] が表示されます。

    重要

    少なくとも 1 つのリソースグループが [接続可能] であることを確認してください。そうでない場合、コードレスユーザーインターフェース (UI) を使用してデータソースのデータ同期タスクを設定することはできません。

  5. [作成の完了] をクリックします。

プライベート OSS データソースの追加

このチュートリアルでは、独自の OSS バケットを準備し、プライベート OSS データソースを作成する必要があります。このデータソースは、データ統合の宛先として機能し、ユーザー情報とログデータを受け取ります。

説明

プライベート OSS データソースは、独自の OSS バケットから作成された OSS データソースです。これは、MySQL データソースからインポートされたユーザー情報と、HttpFile データソースからインポートされたログデータを格納するために使用されます。MySQL と HttpFile の両方のデータソースは、DataWorks ドキュメントによって提供されます。

  1. [管理センター] ページで、[データソース] > [データソースリスト] を選択し、[データソースの追加] をクリックします。

  2. [データソースの追加] ダイアログボックスで、[OSS] を検索して選択します。

  3. [OSS データソースの追加] ダイアログボックスで、パラメーターを設定します。

    パラメーター

    説明

    データソース名

    データソースの名前。この例では、test_g を使用します。

    データソースの説明

    データソースの簡単な説明。

    エンドポイント

    http://oss-cn-shanghai-internal.aliyuncs.com を入力します。

    バケット

    環境を準備したときに作成した OSS バケットの名前。例: dw-emr-demo

    アクセスモード

    RAM ロール認証モード

    DataWorks は、セキュリティトークンサービス (STS) を使用してデータソースにアクセスするためのロールを偽装できます。これにより、セキュリティが向上します。詳細については、「RAM ロール認証モードでデータソースを設定する」をご参照ください。

    AccessKey モード

    AccessKey ID

    現在のアカウントの AccessKey ID。セキュリティ情報管理ページに移動して AccessKey ID をコピーできます。

    AccessKey シークレット

    現在のアカウントの AccessKey シークレットを入力します。

    重要

    AccessKey シークレットは作成時にのみ表示されます。後で表示することはできません。機密を保持してください。AccessKey が漏洩または紛失した場合は、削除して新しい AccessKey を作成してください。

    説明

    [RAM ロール認証モード] または [AccessKey モード] のいずれかを選択します。

  4. 指定したリソースグループの [接続ステータス] 列で [接続のテスト] をクリックします。テストが完了し、ステータスが [接続可能] になるまで待ちます。

    重要

    少なくとも 1 つのリソースグループが [接続可能] 状態であることを確認してください。そうでない場合、コードレス UI を使用してこのデータソースの同期タスクを作成することはできません。

  5. [完了] をクリックします。

その他の操作

環境の準備ができたので、次のチュートリアルに進むことができます。次のチュートリアルでは、基本的なユーザー情報とユーザーのウェブサイトアクセスログを OSS に同期する方法を学びます。次に、Spark SQL を使用して外部テーブルを作成し、プライベート OSS バケットに格納されているデータにアクセスします。詳細については、「データを同期する」をご参照ください。