すべてのプロダクト
Search
ドキュメントセンター

DataWorks:環境を準備する

最終更新日:May 23, 2025

このチュートリアルでは、ユーザープロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、品質の監視を行います。チュートリアルを想定どおりに完了するには、チュートリアルに必要な E-MapReduce(EMR)クラスタと DataWorks ワークスペースを作成し、環境を構成する必要があります。

ビジネス背景

効果的なビジネス管理戦略を策定するには、Webサイトでのアクティビティに基づいて、Webサイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Webサイトユーザーの地理的属性および社会的属性が含まれます。プロファイルデータを時間と場所別に分析することで、Webサイトトラフィックのきめ細かな運用が可能になります。

使用上の注意

ユーザープロファイル分析実験の全プロセスを深く理解するために、「実験の概要」をお読みください。これは、チュートリアルを想定どおりに完了するために必要です。

注意事項

  • このチュートリアルのテストに必要な、ユーザーの基本情報とWebサイトアクセスログが提供されています。

  • このチュートリアルのデータは、DataWorks での実験操作にのみ使用できます。すべてのデータは手動のモックデータです。

  • このチュートリアルでは、データ開発(Data Studio)(新バージョン) を使用してデータ変換を実行します。

EMR 環境を準備する

このチュートリアルでは、DataWorks に登録する必要がある EMR クラスタが必要です。これにより、DataWorks コンソールで EMR クラスタに基づいてデータ処理タスクを実行できます。次の表に、EMR クラスタの作成に関する主要なパラメータを示します。EMR クラスタの作成方法については、「クラスタを作成する」をご参照ください。

パラメータ

説明

リージョン

中国 (上海)

ビジネスシナリオ

データレイク

プロダクトバージョン

最新バージョンを選択します。

オプションサービス (少なくとも 1 つ選択)

ビジネス要件に基づいてコンポーネントを選択します。このチュートリアルでは、Hive コンポーネントと OSS-HDFS コンポーネントが必要です。

メタデータ

DLF 統合メタデータ

クラスタのルートストレージディレクトリ

有効な OSS-HDFS バケットを選択します。ドロップダウンリストに OSS-HDFS バケットがない場合は、[OSS-HDFS バケットを作成] をクリックします。

説明

DataWorks による EMR クラスタのさまざまな構成のサポートはさまざまです。EMR クラスタを作成し、EMR クラスタに基づいて DataWorks で EMR タスクを開発する前に、「DataWorks で使用する EMR クラスタを構成するためのベストプラクティス」のトピックをお読みになることをお勧めします。

DataWorks 環境を準備する

DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「DataWorks をアクティブ化する」をご参照ください。

ステップ 1: ワークスペースを作成する

中国 (上海) リージョンに「新バージョンの DataStudio のパブリックプレビューに参加する」がオンになっているワークスペースが既に存在する場合は、この手順をスキップして既存のワークスペースを使用します。

  1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックして [ワークスペース] ページに移動します。

  2. [ワークスペース] ページで、[ワークスペースを作成] をクリックして、標準モードでワークスペースを作成します。ワークスペースを作成するときに、[新バージョンの DataStudio のパブリックプレビューに参加する] をオンにします。標準モードのワークスペースでは、開発環境は本番環境から分離されています

    説明

    2025 年 2 月 18 日現在、Alibaba Cloud アカウントを使用して中国 (上海) リージョンで初めて DataWorks をアクティブ化し、ワークスペースを作成すると、新バージョンの Data Studio がデフォルトでアクティブになります。

ワークスペースの作成方法の詳細については、「ワークスペースを作成する」をご参照ください。

ステップ 2: サーバーレスリソースグループを作成する

  1. サーバーレスリソースグループを購入します。

    このチュートリアルでは、データの同期とスケジューリングにサーバーレスリソースグループが必要です。そのため、サーバーレスリソースグループを購入して構成する必要があります。

    1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして [リソースグループ] ページに移動します。

    2. [リソースグループ] ページで、[リソースグループを作成] をクリックします。購入ページで、[リージョンとゾーン][中国 (上海)] に設定し、[リソースグループ名] を指定し、画面の指示に従ってその他のパラメータを構成し、画面の指示に従ってリソースグループの料金を支払います。サーバーレスリソースグループの課金詳細については、「サーバーレスリソースグループの課金」をご参照ください。

      説明
      • この例では、[中国 (上海)] リージョンにデプロイされたサーバーレスリソースグループを使用します。サーバーレスリソースグループはリージョン間の操作をサポートしていないことに注意してください。

      • 現在のリージョンに VPC または vSwitch が存在しない場合は、パラメータの説明にあるリンクをクリックして VPC コンソールに移動し、VPC または vSwitch を作成します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

  2. サーバーレスリソースグループを DataWorks ワークスペースに関連付けます。

    購入したサーバーレスリソースグループは、ワークスペースに関連付けた後にのみ、後続の操作で使用できます。

    DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで購入したサーバーレスリソースグループを見つけ、[中国 (上海)アクション] 列の [ワークスペースの関連付け] をクリックします。[ワークスペースの関連付け] パネルで、サーバーレスリソースグループを関連付けるワークスペースを見つけ、[アクション] 列の [ をクリックします。

  3. サーバーレスリソースグループがインターネットにアクセスできるようにします。

    このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。デフォルトでは、サーバーレスリソースグループを使用してインターネットにアクセスすることはできません。サーバーレスリソースグループが関連付けられている VPC にインターネット NAT ゲートウェイを構成し、VPC の Elastic IP Address(EIP)を構成して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。これにより、サーバーレスリソースグループを使用してテストデータにアクセスできます。

    1. VPC コンソールのインターネット NAT ゲートウェイページ に移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。

    2. [インターネット NAT ゲートウェイを作成] をクリックし、パラメータを構成します。次の表に、このチュートリアルで必要な主要なパラメータを示します。次の表に記載されていないパラメータについては、デフォルト値を保持できます。

      パラメータ

      説明

      リージョン

      中国 (上海) を選択します。

      VPC

      リソースグループが関連付けられている VPC と vSwitch を選択します。

      リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。表示されるページの [VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC][vSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

      VSwitch の関連付け

      アクセスモード

      SNAT 有効モードを選択します。

      EIP

      EIP の購入を選択します。

      サービスロール

      NAT ゲートウェイを初めて作成する場合は、[サービスロールを作成] をクリックしてサービスロールを作成します。

    3. [今すぐ購入] をクリックします。[確認] ページで、サービス規約を読み、[サービス規約] のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。

サーバーレスリソースグループの作成と使用方法の詳細については、「サーバーレスリソースグループを作成して使用する」をご参照ください。

ステップ 3: EMR 計算リソースをワークスペースに関連付ける

次の操作を実行して、作成したワークスペースに EMR 計算リソースを関連付けてデータを格納できます。

  1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。[ワークスペース] ページで目的のワークスペースを見つけ、ワークスペースの名前をクリックして [ワークスペースの詳細] ページに移動します。

  2. [ワークスペースの詳細] ページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。

  3. [計算リソース] ページで、[計算リソースの関連付け] をクリックします。[計算リソースの関連付け] パネルで、[EMR] をクリックして [EMR 計算リソースの関連付け] パネルに移動します。

    詳細については、「az group」をご参照ください。

  4. [EMR 計算リソースの関連付け] パネルで、パラメータを構成します。次の表にパラメータを示します。

    パラメータ

    説明

    クラスタが属する Alibaba Cloud アカウント

    [現在の Alibaba Cloud アカウント] を選択します。

    クラスタタイプ

    [データレイク] を選択します。

    クラスタ

    EMR 環境を準備する セクションで作成した EMR クラスタを選択します。

    デフォルトのアクセス ID

    現在のワークスペースで EMR クラスタにアクセスするために使用する ID。

    • 開発環境: [クラスタアカウント: Hadoop] を選択します。

    • 本番環境: [クラスタアカウント: Hadoop] を選択します。

    プロキシユーザー情報を渡す

    [渡さない] を選択します。

    計算リソースインスタンス名

    計算リソースインスタンスの名前。

  5. [OK] をクリックします。

  6. [計算リソース] ページで、作成した EMR 計算リソースを見つけ、右上隅にある [リソースグループの初期化] をクリックして、EMR 計算リソースとリソースグループ間のネットワーク接続をテストします。

計算リソースをワークスペースに関連付ける方法の詳細については、「計算リソースをワークスペースに関連付ける」をご参照ください。

次のステップ

環境を準備したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報と Web サイトアクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。