すべてのプロダクト
Search
ドキュメントセンター

DataWorks:環境の準備

最終更新日:Jul 26, 2025

このチュートリアルでは、ユーザープロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、品質の監視を行います。チュートリアルを想定どおりに完了するには、チュートリアルに必要な E-MapReduce (EMR) クラスタと DataWorks ワークスペースを作成し、環境を構成する必要があります。

ビジネス背景

効果的なビジネス管理戦略を策定するには、Web サイトでの活動に基づいて、Web サイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Web サイトユーザーの地理的属性と社会的属性が含まれます。プロファイルデータを時間と場所ごとに分析することで、Web サイトトラフィックの洗練された操作が可能になります。

使用上の注意

ユーザープロファイル分析実験の全プロセスを深く理解するには、「実験の概要」をご参照ください。これは、チュートリアルを想定どおりに完了するために必要です。

注意事項

  • このチュートリアルのテストに必要な、ユーザーの基本情報と Web サイトアクセスログが提供されています。

  • このチュートリアルのデータは DataWorks での実験操作にのみ使用でき、すべてのデータは手動のモックデータです。

  • このチュートリアルでは、データ開発 (Data Studio) (新バージョン) を使用してデータ変換を実行します。

EMR 環境の準備

このチュートリアルでは、EMR クラスタが必要です。これは DataWorks に登録する必要があります。これにより、DataWorks コンソールで EMR クラスタに基づいてデータ処理タスクを実行できます。次の表に、EMR クラスタ作成の主要なパラメータを示します。 EMR クラスタの作成方法については、「クラスタの作成」をご参照ください。

パラメータ

説明

リージョン

中国 (上海)

ビジネスシナリオ

データレイク

プロダクトバージョン

最新バージョンを選択します。

オプションサービス (少なくとも 1 つ選択)

ビジネス要件に基づいてコンポーネントを選択します。このチュートリアルでは、Hive コンポーネントと OSS-HDFS コンポーネントが必要です。

メタデータ

DLF 統合メタデータ

クラスタのルートストレージディレクトリ

有効な OSS-HDFS バケットを選択します。ドロップダウンリストに OSS-HDFS バケットがない場合は、[OSS-HDFS バケットの作成] をクリックします。

説明

EMR クラスタのさまざまな構成に対する DataWorks のサポートはさまざまです。EMR クラスタを作成し、EMR クラスタに基づいて DataWorks で EMR タスクを開発する前に、「DataWorks で使用する EMR クラスタを構成するためのベストプラクティス」のトピックを読むことをお勧めします。

DataWorks 環境の準備

DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「DataWorks のアクティブ化」をご参照ください。

ステップ 1: ワークスペースの作成

中国 (上海) リージョンに「新バージョンの DataStudio のパブリックプレビューに参加する」がオンになっているワークスペースが存在する場合は、このステップをスキップして既存のワークスペースを使用します。

  1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックして [ワークスペース] ページに移動します。

  2. [ワークスペース] ページで、[ワークスペースの作成] をクリックして、標準モードでワークスペースを作成します。ワークスペースを作成するときに、[新バージョンの DataStudio のパブリックプレビューに参加する] をオンにします。標準モードのワークスペースの場合、開発環境は本番環境から分離されています

    説明

    2025 年 2 月 18 日現在、Alibaba Cloud アカウントを使用して中国 (上海) リージョンで初めて DataWorks をアクティブ化し、ワークスペースを作成すると、新バージョンの Data Studio がデフォルトでアクティブになります。

ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

ステップ 2: サーバーレスリソースグループの作成

  1. サーバーレスリソースグループを購入します。

    このチュートリアルでは、データの同期とスケジューリングにサーバーレスリソースグループが必要です。したがって、サーバーレスリソースグループを購入して構成する必要があります。

    1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして [リソースグループ] ページに移動します。

    2. [リソースグループ] ページで、[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン][中国 (上海)] に設定し、[リソースグループ名] を指定し、画面の指示に従ってその他のパラメータを構成し、画面の指示に従ってリソースグループの料金を支払います。サーバーレスリソースグループの課金詳細については、「サーバーレスリソースグループの課金」をご参照ください。

      説明

      現在のリージョンに 仮想プライベートクラウド (VPC) または vSwitch が存在しない場合は、パラメータの説明にあるリンクをクリックして VPC コンソールに移動し、作成します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

  2. サーバーレスリソースグループを DataWorks ワークスペースに関連付けます。

    購入したサーバーレスリソースグループは、サーバーレスリソースグループをワークスペースに関連付けた後にのみ、後続の操作で使用できます。

    DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、購入したサーバーレスリソースグループを見つけ、[アクション] 列の [ワークスペースの関連付け] をクリックします。 [ワークスペースの関連付け] パネルで、サーバーレスリソースグループを関連付けるワークスペースを見つけ、[アクション] 列の [関連付け] をクリックします。

  3. サーバーレスリソースグループがインターネットにアクセスできるようにします。

    このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。デフォルトでは、サーバーレスリソースグループを使用してインターネットにアクセスすることはできません。サーバーレスリソースグループが関連付けられている VPC のインターネット NAT ゲートウェイを構成し、VPC のエラスティック IP アドレス (EIP) を構成して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。これにより、サーバーレスリソースグループを使用してテストデータにアクセスできます。

    1. VPC コンソールのインターネット NAT ゲートウェイページ に移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。

    2. [インターネット NAT ゲートウェイの作成] をクリックし、パラメータを構成します。次の表に、このチュートリアルで必要な主要なパラメータを示します。次の表に記載されていないパラメータについては、デフォルト値を保持できます。

      パラメータ

      説明

      リージョン

      中国 (上海) を選択します。

      VPC

      リソースグループが関連付けられている VPC と vSwitch を選択します。

      リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。 DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。表示されるページの [VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC][vSwitch] を表示します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。

      VSwitch の関連付け

      アクセスモード

      SNAT 有効モードを選択します。

      EIP

      EIP の購入を選択します。

      サービスリンクロール

      NAT ゲートウェイを初めて作成する場合は、[サービスリンクロールの作成] をクリックしてサービスリンクロールを作成します。

    3. [今すぐ購入] をクリックします。 [確認] ページで、サービス規約を読み、[サービス規約] のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。

サーバーレスリソースグループの作成と使用方法の詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。

ステップ 3: EMR 計算リソースをワークスペースに関連付ける

次の操作を実行して、作成したワークスペースに EMR 計算リソースを関連付けてデータを格納できます。

  1. DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、目的のワークスペースを見つけ、ワークスペースの名前をクリックして [ワークスペースの詳細] ページに移動します。

  2. [ワークスペースの詳細] ページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。

  3. [計算リソース] ページで、[計算リソースの関連付け] をクリックします。 [計算リソースの関連付け] パネルで、[EMR] をクリックして [EMR 計算リソースの関連付け] パネルに移動します。

    パネル。

  4. [EMR 計算リソースの関連付け] パネルで、パラメータを構成します。次の表にパラメータを示します。

    パラメータ

    説明

    クラスタが属する Alibaba Cloud アカウント

    [現在の Alibaba Cloud アカウント] を選択します。

    クラスタタイプ

    [データレイク] を選択します。

    クラスタ

    EMR 環境の準備 セクションで作成した EMR クラスタを選択します。

    デフォルトのアクセス ID

    現在のワークスペースで EMR クラスタにアクセスするために使用する ID。

    • 開発環境: [クラスタアカウント: Hadoop] を選択します。

    • 本番環境: [クラスタアカウント: Hadoop] を選択します。

    プロキシユーザー情報の受け渡し

    [渡さない] を選択します。

    計算リソースインスタンス名

    計算リソースインスタンスの名前。

  5. [OK] をクリックします。

  6. [計算リソース] ページで、作成した EMR 計算リソースを見つけ、右上隅にある [リソースグループの初期化] をクリックして、EMR 計算リソースとリソースグループ間のネットワーク接続をテストします。

計算リソースをワークスペースに関連付ける方法の詳細については、「計算リソースをワークスペースに関連付ける」をご参照ください。

次のステップ

環境の準備ができたので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報と Web サイトアクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。