このチュートリアルでは、ユーザープロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、品質の監視を行います。チュートリアルを想定どおりに完了するには、チュートリアルに必要な E-MapReduce(EMR)クラスタと DataWorks ワークスペースを作成し、環境を構成する必要があります。
ビジネス背景
効果的なビジネス管理戦略を策定するには、Webサイトでのアクティビティに基づいて、Webサイトユーザーの基本的なプロファイルデータを取得する必要があります。基本的なプロファイルデータには、Webサイトユーザーの地理的属性および社会的属性が含まれます。プロファイルデータを時間と場所別に分析することで、Webサイトトラフィックのきめ細かな運用が可能になります。
使用上の注意
ユーザープロファイル分析実験の全プロセスを深く理解するために、「実験の概要」をお読みください。これは、チュートリアルを想定どおりに完了するために必要です。
注意事項
このチュートリアルのテストに必要な、ユーザーの基本情報とWebサイトアクセスログが提供されています。
このチュートリアルのデータは、DataWorks での実験操作にのみ使用できます。すべてのデータは手動のモックデータです。
このチュートリアルでは、データ開発(Data Studio)(新バージョン) を使用してデータ変換を実行します。
EMR 環境を準備する
このチュートリアルでは、DataWorks に登録する必要がある EMR クラスタが必要です。これにより、DataWorks コンソールで EMR クラスタに基づいてデータ処理タスクを実行できます。次の表に、EMR クラスタの作成に関する主要なパラメータを示します。EMR クラスタの作成方法については、「クラスタを作成する」をご参照ください。
パラメータ | 説明 |
リージョン | 中国 (上海)。 |
ビジネスシナリオ | データレイク。 |
プロダクトバージョン | 最新バージョンを選択します。 |
オプションサービス (少なくとも 1 つ選択) | ビジネス要件に基づいてコンポーネントを選択します。このチュートリアルでは、Hive コンポーネントと OSS-HDFS コンポーネントが必要です。 |
メタデータ | DLF 統合メタデータ。 |
クラスタのルートストレージディレクトリ | 有効な OSS-HDFS バケットを選択します。ドロップダウンリストに OSS-HDFS バケットがない場合は、[OSS-HDFS バケットを作成] をクリックします。 |
DataWorks による EMR クラスタのさまざまな構成のサポートはさまざまです。EMR クラスタを作成し、EMR クラスタに基づいて DataWorks で EMR タスクを開発する前に、「DataWorks で使用する EMR クラスタを構成するためのベストプラクティス」のトピックをお読みになることをお勧めします。
DataWorks 環境を準備する
DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「DataWorks をアクティブ化する」をご参照ください。
ステップ 1: ワークスペースを作成する
中国 (上海) リージョンに「新バージョンの DataStudio のパブリックプレビューに参加する」がオンになっているワークスペースが既に存在する場合は、この手順をスキップして既存のワークスペースを使用します。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックして [ワークスペース] ページに移動します。
[ワークスペース] ページで、[ワークスペースを作成] をクリックして、標準モードでワークスペースを作成します。ワークスペースを作成するときに、[新バージョンの DataStudio のパブリックプレビューに参加する] をオンにします。標準モードのワークスペースでは、開発環境は本番環境から分離されています。
説明2025 年 2 月 18 日現在、Alibaba Cloud アカウントを使用して中国 (上海) リージョンで初めて DataWorks をアクティブ化し、ワークスペースを作成すると、新バージョンの Data Studio がデフォルトでアクティブになります。
ワークスペースの作成方法の詳細については、「ワークスペースを作成する」をご参照ください。
ステップ 2: サーバーレスリソースグループを作成する
サーバーレスリソースグループを購入します。
このチュートリアルでは、データの同期とスケジューリングにサーバーレスリソースグループが必要です。そのため、サーバーレスリソースグループを購入して構成する必要があります。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして [リソースグループ] ページに移動します。
[リソースグループ] ページで、[リソースグループを作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定し、画面の指示に従ってその他のパラメータを構成し、画面の指示に従ってリソースグループの料金を支払います。サーバーレスリソースグループの課金詳細については、「サーバーレスリソースグループの課金」をご参照ください。
説明この例では、[中国 (上海)] リージョンにデプロイされたサーバーレスリソースグループを使用します。サーバーレスリソースグループはリージョン間の操作をサポートしていないことに注意してください。
現在のリージョンに VPC または vSwitch が存在しない場合は、パラメータの説明にあるリンクをクリックして VPC コンソールに移動し、VPC または vSwitch を作成します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
サーバーレスリソースグループを DataWorks ワークスペースに関連付けます。
購入したサーバーレスリソースグループは、ワークスペースに関連付けた後にのみ、後続の操作で使用できます。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで購入したサーバーレスリソースグループを見つけ、[中国 (上海)アクション] 列の [ワークスペースの関連付け] をクリックします。[ワークスペースの関連付け] パネルで、サーバーレスリソースグループを関連付けるワークスペースを見つけ、[アクション] 列の [ をクリックします。
サーバーレスリソースグループがインターネットにアクセスできるようにします。
このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。デフォルトでは、サーバーレスリソースグループを使用してインターネットにアクセスすることはできません。サーバーレスリソースグループが関連付けられている VPC にインターネット NAT ゲートウェイを構成し、VPC の Elastic IP Address(EIP)を構成して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。これにより、サーバーレスリソースグループを使用してテストデータにアクセスできます。
VPC コンソールのインターネット NAT ゲートウェイページ に移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイを作成] をクリックし、パラメータを構成します。次の表に、このチュートリアルで必要な主要なパラメータを示します。次の表に記載されていないパラメータについては、デフォルト値を保持できます。
パラメータ
説明
リージョン
中国 (上海) を選択します。
VPC
リソースグループが関連付けられている VPC と vSwitch を選択します。
リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。表示されるページの [VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC] と [vSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
VSwitch の関連付け
アクセスモード
SNAT 有効モードを選択します。
EIP
EIP の購入を選択します。
サービスロール
NAT ゲートウェイを初めて作成する場合は、[サービスロールを作成] をクリックしてサービスロールを作成します。
[今すぐ購入] をクリックします。[確認] ページで、サービス規約を読み、[サービス規約] のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。
サーバーレスリソースグループの作成と使用方法の詳細については、「サーバーレスリソースグループを作成して使用する」をご参照ください。
ステップ 3: EMR 計算リソースをワークスペースに関連付ける
次の操作を実行して、作成したワークスペースに EMR 計算リソースを関連付けてデータを格納できます。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。[ワークスペース] ページで目的のワークスペースを見つけ、ワークスペースの名前をクリックして [ワークスペースの詳細] ページに移動します。
[ワークスペースの詳細] ページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
[計算リソース] ページで、[計算リソースの関連付け] をクリックします。[計算リソースの関連付け] パネルで、[EMR] をクリックして [EMR 計算リソースの関連付け] パネルに移動します。
詳細については、「az group」をご参照ください。
[EMR 計算リソースの関連付け] パネルで、パラメータを構成します。次の表にパラメータを示します。
パラメータ
説明
クラスタが属する Alibaba Cloud アカウント
[現在の Alibaba Cloud アカウント] を選択します。
クラスタタイプ
[データレイク] を選択します。
クラスタ
EMR 環境を準備する セクションで作成した EMR クラスタを選択します。
デフォルトのアクセス ID
現在のワークスペースで EMR クラスタにアクセスするために使用する ID。
開発環境: [クラスタアカウント: Hadoop] を選択します。
本番環境: [クラスタアカウント: Hadoop] を選択します。
プロキシユーザー情報を渡す
[渡さない] を選択します。
計算リソースインスタンス名
計算リソースインスタンスの名前。
[OK] をクリックします。
[計算リソース] ページで、作成した EMR 計算リソースを見つけ、右上隅にある [リソースグループの初期化] をクリックして、EMR 計算リソースとリソースグループ間のネットワーク接続をテストします。
計算リソースをワークスペースに関連付ける方法の詳細については、「計算リソースをワークスペースに関連付ける」をご参照ください。
次のステップ
環境を準備したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報と Web サイトアクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。