このチュートリアルでは、ユーザー・プロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、およびデータ品質の監視を行います。チュートリアルを想定どおりに完了するには、まず E-MapReduce(EMR)クラスタと DataWorks ワークスペースを作成し、必要な環境を構成する必要があります。
ビジネス背景
効果的なビジネス管理戦略を策定するには、Web サイトでの活動に基づいて、Web サイト・ユーザーの基本的なプロファイル・データを取得する必要があります。基本的なプロファイル・データには、Web サイト・ユーザーの地理的属性および社会的属性が含まれます。プロファイル・データを時間と場所別に分析することで、Web サイト・トラフィックの洗練された操作が可能になります。
使用上の注意
詳細については、「実験の紹介」をご参照ください。これにより、ユーザー・プロファイル分析実験のプロセス全体を深く理解することができます。これは、チュートリアルを想定どおりに完了するために必要です。
注意事項
この実験のテストに必要な、ユーザーの基本情報と Web サイト・アクセスログが提供されています。
この実験のデータは DataWorks での実験操作にのみ使用でき、すべてのデータは手動のモックデータです。
この実験では、DataStudio(旧バージョン) が使用されます。
EMR 環境を準備する
EMR クラスタを作成する
このチュートリアルでは、EMR クラスタが必要です。これは DataWorks に登録する必要があります。これにより、DataWorks コンソールで EMR クラスタに基づいてデータ処理タスクを実行できます。EMR クラスタを作成する際は、ソフトウェア構成手順で次の項目に注意してください。
パラメーター | 説明 |
リージョン | [中国 (上海)] を選択します。 |
ビジネスシナリオ | [データレイク] を選択します。 |
製品バージョン | 最新バージョンを選択します。 |
オプション サービス (少なくとも 1 つ選択) | ビジネス要件に基づいてコンポーネントを選択します。このチュートリアルでは、Hive コンポーネントと OSS-HDFS コンポーネントが必要です。 |
メタデータ | [DLF 統合メタデータ] を選択します。 |
クラスタのルート・ストレージ・ディレクトリ | OSS-HDFS バケットを選択します。ドロップダウンリストにオプションがない場合は、[OSS-HDFS バケットを作成] をクリックします。 |
EMR クラスタの作成方法の詳細については、「ステップ 1: クラスタを作成する」をご参照ください。
EMR クラスタのさまざまな構成に対する DataWorks のサポートはさまざまです。EMR クラスタを作成し、EMR クラスタに基づいて DataWorks で EMR タスクを開発する前に、「DataWorks で使用する EMR クラスタを構成するためのベスト・プラクティス」のトピックを読むことをお勧めします。
DataWorks 環境を準備する
DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「環境を準備する」をご参照ください。
ステップ 1: ワークスペースを作成する
中国 (上海) リージョンにワークスペースが存在する場合は、このステップをスキップして既存のワークスペースを使用します。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。「ワークスペース」ページで、[ワークスペースの作成] をクリックして、標準モードでワークスペースを作成します。詳細については、「ワークスペースを作成する」をご参照ください。標準モードのワークスペースでは、開発環境は本番環境から分離されています。
ステップ 2: サーバーレス・リソース・グループを作成する
このチュートリアルでは、データの同期とスケジューリングにサーバーレス・リソース・グループが必要です。したがって、サーバーレス・リソース・グループを購入して構成する必要があります。
サーバーレス・リソース・グループを購入します。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックして、[リソースグループ] ページに移動します。
「リソースグループ」ページで、[リソースグループの作成] をクリックします。購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定し、プロンプトに従ってその他のパラメーターを構成し、画面の指示に従ってリソースグループの料金を支払います。サーバーレス・リソース・グループの請求の詳細については、「サーバーレス・リソース・グループの請求」をご参照ください。
説明現在のリージョンに VPC または vSwitch が存在しない場合は、パラメーターの説明にあるリンクをクリックして VPC コンソールに移動し、作成します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
サーバーレス・リソース・グループを DataWorks ワークスペースに関連付けます。
購入したサーバーレス・リソース・グループは、ワークスペースに関連付けた後にのみ、後続の操作で使用できます。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、「リソースグループ」をクリックします。「リソースグループ」ページで購入したサーバーレス・リソース・グループを見つけ、[ワークスペースの関連付け] 列の [アクション] をクリックします。「ワークスペースの関連付け」パネルで、関連付けるワークスペースを見つけて、[関連付け] 列の「アクション」をクリックします。
サーバーレス・リソース・グループがインターネットにアクセスできるようにします。
このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。デフォルトでは、サーバーレス・リソース・グループを使用してインターネットにアクセスすることはできません。サーバーレス・リソース・グループが関連付けられている VPC のインターネット NAT ゲートウェイを構成し、VPC の EIP を構成して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。これにより、サーバーレス・リソース・グループを使用してテストデータにアクセスできます。
VPC コンソールのインターネット NAT ゲートウェイ・ページ に移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを構成します。次の表に、このチュートリアルで必要な主要なパラメーターを示します。次の表に記載されていないパラメーターについては、デフォルト値を保持できます。
パラメーター
説明
リージョン
中国 (上海) を選択します。
VPC
リソースグループが関連付けられている VPC と vSwitch を選択します。
リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。DataWorks コンソール にログオンします。上部のナビゲーションバーで、DataWorks をアクティブ化するリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。「リソースグループ」ページで、作成したリソースグループを見つけて、[ネットワーク設定] 列の [アクション] をクリックします。表示されるページの「VPC バインディング」タブの [データスケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC] と [vSwitch] を表示します。VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
VSwitch の関連付け
アクセスモード
SNAT 有効モードを選択します。
EIP
EIP の購入を選択します。
サービスにリンクされたロール
NAT ゲートウェイを初めて作成する場合は、[サービスにリンクされたロールの作成] をクリックして、サービスにリンクされたロールを作成します。
[今すぐ購入] をクリックします。「確認」ページで、サービス条件を読み、「サービス条件」のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。
サーバーレス・リソース・グループの作成と使用方法の詳細については、「サーバーレス・リソース・グループを作成して使用する」をご参照ください。
ステップ 3: EMR クラスタを DataWorks に登録し、リソースグループを初期化する
DataWorks で EMR クラスタを使用するには、クラスタを DataWorks に登録する必要があります。
「EMR クラスタの登録」ページに移動します。
SettingCenter ページに移動します。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターに移動] をクリックします。
SettingCenter ページの左側のナビゲーションウィンドウで、[クラスタ管理] をクリックします。[クラスタ管理] ページで、[クラスタの登録] をクリックします。「クラスタタイプの選択」ダイアログボックスで、[E-MapReduce] をクリックします。[EMR クラスタの登録] ページが表示されます。
EMR クラスタを DataWorks に登録します。
[EMR クラスタの登録] ページで、クラスタ情報を構成します。次の表に、主要なパラメーターを示します。
パラメーター
説明
クラスタが属する Alibaba Cloud アカウント
[現在の Alibaba Cloud アカウント] に設定します。
クラスタタイプ
[データレイク] を選択します。
デフォルトのアクセス ID
[クラスタアカウント: Hadoop] に設定します。
プロキシユーザー情報の受け渡し
[受け渡し] に設定します。
リソースグループを初期化します。
SettingCenter の [クラスタ管理] ページに移動します。DataWorks に登録されている EMR クラスタを見つけて、EMR クラスタの情報を表示するセクションで [リソースグループの初期化] をクリックします。
「リソースグループの初期化」ダイアログボックスで、目的のリソースグループを見つけて、[初期化] をクリックします。
初期化が完了したら、[OK] をクリックします。
重要リソースグループの初期化が成功したことを確認する必要があります。そうしないと、リソースグループを使用するタスクが失敗する可能性があります。リソースグループの初期化に失敗した場合は、失敗の原因を表示し、プロンプトに従ってネットワーク接続診断を実行できます。
EMR クラスタの登録方法の詳細については、「DataStudio (旧バージョン): EMR 計算リソースを関連付ける」をご参照ください。
次のステップ
環境を準備したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報と Web サイト・アクセスログを OSS に同期する方法と、同期されたデータをクエリするために EMR Hive ノードにテーブルを作成する方法について学習します。詳細については、「データの同期」をご参照ください。