このチュートリアルでは、ユーザー・プロファイル分析を実行する方法について説明します。 このチュートリアルでは、DataWorks を使用してデータを同期、処理、およびデータ品質を監視します。 このチュートリアルに関連するすべてのリソースは、中国 (上海) リージョンにあります。 チュートリアルを想定どおりに完了できるように、まず EMR コンソールで E-MapReduce (EMR) Serverless Spark ワークスペースを作成し、DataWorks コンソールで DataWorks ワークスペースを作成し、必要な環境を設定する必要があります。
ビジネス・バックグラウンド
効果的なビジネス管理戦略を開発するには、Web サイトでのアクティビティに基づいて、Web サイト・ユーザーの基本的なプロファイル・データを取得する必要があります。 基本的なプロファイル・データには、Web サイト・ユーザーの地理的属性と社会的属性が含まれます。 プロファイル・データを時間と場所別に分析することで、Web サイト・トラフィックの洗練された操作が可能になります。
使用上の注意
詳細については、「実験紹介」をご参照ください。 これにより、チュートリアルを想定どおりに完了できます。
注意事項
このチュートリアルのテストに必要な、ユーザーの基本情報と Web サイト・アクセスログが提供されています。
このチュートリアルのデータは、DataWorks での実験操作にのみ使用でき、すべてのデータは手動モックデータです。
このチュートリアルでは、データ開発 (Data Studio) (新バージョン) を使用してデータ変換を実行します。
OSS 環境を準備する
このチュートリアルでは、データ・モデリングとデータ分析のためのユーザー情報と Web サイト・アクセスログを保存するために使用される OSS バケットが必要です。
OSS コンソール にログインします。
左側のナビゲーションウィンドウで、[バケット] をクリックします。 [バケット] ページで、[バケットの作成] をクリックします。
[バケットの作成] パネルで、パラメーターを設定し、[OK] をクリックします。 次の表にパラメーターを示します。
パラメーター
説明
バケット名
この例では、このパラメーターを
dw-spark-demoに設定します。リージョン
[中国 (上海)] を選択します。
OSS-HDFS
このスイッチをオンにします。
[バケット] ページに戻り、バケットを見つけて、バケット名をクリックして [オブジェクト] ページに移動します。
EMR Serverless Spark ワークスペースを準備する
このチュートリアルでは、EMR Serverless Spark を使用してデータを処理します。 EMR Serverless Spark ワークスペースがあることを確認してください。 EMR Serverless Spark ワークスペースがない場合は、ワークスペースの作成 にアクセスし、次のパラメーターを設定します。
パラメーター | 説明 |
リージョン | 中国 (上海) を選択します。 |
課金方法 | 従量課金を選択します。 |
ワークスペース名 | カスタム名を入力します。 |
メタデータ・ストレージ用 DLF | EMR Serverless Spark ワークスペースに関連付ける DLF カタログを選択します。 EMR Serverless Spark ワークスペース間でメタデータを分離する場合は、EMR Serverless Spark ワークスペースごとに異なるカタログを選択します。 |
ワークスペース・ディレクトリ | ジョブのログファイルを保存する Object Storage Service (OSS) バケットのディレクトリを選択します。 |
プロフェッショナル版: EMR Serverless Spark プロフェッショナル版のワークスペースは、EMR Serverless Spark ベーシック版のすべての機能、高度な機能、およびパフォーマンスの向上を提供します。 このタイプのワークスペースは、大規模な ETL (抽出・変換・書き出し) タスクに適しています。
ベーシック版: EMR Serverless Spark ベーシック版のワークスペースは、すべての基本機能と有利な計算エンジンを提供します。
DataWorks 環境を準備する
DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。 詳細については、「DataWorks のアクティブ化」をご参照ください。
ステップ 1: ワークスペースを作成する
中国 (上海) リージョンに「新バージョンの DataStudio のパブリック・プレビューに参加する」がオンになっているワークスペースが既に存在する場合は、このステップをスキップして既存のワークスペースを使用してください。
DataWorks コンソール にログインします。 上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。 左側のナビゲーションウィンドウで、[ワークスペース] をクリックして [ワークスペース] ページに移動します。
[ワークスペース] ページで、[ワークスペースの作成] をクリックして、標準モードでワークスペースを作成します。 ワークスペースを作成するときに、[新バージョンの DataStudio のパブリック・プレビューに参加する] をオンにします。 標準モードのワークスペースでは、開発環境は本番環境から分離されています。
説明2025 年 2 月 18 日現在、Alibaba Cloud アカウントを使用して中国 (上海) リージョンで初めて DataWorks をアクティブ化し、ワークスペースを作成すると、新しいバージョンの Data Studio がデフォルトでアクティブ化されます。
ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
ステップ 2: サーバーレス・リソースグループを作成する
サーバーレス・リソースグループを購入します。
このチュートリアルでは、データ同期とスケジューリングにサーバーレス・リソースグループが必要です。 したがって、サーバーレス・リソースグループを購入して設定する必要があります。
DataWorks コンソール にログインします。 上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。 左側のナビゲーションウィンドウで、[リソースグループ] をクリックして [リソースグループ] ページに移動します。
[リソースグループ] ページで、[リソースグループの作成] をクリックします。 購入ページで、[リージョンとゾーン] を [中国 (上海)] に設定し、[リソースグループ名] を指定し、画面の指示に従ってその他のパラメーターを設定し、画面の指示に従ってリソースグループの料金を支払います。 サーバーレス・リソースグループの課金詳細については、「サーバーレス・リソースグループの課金」をご参照ください。
説明現在のリージョンに VPC (Virtual Private Cloud) または vSwitch が存在しない場合は、パラメーターの説明にあるリンクをクリックして VPC コンソールに移動し、作成します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
サーバーレス・リソースグループを DataWorks ワークスペースに関連付けます。
購入したサーバーレス・リソースグループは、サーバーレス・リソースグループをワークスペースに関連付けた後にのみ、後続の操作で使用できます。
DataWorks コンソールにログインします。 上部のナビゲーションバーで、[China (Shanghai)] リージョンを選択します。 左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、購入したサーバーレスリソースグループを見つけ、[操作] 列の [ワークスペースの関連付け] をクリックします。 [ワークスペースの関連付け] パネルで、サーバーレスリソースグループに関連付けるワークスペースを見つけ、[操作] 列の [関連付け] をクリックします。
サーバーレス・リソースグループがインターネットにアクセスできるようにします。
このチュートリアルで使用されるテストデータは、インターネット経由で取得する必要があります。 デフォルトでは、サーバーレス・リソースグループを使用してインターネットにアクセスすることはできません。 サーバーレス・リソースグループが関連付けられている VPC のインターネット NAT ゲートウェイを設定し、VPC のEIP (Elastic IP Address) を設定して、VPC とテストデータのネットワーク環境間のネットワーク接続を確立する必要があります。 これにより、サーバーレス・リソースグループを使用してテストデータにアクセスできます。
VPC コンソールのインターネット NAT ゲートウェイ・ページ に移動します。 上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
[インターネット NAT ゲートウェイの作成] をクリックし、パラメーターを設定します。 次の表に、このチュートリアルに必要な主要なパラメーターを示します。 次の表に記載されていないパラメーターについては、デフォルト値を保持できます。
パラメーター
説明
リージョン
中国 (上海) を選択します。
VPC
リソースグループが関連付けられている VPC と vSwitch を選択します。
リソースグループが関連付けられている VPC と vSwitch を表示するには、次の操作を実行します。 DataWorks コンソール にログインします。 上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。 左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。 [リソースグループ] ページで、作成したリソースグループを見つけ、[アクション] 列の [ネットワーク設定] をクリックします。 表示されるページの [VPC バインディング] タブの [データ・スケジューリングとデータ統合] セクションで、リソースグループが関連付けられている [VPC] と [vSwitch] を表示します。 VPC と vSwitch の詳細については、「VPC とは」をご参照ください。
VSwitch の関連付け
アクセス・モード
SNAT 有効モードを選択します。
EIP
EIP の購入を選択します。
サービスリンクロール
NAT ゲートウェイを初めて作成する場合は、[サービスリンクロールの作成] をクリックしてサービスリンクロールを作成します。
[今すぐ購入] をクリックします。 [確認] ページで、サービス規約を読み、[サービス規約] のチェックボックスをオンにして、[今すぐアクティブ化] をクリックします。
サーバーレス・リソースグループの作成と使用方法の詳細については、「サーバーレス・リソースグループの作成と使用」をご参照ください。
EMR Serverless Spark 計算リソースをワークスペースに関連付ける
DataWorks コンソール にログインします。 上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、目的のワークスペースを見つけ、ワークスペースの名前をクリックして [ワークスペースの詳細] ページに移動します。
[ワークスペースの詳細] ページの左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
[計算リソース] ページで、[計算リソースの関連付け] をクリックします。 [計算リソースの関連付け] パネルで、ビジネス要件に基づいて [計算リソース・タイプ] を選択し、パラメーターを設定します。
このチュートリアルでは、EMR Serverless Spark を使用して計算リソースとストレージ・リソースを提供します。 [計算リソースの作成] ダイアログボックスで、[EMR Serverless Spark] を選択し、パラメーターを設定します。 次の表に、このチュートリアルに必要な主要なパラメーターを示します。 次の表に記載されていないパラメーターについては、デフォルト値を保持できます。
パラメーター
説明
Spark ワークスペース
現在のワークスペースに関連付ける EMR Serverless Spark ワークスペース を選択します。 また、[Spark ワークスペース] ドロップダウンリストの [作成] をクリックし、EMR コンソールの [EMR Serverless Spark] ページで Spark ワークスペースを作成することもできます。 その後、[Spark ワークスペース] ドロップダウンリストから作成した Spark ワークスペースを選択できます。
説明現在のワークスペースを作成 するときに [開発環境と本番環境の分離] をオンにした場合は、開発環境と本番環境の Spark ワークスペースを別々に選択する必要があります。
Spark ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
デフォルト・エンジン・バージョン
Data Studio で EMR Spark ノードを作成すると、「情報を入力してください」ステップで指定したエンジン・バージョン、メッセージ・キュー、および SQL Compute がデフォルトで使用されます。
デフォルト・リソース・キュー
デフォルト SQL Compute
デフォルト・アクセス ID
現在のワークスペースの Spark ワークスペースにアクセスするために使用されるデフォルト・アクセス ID。
開発環境: このパラメーターの値は [Executor] に固定されています。
本番環境: このパラメーターの値は、[Alibaba Cloud アカウント]、[Alibaba Cloud RAM ユーザー]、または [タスク所有者] にすることができます。
計算リソース・インスタンス名
計算リソースの識別子。 タスクが実行されると、システムは指定された計算リソース・インスタンスの名前に基づいて、タスクの計算リソースを選択します。
[OK] をクリックします。
計算リソースをワークスペースに関連付ける方法の詳細については、「計算リソースをワークスペースに関連付ける」をご参照ください。
次のステップ
環境を準備したので、次のチュートリアルに進むことができます。 次のチュートリアルでは、ユーザーの基本情報と Web サイト・アクセスログを OSS に同期する方法と、Spark SQL ノードでテーブルを作成して同期されたデータをクエリする方法について学習します。 詳細については、「データの同期」をご参照ください。