このトピックでは、ビッグデータの開発と分析に DataWorks と Spark を一緒に使用する方法について説明します。 また、Data Integration、Data Studio、Operation Center などの DataWorks サービスの機能を体験できるユーザー プロファイル分析のケーススタディも提供します。
ケースの紹介
効果的なビジネス管理戦略を開発するには、Webサイトでのアクティビティに基づいて、Webサイト ユーザーの基本的なプロファイル データを取得する必要があります。 基本的なプロファイル データには、Webサイト ユーザーの地理的属性と社会的属性が含まれます。 プロファイル データを時間と場所ごとに分析することで、Webサイト トラフィックのきめ細かな操作をさらに有効にすることができます。 DataWorks を E-MapReduce(EMR)Serverless Spark とともに使用して、データ同期、データ処理、データ管理、データ消費を行うことができます。
ユーザー プロファイル分析ケースのプロセス全体を理解するために、「実験の紹介」をお読みください。 これにより、このチュートリアルを完了することができます。
データ開発プラットフォーム
このチュートリアルでは、DataWorks 新バージョンの Data Studio を使用します。 ワークスペースで Data Studio が有効になっていることを確認してください。 次のいずれかの方法を使用して、Data Studio を有効にできます。
Data Studio パブリックプレビューに参加するワークスペースを作成する際に、 をオンにします。
旧バージョンの DataStudio ページの上部ナビゲーションバーで、[Data Studio をアップグレード] をクリックして、プロンプトに従って旧バージョンの DataStudio を新バージョンの Data Studio にアップグレードします。
2025年 2 月 19 日以降、次のリージョンで Alibaba Cloud アカウントを使用して DataWorks をアクティブ化し、初めてワークスペースを作成する場合、Data Studio はデフォルトで有効になります。
中国(杭州)、中国(上海)、中国(北京)、中国(深圳)、中国(香港)、シンガポール、インドネシア(ジャカルタ)、ドイツ(フランクフルト)
手順
ステップ 1:環境を準備する
チュートリアルに必要な EMR Serverless Spark ワークスペースと DataWorks ワークスペースを作成し、リソース グループとネットワーク設定を構成します。
ステップ 2:データを同期する
DataWorks でデータ同期タスクを構成して、チュートリアルで提供されるユーザーの基本的なユーザー情報と Webサイト アクセス ログを Spark 計算リソースに同期し、同期されたデータに対してクエリを実行します。
ステップ 3:データを処理する
DataWorks の EMR Spark SQL ノードを使用して、Spark に同期された基本的なユーザー情報テーブルとアクセス ログ テーブルのデータを処理し、目的のユーザー プロファイル データを取得します。
ステップ 4:データ品質を監視する
データ処理後に生成されるテーブルのモニターを構成して、ダーティデータを事前に特定して遮断し、ダーティデータの影響の拡大を防ぎます。
ステップ 5:データを管理する
データマップユーザー プロファイル分析タスクが完了すると、EMR にデータ テーブルが生成されます。 生成されたデータ テーブルとテーブル間のデータ系列は、 で表示できます。
ステップ 6:データを消費する
ユーザー プロファイル分析が完了したら、DataAnalysis を使用して処理済みデータを視覚的に表示します。 これにより、重要な情報をすばやく抽出して、データの背後にあるビジネス トレンドを把握できます。