このチュートリアルでは、ユーザープロファイル分析を実行する方法について説明します。このチュートリアルでは、DataWorks を使用してデータの同期、処理、およびデータ品質の監視を行います。このチュートリアルに関連するすべてのデータリソースは、中国 (上海) リージョンにあります。チュートリアルを想定どおりに完了できるようにするには、まず E-MapReduce (EMR) Serverless StarRocks インスタンスと DataWorks ワークスペースを作成し、必要な環境を設定する必要があります。
OSS 環境を準備する
このチュートリアルでは、カスタム関数を使用します。関数登録に使用されるリソースは Object Storage Service (OSS) にアップロードされます。OSS がアクティブ化されていることと、OSS バケットが作成されていることを確認してください。
EMR Serverless StarRocks 環境を準備する
このチュートリアルでは、EMR Serverless StarRocks を使用してデータを処理します。 EMR Serverless StarRocks インスタンスがあることを確認してください。 EMR Serverless StarRocks インスタンスがない場合は、Alibaba Cloud 無料トライアル ページにアクセスして、EMR Serverless StarRocks の無料トライアルの対象となるかどうかを確認するか、E-MapReduce Serverless StarRocks の購入ページでインスタンスを購入できます。
インスタンスタイプ: コンピュートストレージ統合。
リージョン: 中国 (上海)。
インスタンスエディション: Basic Edition。
重要Basic Edition は、トライアル使用と機能テストのみを目的としています。このエディションのサービスレベル契約 (SLA) は保証されていません。ビジネス要件に基づいて、インスタンスエディションパラメーターに Standard Edition を選択できます。
バージョン: 3.1。
このチュートリアルでは、データベース user_behavior_analysis
でデータが処理されます。 EMR Serverless StarRocks インスタンスの作成後、user_behavior_analysis
という名前のデータベースを作成する必要があります。 EMR Serverless StarRocks インスタンスにログインし、SQL エディターで次の SQL 文を実行して、データベースを作成できます。
CREATE DATABASE user_behavior_analysis; /* データベース user_behavior_analysis を作成 */
DataWorks 環境を準備する
DataWorks でタスクを開発する前に、DataWorks をアクティブ化する必要があります。詳細については、「環境を準備する」をご参照ください。
ステップ 1: DataWorks ワークスペースを作成する
DataWorks コンソールにログインします。左上隅で、DataWorks がアクティブ化されているリージョンを選択します。
DataWorks コンソールの左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。ワークスペースページで、[ワークスペースの作成] をクリックします。「ワークスペースの作成」パネルで、パラメーターを設定してワークスペースを作成します。詳細については、「ワークスペースを作成する」をご参照ください。
ワークスペースが既に存在する場合は、このステップをスキップして既存のワークスペースを使用します。
このチュートリアルでは、MySQL データソースと HttpFile データソースは中国 (上海) リージョンにあります。したがって、このチュートリアルでは中国 (上海) リージョンを使用します。
ステップ 2: リソースグループを作成する
リソースグループを購入する。 DataWorks で StarRocks タスクを実行するには、リソースグループを使用する必要があります。リソースグループの購入方法の詳細については、「サーバーレスリソースグループを作成して使用する」をご参照ください。
StarRocks データソースとリソースグループ間のネットワーク接続をテストする。リソースグループと StarRocks データソース間にネットワーク接続が確立されていることを確認します。リソースグループとデータソース間にネットワーク接続を確立する方法の詳細については、「ネットワーク接続ソリューション」をご参照ください。
StarRocks ネットワーク環境を確認します。
StarRocks データソースが存在する VPC (Virtual Private Cloud) にリソースグループを関連付けます。
サーバーレスリソースグループがデータソースにアクセスできるように、StarRocks データソースの IP アドレスホワイトリストを設定します。
DataWorks サーバーレスリソースグループのアウトバウンド IP アドレスを取得します。
EMR Serverless StarRocks インスタンスの名前をクリックします。[基本情報] セクションの [インスタンスの詳細] タブで、[内部ホワイトリスト] をクリックして、サーバーレスリソースグループが関連付けられている vSwitch の CIDR ブロックを追加します。
リソースグループがインターネット経由でデータソースにアクセスするために NAT ゲートウェイに関連付けられた EIP を使用できるように、リソースグループが関連付けられている VPC の NAT ゲートウェイを設定します。
VPC コンソールにログインし、インターネット NAT ゲートウェイページに移動します。上部のナビゲーションバーで、[中国 (上海)] リージョンを選択します。
インターネット NAT ゲートウェイページの左上隅にある [NAT ゲートウェイの作成] をクリックします。次の表に示すパラメーターを設定します。
パラメーター
説明
リージョン
中国 (上海) を選択します。
VPC
リソースグループが関連付けられている VPC と vSwitch を選択します。
リソースグループに関連付けられている VPC と vSwitch を取得する手順は、次のとおりです。DataWorks コンソールにログインし、上部のナビゲーションバーでリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。「リソースグループ」 ページで、作成したリソースグループを見つけ、[操作] 列にある [ネットワーク設定] をクリックします。「VPC バインディング」 タブの [データスケジューリングと Data Integration] セクションで、リソースグループに関連付けられている [VPC] と [vSwitch] を確認します。詳細については、「VPC とは」をご参照ください。
VSwitch の関連付け
アクセスモード
すべての VPC リソースの SNAT を選択します。
EIP
EIP の購入を選択します。
サービスリンクロールの作成
[サービスリンクロールの作成] をクリックして、サービスリンクロールを作成します。インターネット NAT ゲートウェイを初めて作成する場合は、このステップが必須です。
説明上記の表に記載されていないその他のパラメーターについては、デフォルト値を保持します。
[今すぐ購入] をクリックします。「確認」ページで、サービス規約を読み、「サービス規約」チェックボックスをオンにして、[確認] をクリックします。
ステップ 3: StarRocks データソースを追加する
DataWorks コンソールの左側のナビゲーションウィンドウで、[管理センター] をクリックします。表示されるページで、ドロップダウンリストからワークスペースを選択し、[管理センターに移動] をクリックします。[設定センター] ページの左側のナビゲーションウィンドウで、 を選択します。「データソース」ページで、[データソースの追加] をクリックします。「データソースの追加」ダイアログボックスで、StarRocks をクリックします。「StarRocks データソースの追加」ページで、設定モードパラメーターに [Alibaba Cloud インスタンスモード] を選択して、StarRocks データソースを DataWorks ワークスペースに追加します。
StarRocks データソースの基本情報を設定します。
EMR コンソールにログインして、StarRocks データソースに関する情報を取得します。 DataWorks コンソールで、EMR コンソールの [インスタンスの詳細] タブの情報に基づいて、StarRocks データソースの 基本情報 を設定します。次の表に、必要なパラメーターを示します。
パラメーター
説明
データソース名
データソースの名前。このチュートリアルでは、値を
Doc_StarRocks_Storage_Compute_Tightly_01
に設定します。データソースの説明
データソースの説明。
設定モード
Alibaba Cloud インスタンスモード に設定します。
リージョン
中国東部 2 (上海) に設定します。
インスタンス
作成したサーバーレスインスタンスを選択します。
データベース名
StarRocks 内のデータベースの名前。このチュートリアルでは、値を
user_behavior_analysis
に設定します。このチュートリアルのすべての操作はこのデータベースで実行されます。ユーザー名
StarRocks データベースのユーザー名。
パスワード
StarRocks データベースのパスワード。
StarRocks データソースとリソースグループ間のネットワーク接続をテストします。ネットワーク接続テストが成功したら、[作成完了] をクリックします。 StarRocks データソースが DataWorks ワークスペースに追加されます。
ステップ 4: MySQL データソースを追加する
[設定センター] ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。「データソース」ページの左上隅にある [データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、MySQL を選択します。
[MySQL データソースの追加] ページで、パラメーターを設定します。次の表にパラメーターを示します。この例では、サンプル値が開発環境と本番環境で使用されます。
パラメーター
説明
データソース名
データソースの名前。この例では、user_behavior_analysis_mysql が使用されます。
データソースの説明
データソースの説明。データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして使用されます。データソースは、データ同期シナリオでのデータ読み取り専用です。
設定モード
接続文字列モード を選択します。
接続アドレス
ホスト IP アドレス:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com
と入力します。ポート番号:
3306
と入力します。
データベース名
データベースの名前。この例では、
workshop
が使用されます。ユーザー名
ユーザー名。この例では、workshop が使用されます。
パスワード
パスワード。この例では、workshop#2017 が使用されます。
認証方法
認証なしを選択します。
目的のリソースグループを見つけ、[接続ステータス (開発環境)] 列と [接続ステータス (本番環境)] 列でそれぞれ [ネットワーク接続のテスト] をクリックします。ネットワーク接続テストが成功すると、対応する列に 接続済み と表示されます。
[作成完了] をクリックします。
ステップ 5: HttpFile データソースを追加する
[設定センター] ページの左側のナビゲーションウィンドウで、
を選択します。「データソース」ページで、[データソースの追加] をクリックします。「データソースの追加」ダイアログボックスで、HttpFile をクリックします。「HttpFile データソースの追加」ページで、HttpFile データソースを DataWorks ワークスペースに追加します。HttpFile データソースの基本情報を設定します。
次の表に、HttpFile データソースを追加するために [基本情報] セクションで設定する必要があるパラメーターを示します。
パラメーター
説明
データソース名
ワークスペース内のパブリック HttpFile データソースの表示名を入力します。このチュートリアルでは、値を user_behavior_analysis_httpfile に設定します。
データソースの説明
データソースの説明。
データソースは DataWorks のユースケース専用に提供され、提供されたテストデータにアクセスするためのバッチ同期タスクのソースとして機能します。また、データソースはデータ同期シナリオでのデータ読み取りにのみ使用できることを指定する必要があります。
URL ドメイン
入力します
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。HttpFile データソースとリソースグループ間のネットワーク接続をテストします。ネットワーク接続テストが成功したら、[作成完了] をクリックします。 HttpFile データソースが DataWorks ワークスペースに追加されます。
次のステップ
環境の準備が完了したので、次のチュートリアルに進むことができます。次のチュートリアルでは、ユーザーの基本情報とユーザーの Web サイトアクセスログを StarRocks に同期する方法を学習します。詳細については、「データを同期する」をご参照ください。