すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データの同期

最終更新日:Feb 15, 2026

このチュートリアルでは、HttpFile および MySQL データソースを作成して、ユーザーおよびウェブサイトのログデータにアクセスする方法を説明します。データ同期パイプラインを設定して、このデータを Object Storage Service (OSS) バケットに転送します。その後、E-MapReduce (EMR) Hive 外部テーブルを作成して OSS 内のデータを解析し、クエリを実行して結果を検証します。

前提条件

  • 必要な環境が準備されていることを確認してください。詳細については、「環境の準備」をご参照ください。

  • ネットワーク接続を確保するために、ECS コンソールに移動し、EMR クラスターに関連付けられているセキュリティグループにセキュリティグループルールを追加します。このルールは、リソースグループの VPC の vSwitch CIDR ブロックからのポート 10000 でのインバウンドトラフィックを許可する必要があります。詳細については、「セキュリティグループルールの追加」をご参照ください。

1. データソースの作成

後続の処理のためにサンプルデータを取得し、保存するために、DataWorks ワークスペースに以下のデータソースを追加します。

  • MySQL データソース:DataWorks が提供するサンプルデータソースで、基本的なユーザー情報を保存します。

  • HttpFile データソース:DataWorks が提供するサンプルデータソースで、ユーザーのウェブサイトアクセスログを保存します。

  • OSS データソース:「EMR 環境の準備」で作成した EMR OSS-HDFS ストレージです。これは、MySQL および HttpFile データソースから同期されたサンプルユーザー情報とウェブサイトアクセスログを保存するために使用されます。

MySQL データソースの作成 (user_behavior_analysis_mysql)

このチュートリアルのサンプルユーザーデータは MySQL データベースに保存されています。このデータを取得するために MySQL データソースを作成します (ods_user_info_d)。

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

  2. [設定センター] ページで、左側のナビゲーションウィンドウにある [データソース] をクリックします。

  3. [データソースの追加] をクリックし、データソースタイプとして [MySQL] を検索して選択します。

  4. [MySQL データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、開発環境と本番環境の両方で同じサンプル値を使用します。

    次の表では、主要なパラメーターのみを説明します。他のすべてのパラメーターにはデフォルト値を使用してください。

    パラメーター

    説明

    データ ソース名

    データソースの名前を入力します。このチュートリアルでは、user_behavior_analysis_mysql と入力します。

    [データソースの説明]

    これは DataWorks チュートリアル用の読み取り専用データソースです。データ統合内のバッチ同期ノードにサンプルデータを提供し、他のモジュールではサポートされていません。

    [設定モード]

    [接続文字列モード] を選択します。

    [接続アドレス]

    • ホスト IP アドレス:rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

    • ポート番号:3306

    [データベース名]

    データベース名を入力します。このチュートリアルでは、workshop と入力します。

    ユーザー名

    ユーザー名を入力します。このチュートリアルでは、workshop と入力します。

    パスワード

    パスワードを入力します。このチュートリアルでは、workshop#2017 と入力します。

    [認証方式]

    認証なし。

  5. [接続設定] セクションで、本番環境と開発環境の両方で [ネットワーク接続のテスト] をクリックします。接続ステータスが [接続済み] であることを確認します。

    重要
    • リソースグループがワークスペースにアタッチされ、パブリックネットワークアクセスが有効になっていることを確認してください。そうでない場合、データ同期は失敗します。詳細については、「環境の準備」をご参照ください。

    • 利用可能なリソースグループがない場合は、接続設定セクションのプロンプトに従ってください。[購入][購入済みリソースグループの関連付け] をクリックします。

  6. [作成を完了] をクリックします。

HttpFile データソースの作成 (user_behavior_analysis_httpfile)

このチュートリアルのユーザーウェブサイトアクセスログは、DataWorks が提供するサンプルの OSS バケットに保存されています。これらのログを取得するために HttpFile データソースを作成します (user_log.txt)。

  1. データソースページに移動します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

    2. [設定センター] ページで、左側のナビゲーションウィンドウにある [データソース] をクリックします。

  2. [データソースの追加] をクリックし、データソースタイプとして [HttpFile] を検索して選択します。

  3. [HttpFile データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、開発環境と本番環境の両方で同じサンプル値を使用します。

    次の表では、主要なパラメーターのみを説明します。他のすべてのパラメーターにはデフォルト値を使用してください。

    パラメーター

    説明

    [データソース名]

    データソースの名前を入力します。このチュートリアルでは、user_behavior_analysis_httpfile と入力します。

    [データソースの説明]

    これは DataWorks チュートリアル用の読み取り専用データソースです。データ統合内のバッチ同期ノードにサンプルデータを提供し、他のモジュールではサポートされていません。

    [URL]

    [URL] を、開発環境と本番環境の両方で https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com に設定します

  4. [接続設定] セクションで、本番環境と開発環境の両方で [ネットワーク接続のテスト] をクリックします。ステータスが [接続済み] であることを確認します。

    重要
    • データ同期の失敗を防ぐために、パブリックアクセスが可能なリソースグループがワークスペースに関連付けられていることを確認してください。設定手順については、「環境の準備」をご参照ください。

    • 利用可能なリソースグループがない場合は、画面の指示に従って [購入][購入済みリソースグループの関連付け] をクリックします。

  5. [作成を完了] をクリックします。

OSS データソースの作成 (test_g)

EMR 環境の準備」で作成した OSS バケットを DataWorks に追加します。このバケットは、MySQL および HttpFile データソースから同期されたデータを保存します。

説明

OSS データソースを追加する際、現在のアカウントに Object Storage Service (OSS) の AliyunOSSFullAccess 権限があることを確認してください。詳細な手順については、「RAM ユーザーの権限の表示」および「RAM ユーザーの権限の管理」をご参照ください。

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

  2. [SettingCenter]」ページで、左側のナビゲーションウィンドウの「[Data Sources]」をクリックします。

  3. [データソースの追加] をクリックし、データソースタイプとして [OSS] を検索して選択します。

  4. [OSS データソースの追加] ページで、パラメーターを設定します。このチュートリアルでは、[開発] 環境と [本番] 環境の両方で同じサンプル値を使用します。

    パラメーター

    説明

    データソース名

    データソースの名前を入力します。本例では、test_g を使用します。

    データソースの説明

    データソースの簡単な説明を入力します。

    アクセスモード

    AccessKey モード を選択します。

    AccessKey ID

    現在のアカウントの AccessKey ID です。

    DataWorks コンソール にログインし、右上隅のプロフィール画像にマウスを合わせて、AccessKey ページへ移動することで、必要な権限を持つ RAM ユーザーAccessKey ID を取得できます。

    AccessKey シークレット

    現在のアカウントの AccessKey シークレットを入力します。

    重要

    AccessKey シークレットは作成時のみ表示され、その後は再取得できません。機密情報を厳重に管理してください。AccessKey が漏洩または紛失した場合は、既存のものを削除し、新しい AccessKey を作成してください。

    リージョン

    中国 (上海) リージョンを選択します。

    エンドポイント

    oss-cn-shanghai-internal.aliyuncs.com を入力します。

    バケット

    EMR クラスターを作成する際に設定した OSS バケットの名前です。本例では、dw-emr-demo を使用します。

  5. [接続設定] セクションで、本番環境と開発環境の両方で [ネットワーク接続のテスト] をクリックします。接続ステータスが [接続済み] であることを確認します。

    重要
    • リソースグループがワークスペースにアタッチされ、パブリックネットワークアクセスが有効になっていることを確認してください。そうでない場合、データ同期は失敗します。詳細については、「環境の準備」をご参照ください。

    • 利用可能なリソースグループがない場合は、接続設定セクションのプロンプトに従ってください。[購入][購入済みリソースグループの関連付け] をクリックします。

  6. [作成を完了] をクリックします。

2. 同期パイプラインの構築

このステップでは、後続の処理のためにユーザーデータとウェブサイトアクセスログを OSS バケットに移動するための同期パイプラインを構築します。

  1. DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で [ショートカット] > [Data Studio] を選択します。

  2. Data Studio ページで、左側のナビゲーションウィンドウにある image アイコンをクリックして [データ開発] ページに移動します。次に、左側のディレクトリツリーで [ワークスペースディレクトリ] を選択します。

  3. work という名前のディレクトリと workshop_emr という名前のワークフローを作成します。詳細については、「ワークスペースディレクトリ」および「定期的なワークフローのオーケストレーション」をご参照ください。

  4. workshop_emr ワークフローをクリックしてワークフローオーケストレーションページを開きます。次に、ゼロ負荷ノードを 1 つ、バッチ同期ノードを 2 つ、EMR Hive ノードを 2 つ作成します。

    1. [一般] > [ゼロ負荷ノード] を選択し、右側の編集キャンバスにドラッグします。[ノードの作成] ダイアログボックスで、[ノード名]workshop_start_emr と入力し、[確認] をクリックします。

    2. 2 つの [データ統合] ノードを編集キャンバスにドラッグします。[ノードの作成] ダイアログボックスで、ソースタイプを MySQL、宛先タイプを OSS に設定します。特定のノードタイプとして [バッチ同期] を選択します。[ノードに名前を付けます] ods_user_info_d_2oss_emrods_raw_log_d_2oss_emr をそれぞれ指定します。これらのノードは、MySQL のユーザー情報と HttpFile のログデータを OSS バケットに同期します。[確認] をクリックします。

    3. 2 つの [EMR] > [EMR Hive] ノードを編集キャンバスにドラッグします。[ノードの作成] ダイアログボックスで、[ノードに名前を付けます] ods_user_info_d_emrods_raw_log_d_emr をそれぞれ指定します。これらのノードは、OSS バケット内のデータを解析するための Hive テーブルを作成します。[確認] をクリックします。

    次の表は、このチュートリアルで使用されるサンプルノードについて説明しています。

    タイプ

    パラメーター

    機能

    imageゼロ負荷ノード

    workshop_start_emr

    ワークフローをオーケストレーションし、データフローを定義します。この [Zero Load Node] はコード編集が不要です。

    imageバッチ同期ノード

    ods_user_info_d_2oss_emr

    MySQL データソースから OSS データソース (test_g) に基本的なユーザー情報を同期します。

    imageバッチ同期ノード

    ods_raw_log_d_2oss_emr

    HttpFile データソース (OSS) から OSS データソース (test_g) にユーザーのウェブサイトアクセスログを同期します。

    imageEMR Hive ノード

    ods_user_info_d_emr

    OSS データソース (test_g) から基本的なユーザー情報を解析するために Hive テーブル ods_user_info_d_emr を作成します。

    imageEMR Hive ノード

    ods_raw_log_d_emr

    OSS データソース (test_g) からユーザーのウェブサイトアクセスログを解析するために Hive テーブル ods_raw_log_d_emr を作成します。

  5. ワークフロー開発パネルで、接続をドラッグして workshop_start_emr ノードを 2 つのバッチ同期ノードの上流依存関係として設定します。最終的な結果は次のようになります:

    image

3. 同期ノードの設定

以下の手順に従って、MySQL データソースからユーザー情報を、HttpFile データソースからログデータを OSS バケットに同期します。その後、Hive 外部テーブルを作成して、OSS に保存されたデータを解析し、クエリを実行します。

ゼロ負荷ノードの設定

ゼロ負荷ノードのスケジュールプロパティを次のように設定します。

  1. ゼロ負荷ノードを開きます。

    ワークフローオーケストレーションページで、ゼロ負荷ノードにカーソルを合わせ、[ノードを開く] をクリックしてノード編集ページに移動します。

  2. ノードを設定します。

    右側のペインで [プロパティ] をクリックし、次のパラメーターを設定します。

    パラメーター

    説明

    [スケジュール用リソースグループ]

    環境準備中に作成したサーバーレスリソースグループを選択します。

    [スケジュール依存関係]

    ワークフローには上流依存関係がないため、設定は不要です。統一管理のために、[ワークスペースルートノードを使用] をクリックして、ワークスペースルートノードを親依存関係として設定できます。

    ワークスペースルートノードは WorkspaceName_root の形式で命名されます。

  3. ノードを保存します。

    設定が完了したら、ツールバーの image アイコンをクリックしてノードを保存します。

MySQL ユーザーデータの同期

このタスクは、MySQL データソースから OSS バケットにユーザーデータを同期します。

  1. バッチ同期ノードを開きます。

    ワークフローオーケストレーションページで、ods_user_info_d_2oss_emr ノードにカーソルを合わせ、[ノードを開く] をクリックしてノード設定ページに移動します。

  2. データソースと計算リソースを設定します。

    ソース、宛先、リソースグループを次のように設定します。

    パラメーター

    説明

    ソース

    • ソース: MySQL

    • データソース名: user_behavior_analysis_mysql

    デスティネーション

    • デスティネーション: OSS

    • データソース名: 事前に作成した OSS データソースを選択します。本例では、test_g を使用します。

    Data Integration のリソースグループ

    リソースグループ には、ご購入済みのサーバーレスリソースグループを選択します。

  3. ソースと宛先の設定を行います。

    1. 次の表では、主要なパラメーターのみを説明します。他のすべてのパラメーターにはデフォルト値を使用してください。

      パラメーター

      説明

      ソース

      • [テーブル]:データソースから ods_user_info_d を選択します。

      • [分割キー]:プライマリキーまたはインデックス付きの列を分割キーとして使用します。整数型のフィールドのみがサポートされています。このチュートリアルでは、分割キーを uid に設定します。

      [宛先]

      • [テキストタイプ]text を選択します。

      • [オブジェクト名 (パスを含む)]:OSS のディレクトリ構造に基づいてパスを入力します。例:ods_user_info_d/user_${bizdate}/user_${bizdate}.txt。ここで、ods_user_info_d は OSS のディレクトリ名で、${bizdate} は前日のデータタイムスタンプを表します。

      • [列区切り文字]| と入力します。

    2. [フィールドマッピング][チャネル制御] の設定を確認します。

      DataWorks では、ソースと宛先のフィールドをマッピングして、特定のソースフィールドから特定の宛先フィールドにデータを書き込むことができます。また、チャネル制御設定でタスクの同時実行数やダーティデータレコードのポリシーなどのパラメーターを設定することもできます。このチュートリアルでは、[ダーティデータレコードのポリシー][ダーティデータレコードを許可しない] に設定し、他の設定はデフォルト値のままにします。詳細については、「ウィザードモードでの同期ノードの設定」をご参照ください。

  4. デバッグパラメーターを設定します。

    右側のペインで [デバッグ設定] をクリックし、次のパラメーターを設定します。これらのパラメーターは、ステップ 5 のテスト実行で使用されます。

    パラメーター

    説明

    [リソースグループ]

    環境の準備」で購入したサーバーレスリソースグループを選択します。

    [スクリプトパラメーター]

    設定は不要です。このチュートリアルのサンプルコードでは、${bizdate} を使用してデータタイムスタンプを表します。ステップ 5 でワークフローを実行する際に、[今回の実行で使用する値]20250223 のような特定の定数に設定します。ノードは実行中にこの定数を使用して変数を置き換えます。

  5. バッチ同期ノードを保存します。

    設定が完了したら、ツールバーの image アイコンをクリックしてノードを保存します。

HttpFile ログデータの同期

このタスクは、HttpFile データソースから OSS バケットにログデータを同期します。

  1. バッチ同期ノードを開きます。

    ワークフローオーケストレーションページで、ods_raw_log_d_2oss_emr ノードにカーソルを合わせ、[ノードを開く] をクリックしてノード設定ページに移動します。

  2. データソースと計算リソースを設定します。

    ソース、宛先、リソースグループを次のように設定します。

    パラメーター

    説明

    ソース

    • [ソース]HttpFile

    • データソース名user_behavior_analysis_httpfile

    [宛先]

    • [宛先]OSS

    • [データソース名]:以前に作成した OSS データソースを選択します。この例では、test_g を使用します。

    [データ統合用リソースグループ]

    [リソースグループ] には、購入したサーバーレスリソースグループを選択します。

  3. ソースと宛先の設定を行います。

    1. 次の表では、主要なパラメーターのみを説明します。他のすべてのパラメーターにはデフォルト値を使用してください。

      パラメーター

      説明

      ソース

      • [ファイルパス]/user_log.txt

      • [テキストタイプ]text を選択します。

      • [列区切り文字]| と入力します。

      • [圧縮形式]:None、Gzip、Bzip2、Zip の 4 種類から 1 つを選択します。このチュートリアルでは、None を選択します。

      • [ヘッダーをスキップ]:いいえを選択します。

      [宛先]

      • [テキストタイプ]text を選択します。

      • [オブジェクト名 (パスを含む)]:OSS のディレクトリ構造に基づいてパスを入力します。例:ods_raw_log_d/log_${bizdate}/log_${bizdate}.txt。ここで、ods_raw_log_d は OSS のディレクトリ名で、${bizdate} は前日のデータタイムスタンプを表します。

      • [列区切り文字]| と入力します。

    2. デバッグパラメーターを設定します。

      右側のペインで [デバッグ設定] をクリックし、次のパラメーターを設定します。これらのパラメーターは、ステップ 5 のテスト実行で使用されます。

      パラメーター

      説明

      リソースグループ

      環境の準備」で購入したサーバーレスリソースグループを選択します。

      [スクリプトパラメーター]

      設定は不要です。このチュートリアルのサンプルコードでは、${bizdate} を使用してデータタイムスタンプを表します。ステップ 5 でワークフローを実行する際に、[今回の実行で使用する値]20250223 のような特定の定数に設定します。ノードは実行中にこの定数を使用して変数を置き換えます。

  4. バッチ同期ノードを保存します。

    設定が完了したら、ツールバーの image アイコンをクリックしてノードを保存します。

4. OSS データの解析

バッチ同期ノードの実行が完了したら、以下の手順に従って Hive 外部テーブルを作成し、test_g OSS データソースに保存されているサンプルデータを解析します。

ods_user_info_d_emr テーブルの作成

  1. コードを開発します。

    ワークフローオーケストレーションページで、ods_user_info_d_emr EMR Hive ノードにカーソルを合わせ、[ノードを開く] をクリックして EMR Hive ノード編集ページに移動します。次のサンプル SQL 文を入力します。

    CREATE EXTERNAL TABLE IF NOT EXISTS ods_user_info_d_emr
    (
        `uid` STRING COMMENT 'ユーザー ID',
        `gender` STRING COMMENT '性別',
        `age_range` STRING COMMENT '年齢層',
        `zodiac` STRING COMMENT '星座'
    ) PARTITIONED BY (
      dt STRING
    )
    ROW FORMAT  delimited fields terminated by '|'
    LOCATION 'oss://dw-emr-demo/ods_user_info_d/';
    
    ALTER TABLE ods_user_info_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}')
    LOCATION 'oss://dw-emr-demo/ods_user_info_d/user_${bizdate}/';
    説明

    上記のコードの LOCATION はサンプルパスです。バッチ同期ノードに設定した宛先パスと同じでなければなりません。dw-emr-demo を、環境準備中に作成した OSS バケットの名前に置き換えてください。

  2. デバッグパラメーターを設定します。

    右側のペインで [デバッグ設定] をクリックし、テスト実行のために次のパラメーターを設定します。

    パラメーター

    説明

    計算リソース

    EMR 計算リソース」を、事前準備 の手順で関連付けたものを選択します。

    リソースグループ

    事前準備」で購入したサーバーレスリソースグループを選択します。

    スクリプトパラメーター

    構成の設定は不要です。本チュートリアルのサンプルコードでは、${bizdate} をデータタイムスタンプを表す変数として使用しています。ノードのデバッグを行う際は、今回の実行で使用する値 に具体的な定数(例: 20250223)を設定してください。実行時に、この定数が変数の代わりに使用されます。

  3. 設定が完了したら、ノードを保存します。

ods_raw_log_d_emr テーブルの作成

  1. コードを開発します。

    ワークフローオーケストレーションページで、ods_raw_log_d_emr EMR Hive ノードにカーソルを合わせ、[ノードを開く] をクリックして EMR Hive ノード編集ページに移動します。次のサンプル SQL 文を入力します。

    -- OSS ログの宛先テーブルを作成します
    CREATE EXTERNAL TABLE IF NOT EXISTS ods_raw_log_d_emr
    (
      `col` STRING
    ) PARTITIONED BY (
      dt STRING
    );
    ALTER TABLE ods_raw_log_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}')
    LOCATION 'oss://dw-emr-demo/ods_raw_log_d/log_${bizdate}/';
    説明

    上記のコードの LOCATION はサンプルパスです。バッチ同期ノードに設定した宛先パスと同じでなければなりません。dw-emr-demo を、環境準備中に作成した OSS バケットの名前に置き換えてください。

  2. デバッグパラメーターを設定します。

    右側のペインで [デバッグ設定] をクリックし、テスト実行のために次のパラメーターを設定します。

    パラメーター

    説明

    計算リソース

    EMR 計算リソース を選択します。このリソースは、「事前準備」ステップで関連付け済みです。

    リソースグループ

    事前準備 で購入したサーバーレスリソースグループを選択します。

    スクリプトパラメーター

    構成の必要はありません。本チュートリアルのサンプルコードでは、データタイムスタンプを表すために ${bizdate} を使用しています。ノードのデバッグを行う際は、今回の実行で使用する値 に具体的な定数(例: 20250223)を設定してください。実行時に、この定数が変数として置き換えられます。

  3. ノードを保存します。

    設定が完了したら、ノードを保存します。

5. 同期ワークフローの実行

  1. ワークフロースケジュールを設定します。

    ワークフローオーケストレーションページの右側で [プロパティ] をクリックし、パラメーターを設定します。次の表では、主要なパラメーターのみを説明します。他のすべてのパラメーターにはデフォルト値を使用してください。

    スケジューリングパラメーター

    説明

    スケジューリングパラメーター

    ワークフロー内のすべてのノードで利用可能なスケジューリングパラメーターを設定します。本チュートリアルでは、前日の日付を取得するため、bizdate=$[yyyymmdd-1] を指定します。

    実行頻度

    本チュートリアルでは、実行頻度を 日単位 に設定します。

    開始時刻

    本チュートリアルでは、開始時刻00:30 に設定します。ワークフローは毎日 00:30 に開始されます。

    スケジューリング依存関係

    本ワークフローには上流の依存関係がありませんので、特別な設定は不要です。一元管理を目的として、ワークスペースルートノードを使用 をクリックし、ワークスペースルートノードを親依存関係として設定できます。

    ワークスペースルートノードの名前は、WorkspaceName_root の形式で付与されます。

  2. ワークフロースケジュールプロパティを設定した後、ワークフローキャンバスの上部にあるツールバーで [実行] をクリックします。この実行のパラメーター変数を設定します。このチュートリアルでは例として 20250223 を使用しますが、別の値を使用することもできます。[確認] をクリックし、実行が完了するのを待ちます。

    • ods_raw_log_d_emr および ods_user_info_d_emr ノードが image.png ステータスを示している場合、同期は成功です。

    • ods_raw_log_d_emr および ods_user_info_d_emr ノードが image ステータスを示し、java.net.ConnectException: Connection timed out (Connection timed out) エラーが表示された場合は、ECS コンソールでセキュリティグループルールを追加して ECS ポート 10000 を開く必要があります。承認オブジェクトをリソースグループの VPC の vSwitch CIDR ブロックに設定します。vSwitch CIDR ブロックは、リソースグループリストで対応するリソースグループの [ネットワーク設定] をクリックすることで取得できます。セキュリティグループルールの追加方法の詳細については、「セキュリティグループルールの追加」をご参照ください。

説明

データ同期には約 24 分かかります。

6. データ同期の検証

  1. DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で [ショートカット] > [Data Studio] を選択します。

  2. Data Studio ページで、image アイコンをクリックしてデータ開発に入り、ナビゲーションウィンドウで [ワークスペースディレクトリ] セクションを見つけます。

  3. 作成した work ディレクトリを右クリックし、[ノードの作成...] > [EMR] > [EMR Hive] を選択します。EMR Hive ノードにカスタム名を入力し、Enter キーを押してノードを作成します。

    EMR Hive ノード編集ページで、your_data_timestamp をワークフロー実行のデータタイムスタンプに置き換えます。次のクエリを実行して、データが ods_raw_log_d_emr および ods_user_info_d_emr テーブルに正しくマッピングされていることを確認します。

    説明

    クエリのパーティション列は、データタイムスタンプに更新する必要があります。たとえば、ワークフローが 20250223 に実行された場合、データタイムスタンプは実行日の前日である 20250222 になります。

    SELECT * FROM ods_user_info_d_emr WHERE dt=your_data_timestamp; 
    SELECT * FROM ods_raw_log_d_emr WHERE dt=your_data_timestamp; 
    • 上記のコマンドがデータを返した場合、データ処理は完了しています。

    • データが返されない場合は、ワークフロー実行に設定された [今回の実行で使用する値] が、クエリで dt によって指定されたデータタイムスタンプと一致していることを確認してください。ワークフローをクリックし、右側のペインで [実行履歴] をクリックし、実行レコードの [アクション] 列で [表示] をクリックして、ワークフロー実行ログのデータタイムスタンプ値 (partition=[pt=xxx]) を確認できます。

次のステップ

データの同期が完了したので、次のチュートリアルに進んでデータの処理と分析方法を学びます。詳細については、「データの処理」をご参照ください。