すべてのプロダクト
Search
ドキュメントセンター

DataWorks:LogHub (SLS) 単一テーブルの Data Lake Formation へのリアルタイム同期

最終更新日:Nov 09, 2025

Data Integration は、ETL を介して LogHub (SLS) や Kafka などのソースから Data Lake Formation への単一テーブルデータのリアルタイム同期をサポートします。このトピックでは、LogHub (SLS) から Data Lake Formation へ単一テーブルデータをリアルタイムで同期する方法について説明します。

制限事項

サーバーレスリソースグループ のみがサポートされています。

前提条件

手順

1. 同期タスクタイプを選択する

  1. Data Integration ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[Data Integration] > [Data Integration] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[Go To Data Integration] をクリックします。

  2. 左側のナビゲーションウィンドウで、[Sync Task] をクリックします。次に、ページ上部の [Create Sync Task] をクリックして、同期タスク作成ページに移動します。次の基本情報を設定します。

    • データソースと宛先: LogHubData Lake Formation

    • タスク名: 同期タスクのカスタム名を入力します。

    • 同期タイプ: Single Table Real-time

2. ネットワークとリソースを設定する

  1. [ネットワークとリソース] セクションで、同期タスクの [リソースグループ] を選択します。[タスクリソース使用量] に計算ユニット (CU) の数を割り当てることができます。

  2. [ソースデータソース] には、追加した LogHub データソースを選択します。[宛先データソース] には、追加した Data Lake Formation データソースを選択し、[接続性テスト] をクリックします。image

  3. ソースと宛先の両方のデータソースが正常に接続されたことを確認したら、[次へ] をクリックします。

3. 同期リンクを設定する

1. LogHub (SLS) ソースを設定する

ページ上部の SLS データソースをクリックして、[SLS ソース情報] を編集します。

image

  1. [SLS ソース情報] セクションで、同期したい LogHub (SLS) の Logstore を選択します。

    他のパラメーターはデフォルト値を保持するか、ビジネス要件に基づいて設定を変更します。

  2. 右上隅の [データサンプリング] をクリックします。

    表示されるダイアログボックスで、[開始時間][サンプル数] を指定し、[収集開始] ボタンをクリックします。Logstore 内のデータをサンプリングしてプレビューでき、これは後続のデータ処理ノードのデータプレビューと視覚的な設定のための入力となります。

  3. Logstore を選択すると、そのデータが [出力フィールド設定] セクションに自動的に読み込まれ、対応するフィールド名が生成されます。[データ型] の調整、フィールドの [削除]、および [出力フィールドの手動追加] が可能です。

    説明

    Simple Log Service データソースに設定またはフィールドが存在しない場合、宛先には NULL が書き込まれます。

2. データ処理ノードを編集する

image アイコンをクリックして、データ処理メソッドを追加できます。サポートされているデータ処理メソッドは、データマスキング文字列置換データフィルタリングJSON 解析、および フィールドの編集と値の割り当て です。ビジネス要件に基づいてデータ処理メソッドを配置できます。同期タスクが実行されると、指定した処理順序に基づいてデータが処理されます。

image

データ処理ノードの設定が完了したら、右上隅の [データ出力プレビュー] ボタンをクリックできます。表示されるダイアログボックスで [アップストリーム出力を再取得] をクリックして、現在のデータ処理ノードによって処理された後の Logstore サンプルデータの結果をシミュレートします。

image

説明

データ出力プレビューは、LogHub (SLS) ソースの [データサンプリング] に大きく依存します。データ出力プレビューを実行する前に、LogHub (SLS) ソースフォームでデータサンプリングを完了する必要があります。

3. Data Lake Formation 宛先情報を設定する

ページ上部の Data Lake Formation データ宛先をクリックして、Data Lake Formation 宛先情報を編集します。

image

  1. [Data Lake Formation 宛先情報] セクションで、データを書き込む Data Lake Formation テーブルについて、[テーブルを自動的に作成] するか [既存のテーブルを使用] するかを選択します。

    • テーブルを自動的に作成することを選択した場合、デフォルトでデータソーステーブルと同じ名前のテーブルが作成されます。宛先テーブル名は手動で変更できます。

    • 既存のテーブルを使用することを選択した場合、ドロップダウンリストからデータを同期したい宛先テーブルを選択します。

  2. (オプション) 宛先テーブルのスキーマを変更します。

    宛先テーブルパラメーターに [テーブルを自動的に作成] を選択した場合、[テーブルスキーマの編集] をクリックします。表示されるダイアログボックスで、自動的に作成される宛先テーブルのスキーマを編集します。また、[先祖ノードの出力列に基づいてテーブルスキーマを再生成] をクリックして、先祖ノードの出力列に基づいてスキーマを再生成することもできます。生成されたスキーマから列を選択し、その列をプライマリキーとして設定できます。

    説明

    宛先テーブルにはプライマリキーが必要です。そうでない場合、設定を保存できません。

  3. ソースのフィールドと宛先のフィールド間のマッピングを設定します。

    上記の設定が完了すると、システムは [同名マッピング] の原則に基づいて、ソースのフィールドと宛先のフィールド間のマッピングを自動的に確立します。ビジネス要件に基づいてマッピングを変更できます。ソースの 1 つのフィールドは、宛先の複数のフィールドにマッピングできます。ソースの複数のフィールドを宛先の同じフィールドにマッピングすることはできません。ソースのフィールドにマッピングされた宛先のフィールドがない場合、ソースのフィールドのデータは宛先に同期されません。

4. アラートルールを設定する

同期タスクの失敗がビジネスデータの同期に遅延を引き起こすのを防ぐために、同期タスクに異なるアラートルールを設定できます。

  1. ページの右上隅にある [アラートルールの設定] をクリックして、[アラートルールの設定] パネルに移動します。

  2. [アラートルールの設定] パネルで、[アラートルールの追加] をクリックします。[アラートルールの追加] ダイアログボックスで、パラメーターを設定してアラートルールを構成します。

    説明

    このステップで設定したアラートルールは、同期タスクによって生成されるリアルタイム同期サブタスクに対して有効になります。同期タスクの設定が完了した後、「リアルタイム同期タスクの管理」を参照してリアルタイム同期タスクページに移動し、リアルタイム同期サブタスクに設定されたアラートルールを変更できます。

  3. アラートルールを管理します。

    作成されたアラートルールを有効または無効にできます。また、アラートの重大度レベルに基づいて、異なるアラート受信者を指定することもできます。

5. 詳細パラメーターを設定する

DataWorks では、特定のパラメーターの設定を変更できます。ビジネス要件に基づいてこれらのパラメーターの値を変更できます。

説明

予期しないエラーやデータ品質の問題を防ぐために、パラメーターの値を変更する前に、パラメーターの意味を理解することをお勧めします。

  1. 設定ページの右上隅にある [詳細パラメーターの設定] をクリックします。

  2. [詳細パラメーターの設定] パネルで、目的のパラメーターの値を変更します。

6. リソースグループを設定する

ページの右上隅にある [リソースグループの設定] をクリックして、現在の同期タスクの実行に使用されるリソースグループを表示および変更できます。

7. 同期タスクのテストを実行する

上記の設定が完了したら、設定ページの右上隅にある [シミュレーション実行] をクリックして、同期タスクがサンプリングされたデータを宛先テーブルに同期できるようにします。同期結果は宛先テーブルで確認できます。同期タスクの特定の設定が無効である場合、テスト実行中に例外が発生した場合、またはダーティデータが生成された場合、システムはリアルタイムでエラーを報告します。これにより、同期タスクの設定を確認し、期待される結果が早期に得られるかどうかを判断できます。

  1. 表示されるダイアログボックスで、指定したテーブルからのデータサンプリングのパラメーターを設定します。これには [開始] および [サンプリングデータレコード] パラメーターが含まれます。

  2. [収集開始] をクリックして、同期タスクがソースからデータをサンプリングできるようにします。

  3. [プレビュー] をクリックして、同期タスクがサンプリングされたデータを宛先に同期できるようにします。

8. 同期タスクを実行する

  1. 同期タスクの設定が完了したら、ページ下部の [完了] をクリックします。

  2. [タスク] ページの [同期タスク] セクションで、作成した同期タスクを見つけ、[操作] 列の [開始] をクリックします。

  3. [タスク] セクションで同期タスクの [名前または ID] をクリックし、同期タスクの詳細な実行プロセスを表示します。

同期タスクの運用とメンテナンス

タスク実行ステータスの表示

同期タスクが作成された後、同期タスクページに移動して、ワークスペースで作成されたすべての同期タスクと各タスクの基本情報を表示できます。

image

  • [操作] 列で同期タスクを [開始] または [停止] できます。[その他] メニューでは、同期タスクの [編集][表示]、およびその他の操作を実行できます。

  • 開始されたタスクについては、[実行概要] で基本的な実行ステータスを確認したり、対応する概要エリアをクリックして実行詳細を表示したりできます。

image

LogHub (SLS) から Data Lake Formation への同期タスクは、[スキーマ移行][リアルタイムデータ同期] の 2 つのステップで構成されます。

  • スキーマ移行: 宛先テーブルの作成方法 (既存のテーブルまたは自動テーブル作成) が含まれます。自動テーブル作成が選択されている場合、テーブルを作成するための DDL が表示されます。

  • リアルタイムデータ同期: リアルタイム実行情報、DDL レコード、アラート情報など、リアルタイム同期の統計情報が含まれます。

同期タスクの再実行

特殊なケースで、同期するフィールド、宛先テーブルのフィールド、またはテーブル名情報を変更したい場合は、目的の同期タスクの [操作] 列にある [再実行] をクリックすることもできます。これにより、システムは宛先に行われた変更を同期します。すでに同期済みで変更されていないテーブルのデータは、再度同期されません。

  • 同期タスクの設定を変更せずに直接 [再実行] をクリックすると、システムが同期タスクを再実行します。

  • 同期タスクの設定を変更してから [完了] をクリックします。同期タスクの [操作] 列に表示される [更新を適用] をクリックして、最新の設定を有効にするために同期タスクを再実行します。