すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Simple Log Service Logstore から DLF へのリアルタイムデータ同期

最終更新日:Jun 04, 2025

このトピックでは、Simple Log Service Logstore から Data Lake Formation (DLF) にデータをリアルタイムで同期する方法について説明します。

制限事項

サーバーレス リソースグループのみがサポートされています。 サーバーレス リソースグループの詳細については、「サーバーレス リソースグループの使用」ディレクトリのトピックをご参照ください。

前提条件

  • Simple Log Service データソースが追加されていること。 詳細については、「Simple Log Service データソース」をご参照ください。

  • DLF データソースが追加されていること。 詳細については、「DLF データソース」をご参照ください。

  • サーバーレス リソースグループが作成され、リソースグループとデータソース間のネットワーク接続が確立されていること。 詳細については、「ネットワーク接続ソリューション」をご参照ください。

同期タスクの作成

  1. 同期タスクを作成します。

    1. Data Integration ページに移動します。

      DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、[Data Integration] > [データ統合] を選択します。 表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[Data Integration に移動] をクリックします。

    2. [同期タスク] ページで、[ソース] ドロップダウンリストから LogHub を選択し、[接続先] ドロップダウンリストから Data Lake Formation (DLF) を選択し、[同期タスクの作成] をクリックします。

  2. 同期タスクの基本情報とネットワーク設定を構成します。

    1. 基本設定セクションで、基本情報を構成します。

      • [ソースと接続先]: ソースタイプとして LogHub を選択し、接続先タイプとして Data Lake Formation (DLF) を選択します。

      • [新しいノード名]: ビジネス要件に基づいて同期タスクの名前を指定します。

      • [同期方法]: 単一 Logstore リアルタイム同期を選択します。

      • [同期モード]: 構造移行と増分同期はデフォルトで選択されており、クリアできません。

    2. ネットワークとリソースの構成セクションで、データソースとリソースグループを構成し、ネットワーク接続をテストします。

      • [リソースグループ]: 準備したサーバーレス リソースグループを選択します。

      • [ソース]: 準備した Simple Log Service データソースを選択します。

      • [接続先]: 準備した DLF データソースを選択します。

      上記の構成が完了したら、[接続テスト] をクリックして、リソースグループとデータソース間のネットワーク接続をテストします。

      image

      ネットワーク接続テストが成功したら、[次へ] をクリックします。

  3. ソースを構成します。

    表示されるページの上部にあるウィザードで、SLS をクリックしてソースに関する情報を構成します。

    image

    1. データを同期する Logstore を選択します。

      • [Logstore]: データを同期する Logstore を選択します。

      • [データサンプリング]: データサンプリングをクリックします。 プレビューデータ出力ダイアログボックスで、開始時刻とサンプリングデータレコード パラメーターを構成し、収集開始をクリックしてシステムが Logstore からデータを収集できるようにしてから、表示されるログ情報をプレビューします。

        image

    2. 出力フィールドを構成します。

      Logstore を選択すると、システムは Logstore 内のデータを自動的にロードし、データに基づいてフィールド名を生成します。 [出力フィールドのデータ型] を変更したり、[出力フィールドを削除] したり、[出力フィールドを手動で追加] したりできます。

      説明

      Simple Log Service データソースに出力フィールドが存在しない場合、NULL が接続先に書き込まれます。

  4. 接続先を構成します。

    表示されるページの上部にあるウィザードで、Data Lake Formation (DLF) をクリックして接続先に関する情報を構成します。

    image

    1. 接続先の基本情報を構成します。

      パラメーター

      説明

      [メタデータカタログ]

      このパラメーターのデフォルト値は、DLF データソースを追加するときに構成される DLF カタログです。 デフォルト値は変更できません。

      [書き込み形式]

      このパラメーターのデフォルト値は、DLF データソースを追加するときに構成されるデータ形式です。 デフォルト値は変更できません。 例: PAIMON。

      [接続先データベース]

      このパラメーターのデフォルト値は、DLF データソースを追加するときに選択されるデータベースの名前です。 デフォルト値は変更できません。

      [接続先テーブル]

      接続先テーブルの生成方法。 有効な値: テーブルを自動的に作成、既存のテーブルを使用。

      [テーブル名]

      • 接続先テーブル パラメーターを [テーブルを自動的に作成] に設定すると、接続先テーブルが自動的に生成されます。 テーブルの名前またはスキーマを編集し、保存をクリックして変更を保存できます。 その後、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングをプレビューできます。

      • 接続先テーブル パラメーターを [既存のテーブルを使用] に設定すると、テーブル名ドロップダウンリストからテーブル名を選択できます。 その後、テーブルスキーマの表示をクリックして、選択したテーブルに関する詳細なスキーマ情報を表示できます。 接続先テーブルを選択した後、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングをプレビューできます。

    2. ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングを構成します。

      変更されたテーブルスキーマを保存するか、接続先テーブル パラメーターを [既存のテーブルを使用] に設定すると、システムは同一名マッピングルールに基づいて、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングを自動的に確立します。 ビジネス要件に基づいてマッピングを調整できます。 ソース Logstore の 1 つのフィールドは、接続先テーブルの複数のフィールドにマップできます。 ただし、ソース Logstore の複数のフィールドを接続先テーブルの 1 つのフィールドにマップすることはできません。 ソース Logstore のフィールドに接続先テーブルにマップされたフィールドがない場合、フィールド内のデータは接続先テーブルに書き込まれません。

    3. 上記の構成が完了したら、[シミュレート実行] をクリックします。 プレビューデータ出力ダイアログボックスで、接続先テーブルに同期されるデータをプレビューします。

      image接続先テーブルに書き込めなかったデータがある場合は、プレビューデータ出力ダイアログボックスで書き込みエラーの原因を確認できます。 たとえば、データ型の変換に失敗した場合、データは接続先テーブルに書き込まれない可能性があります。

  5. オプション。 詳細パラメーターを構成します。

    構成ページの右上隅にある詳細パラメーターの構成をクリックします。 詳細パラメーターの構成パネルで、同期タスクの動作制御を実行するためのパラメーターを構成します。 システムは、同期タスクの構成に基づいて、詳細パラメーターのデフォルト値を提供します。 また、ビジネス要件に基づいて詳細パラメーターの値を指定することもできます。 次の表に、詳細パラメーターを示します。

    パラメーター

    値の範囲

    説明

    [ランタイム パラメーターの自動構成]

    • デフォルト値: true

    • 有効な値: true および false

    このパラメーターを true に設定すると、システムは同期タスクの構成に基づいて、すべてのランタイム構成項目に値を自動的に割り当てます。

    [ワーカー数]

    • 最小値: 1

    • 最大値: 100

    同期タスクのために開始されるワーカーの総数。

    [ワーカー同時実行数]

    • 最小値: 1

    • 最大値: 100

    各ワーカーによって開始されるスレッドの数。

    [フラッシュ間隔 (秒)]

    • デフォルト値: 60

    • 最小値: 60

    • 最大値: 180

    データがフラッシュされる間隔。 単位: 秒。 値を大きくするとデータ同期の効率が向上しますが、接続先テーブルでのデータのレイテンシも増加します。

    [フェールオーバー再起動戦略におけるエラー数のしきい値]

    • デフォルト値: 3

    • 最小値: 1

    • 最大値: 100

    フェールオーバー発生後に同期タスクを再起動するために許容される最大エラー数。

    [フェールオーバー再起動戦略 タイムウィンドウ (分)]

    • デフォルト値: 30

    • 最小値: 1

    • 最大値: 60

    フェールオーバー発生後に同期タスクを再起動するためのタイムウィンドウ。 単位: 分。

同期タスクで O&M 操作を実行する

同期タスクを開始する

同期タスクの構成が完了すると、[タスク] セクションの同期タスク ページに移動します。 同期タスクを見つけて、[アクション] 列の [開始] をクリックして同期タスクを開始できます。

image

同期タスクの実行ステータスを表示する

同期タスクの構成が完了すると、同期タスク ページのタスク セクションでタスクを見つけて、[タスク名] をクリックするか、[実行概要] 列に表示される各ステージの横にある空白領域をクリックして、同期タスクの実行の詳細を表示できます。 実行詳細ページには、同期タスクに関する次の情報が表示されます。

  • [基本情報]: データソースやリソースグループなど、同期タスクに関する基本情報を表示できます。

  • [実行ステータス]: 同期タスクには、スキーマ移行とリアルタイム同期のステージが含まれています。 各ステージでの同期タスクの実行ステータスを表示できます。

  • [詳細]: [スキーマ移行] タブと [リアルタイムデータ同期] タブで、スキーマ移行ステージとリアルタイム同期ステージでの同期タスクの詳細を表示できます。

    • [スキーマ移行]: このタブには、接続先テーブルが新しく作成されたテーブルか既存のテーブルかなどの情報が表示されます。 新しく作成されたテーブルの場合、テーブルの作成に使用される DDL 文が表示されます。

    • [リアルタイムデータ同期]: このタブには、リアルタイム同期の詳細、DDL レコード、アラート情報など、リアルタイム同期に関する統計が表示されます。

同期タスクを再実行する

  • データ同期タスクを直接再実行します。

    同期タスク ページのタスク セクションで、同期タスクを見つけて、[アクション] 列の [詳細] > [再実行] を選択して、同期タスクの構成を変更せずに再実行します。

  • 同期タスクの構成を変更してから、同期タスクを再実行します。

    同期タスク ページのタスク セクションで、同期タスクを見つけて、同期タスクの構成を変更し、[完了] をクリックします。 同期タスクの アクション 列に表示される [更新の適用] をクリックして、最新の構成を反映するために同期タスクを再実行します。