このトピックでは、Simple Log Service Logstore から Data Lake Formation (DLF) にデータをリアルタイムで同期する方法について説明します。
制限事項
サーバーレス リソースグループのみがサポートされています。 サーバーレス リソースグループの詳細については、「サーバーレス リソースグループの使用」ディレクトリのトピックをご参照ください。
前提条件
Simple Log Service データソースが追加されていること。 詳細については、「Simple Log Service データソース」をご参照ください。
DLF データソースが追加されていること。 詳細については、「DLF データソース」をご参照ください。
サーバーレス リソースグループが作成され、リソースグループとデータソース間のネットワーク接続が確立されていること。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
同期タスクの作成
同期タスクを作成します。
Data Integration ページに移動します。
DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、 を選択します。 表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[Data Integration に移動] をクリックします。
[同期タスク] ページで、[ソース] ドロップダウンリストから LogHub を選択し、[接続先] ドロップダウンリストから Data Lake Formation (DLF) を選択し、[同期タスクの作成] をクリックします。
同期タスクの基本情報とネットワーク設定を構成します。
基本設定セクションで、基本情報を構成します。
[ソースと接続先]: ソースタイプとして LogHub を選択し、接続先タイプとして Data Lake Formation (DLF) を選択します。
[新しいノード名]: ビジネス要件に基づいて同期タスクの名前を指定します。
[同期方法]: 単一 Logstore リアルタイム同期を選択します。
[同期モード]: 構造移行と増分同期はデフォルトで選択されており、クリアできません。
ネットワークとリソースの構成セクションで、データソースとリソースグループを構成し、ネットワーク接続をテストします。
[リソースグループ]: 準備したサーバーレス リソースグループを選択します。
[ソース]: 準備した Simple Log Service データソースを選択します。
[接続先]: 準備した DLF データソースを選択します。
上記の構成が完了したら、[接続テスト] をクリックして、リソースグループとデータソース間のネットワーク接続をテストします。
ネットワーク接続テストが成功したら、[次へ] をクリックします。
ソースを構成します。
表示されるページの上部にあるウィザードで、SLS をクリックしてソースに関する情報を構成します。
データを同期する Logstore を選択します。
[Logstore]: データを同期する Logstore を選択します。
[データサンプリング]: データサンプリングをクリックします。 プレビューデータ出力ダイアログボックスで、開始時刻とサンプリングデータレコード パラメーターを構成し、収集開始をクリックしてシステムが Logstore からデータを収集できるようにしてから、表示されるログ情報をプレビューします。
出力フィールドを構成します。
Logstore を選択すると、システムは Logstore 内のデータを自動的にロードし、データに基づいてフィールド名を生成します。 [出力フィールドのデータ型] を変更したり、[出力フィールドを削除] したり、[出力フィールドを手動で追加] したりできます。
説明Simple Log Service データソースに出力フィールドが存在しない場合、NULL が接続先に書き込まれます。
接続先を構成します。
表示されるページの上部にあるウィザードで、Data Lake Formation (DLF) をクリックして接続先に関する情報を構成します。
接続先の基本情報を構成します。
パラメーター
説明
[メタデータカタログ]
このパラメーターのデフォルト値は、DLF データソースを追加するときに構成される DLF カタログです。 デフォルト値は変更できません。
[書き込み形式]
このパラメーターのデフォルト値は、DLF データソースを追加するときに構成されるデータ形式です。 デフォルト値は変更できません。 例: PAIMON。
[接続先データベース]
このパラメーターのデフォルト値は、DLF データソースを追加するときに選択されるデータベースの名前です。 デフォルト値は変更できません。
[接続先テーブル]
接続先テーブルの生成方法。 有効な値: テーブルを自動的に作成、既存のテーブルを使用。
[テーブル名]
接続先テーブル パラメーターを [テーブルを自動的に作成] に設定すると、接続先テーブルが自動的に生成されます。 テーブルの名前またはスキーマを編集し、保存をクリックして変更を保存できます。 その後、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングをプレビューできます。
接続先テーブル パラメーターを [既存のテーブルを使用] に設定すると、テーブル名ドロップダウンリストからテーブル名を選択できます。 その後、テーブルスキーマの表示をクリックして、選択したテーブルに関する詳細なスキーマ情報を表示できます。 接続先テーブルを選択した後、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングをプレビューできます。
ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングを構成します。
変更されたテーブルスキーマを保存するか、接続先テーブル パラメーターを [既存のテーブルを使用] に設定すると、システムは同一名マッピングルールに基づいて、ソース Logstore のフィールドと接続先テーブルのフィールド間のマッピングを自動的に確立します。 ビジネス要件に基づいてマッピングを調整できます。 ソース Logstore の 1 つのフィールドは、接続先テーブルの複数のフィールドにマップできます。 ただし、ソース Logstore の複数のフィールドを接続先テーブルの 1 つのフィールドにマップすることはできません。 ソース Logstore のフィールドに接続先テーブルにマップされたフィールドがない場合、フィールド内のデータは接続先テーブルに書き込まれません。
上記の構成が完了したら、[シミュレート実行] をクリックします。 プレビューデータ出力ダイアログボックスで、接続先テーブルに同期されるデータをプレビューします。
接続先テーブルに書き込めなかったデータがある場合は、プレビューデータ出力ダイアログボックスで書き込みエラーの原因を確認できます。 たとえば、データ型の変換に失敗した場合、データは接続先テーブルに書き込まれない可能性があります。
オプション。 詳細パラメーターを構成します。
構成ページの右上隅にある詳細パラメーターの構成をクリックします。 詳細パラメーターの構成パネルで、同期タスクの動作制御を実行するためのパラメーターを構成します。 システムは、同期タスクの構成に基づいて、詳細パラメーターのデフォルト値を提供します。 また、ビジネス要件に基づいて詳細パラメーターの値を指定することもできます。 次の表に、詳細パラメーターを示します。
パラメーター
値の範囲
説明
[ランタイム パラメーターの自動構成]
デフォルト値: true
有効な値: true および false
このパラメーターを true に設定すると、システムは同期タスクの構成に基づいて、すべてのランタイム構成項目に値を自動的に割り当てます。
[ワーカー数]
最小値: 1
最大値: 100
同期タスクのために開始されるワーカーの総数。
[ワーカー同時実行数]
最小値: 1
最大値: 100
各ワーカーによって開始されるスレッドの数。
[フラッシュ間隔 (秒)]
デフォルト値: 60
最小値: 60
最大値: 180
データがフラッシュされる間隔。 単位: 秒。 値を大きくするとデータ同期の効率が向上しますが、接続先テーブルでのデータのレイテンシも増加します。
[フェールオーバー再起動戦略におけるエラー数のしきい値]
デフォルト値: 3
最小値: 1
最大値: 100
フェールオーバー発生後に同期タスクを再起動するために許容される最大エラー数。
[フェールオーバー再起動戦略 タイムウィンドウ (分)]
デフォルト値: 30
最小値: 1
最大値: 60
フェールオーバー発生後に同期タスクを再起動するためのタイムウィンドウ。 単位: 分。
同期タスクで O&M 操作を実行する
同期タスクを開始する
同期タスクの構成が完了すると、[タスク] セクションの同期タスク ページに移動します。 同期タスクを見つけて、[アクション] 列の [開始] をクリックして同期タスクを開始できます。
同期タスクの実行ステータスを表示する
同期タスクの構成が完了すると、同期タスク ページのタスク セクションでタスクを見つけて、[タスク名] をクリックするか、[実行概要] 列に表示される各ステージの横にある空白領域をクリックして、同期タスクの実行の詳細を表示できます。 実行詳細ページには、同期タスクに関する次の情報が表示されます。
[基本情報]: データソースやリソースグループなど、同期タスクに関する基本情報を表示できます。
[実行ステータス]: 同期タスクには、スキーマ移行とリアルタイム同期のステージが含まれています。 各ステージでの同期タスクの実行ステータスを表示できます。
[詳細]: [スキーマ移行] タブと [リアルタイムデータ同期] タブで、スキーマ移行ステージとリアルタイム同期ステージでの同期タスクの詳細を表示できます。
[スキーマ移行]: このタブには、接続先テーブルが新しく作成されたテーブルか既存のテーブルかなどの情報が表示されます。 新しく作成されたテーブルの場合、テーブルの作成に使用される DDL 文が表示されます。
[リアルタイムデータ同期]: このタブには、リアルタイム同期の詳細、DDL レコード、アラート情報など、リアルタイム同期に関する統計が表示されます。
同期タスクを再実行する
データ同期タスクを直接再実行します。
同期タスク ページのタスク セクションで、同期タスクを見つけて、[アクション] 列の
を選択して、同期タスクの構成を変更せずに再実行します。同期タスクの構成を変更してから、同期タスクを再実行します。
同期タスク ページのタスク セクションで、同期タスクを見つけて、同期タスクの構成を変更し、[完了] をクリックします。 同期タスクの アクション 列に表示される [更新の適用] をクリックして、最新の構成を反映するために同期タスクを再実行します。