Data Integration の概要、Data Integration の機能 - DataWorks - Alibaba Cloud ドキュメントセンター

Data Integration は、安定、高効率、弾性スケーリングが可能なデータ同期プラットフォームです。複雑なネットワーク環境において、異種データソース間で高い信頼性でデータを高速に移行および同期します。

プロセス

重要

Data Integration には、デスクトップコンピューターから、Google Chrome バージョン 69 以降を使用してアクセスしてください。

Data Integration の一般的な開発ワークフローは次のとおりです。

データソースを設定し、リソースグループを準備し、データソースとリソースグループ間のネットワーク接続を確立します。
ユースケースに基づいてバッチまたはリアルタイムの同期タイプを選択し、UI ガイドに従ってリソースとタスクの設定を完了します。
データプレビューと試行実行を使用してタスクをデバッグします。デバッグが成功したら、タスクを送信してデプロイします。
これにより継続的な運用保守フェーズが開始され、同期ステータスの監視、アラートの設定、リソースの最適化を行い、完全な管理サイクルを形成します。

従来のフォームベースの設定の代わりに AI を活用した対話を使用して Data Integration タスクを作成し、ワークフロー全体でインテリジェントな運用保守を実行できるよう、DataWorks は Data Integration AI ネイティブ機能 (DI Agent) も提供しています。これは、自然言語での対話によるタスク作成、インテリジェントな診断、および定期的な検査をサポートします。詳細については、「Data Integration DI Agent」をご参照ください。

同期方法

DataWorks の Data Integration は、レイテンシー、範囲、データポリシーの 3 つのディメンションを組み合わせた同期方法を提供します。詳細な説明と推奨事項については、「サポートされているデータソースと同期ソリューション」をご参照ください。

レイテンシー：バッチまたはリアルタイム。バッチ同期は、定期的なスケジューリングを使用して、時間単位または日単位でデータを移行します。リアルタイム同期は、変更データキャプチャ (CDC) を通じてソースデータの変更をキャプチャし、秒レベルのレイテンシーを実現します。
範囲：単一テーブル、全データベース、またはシャーディング。単一テーブルのきめ細かい転送、およびデータベース全体またはシャーディングされたデータベースの一括移行とマージをサポートします。
データポリシー：完全、増分、または完全と増分。完全移行では、すべての履歴データを移行します。増分同期では、新規または変更されたデータのみを処理します。完全と増分モードは両方を組み合わせたもので、データソースの特性とレイテンシー要件に基づいて、バッチ、リアルタイム、およびニアリアルタイムの実装を提供します。

方法	説明
バッチ	時間単位または日単位のタスクによる定期的なバッチスケジューリング機能を使用して、ソースデータの完全または増分移行を宛先に実行します。
リアルタイム	ストリーミング処理エンジンを使用して、ソースデータの変更をリアルタイムでキャプチャ (CDC ログ) し、秒レベルのレイテンシーでデータ同期を実現します。
単一テーブル	単一テーブルのデータを転送し、きめ細かいフィールドマッピング、変換ルール、および制御設定をサポートします。
全データベース	ソースデータベースインスタンス内の複数のテーブルからテーブルスキーマとデータを 1 回の操作で宛先に移行し、自動テーブル作成をサポートします。1 つのタスクで複数のテーブルを同期できるため、タスク数とリソース消費を削減できます。
シャーディング	同じスキーマを共有する複数のソーステーブルからのデータを単一の宛先テーブルに書き込み、シャーディングルーティングルールを自動的に識別してデータをマージします。
完全	ソーステーブルからすべての履歴データを一度に移行します。通常、データウェアハウスの初期化やデータアーカイブに使用されます。
増分	ソースから新規または変更されたデータ (`INSERT`/`UPDATE` など) のみを同期します。データ統合は、バッチ増分モードとリアルタイム増分モードの両方をサポートしており、これらはそれぞれデータフィルター (増分条件) の設定と、ソースからの CDC データの読み取りによって実装されます。
完全と増分	履歴データの完全同期を 1 回実行し、その後自動的に増分データの書き込みに移行します。Data Integration は、さまざまなシナリオで完全と増分の同期をサポートします。ソースと宛先のデータソースの特性とレイテンシー要件に基づいて、適切なオプションを選択してください。バッチシナリオ： 1 回の完全同期の後、定期的な増分同期を行います。データの適時性に関する要件が高くなく、ソーステーブルに適切な増分フィールド (modify_time など) があるデータソースに適しています。リアルタイムシナリオ： 1 回の完全同期の後、リアルタイムの増分同期を行います。データの適時性に関する要件が高く、ソースがメッセージキューまたは CDC ログをサポートするデータベースであるシナリオに適しています。ニアリアルタイムシナリオ：ベーステーブルへの 1 回の完全同期と、ログテーブルへのリアルタイムの増分書き込みを行います。T+1 ベースで、ログテーブルのデータがベーステーブルにマージされます。ニアリアルタイムシナリオはリアルタイムシナリオを補完するものであり、通常の MaxCompute テーブルなど、更新や削除をサポートしない宛先テーブル形式に適しています。

基本的な概念

概念	説明
データ同期	データ同期とは、ソースからデータを読み取り、抽出とフィルタリングを行い、そのデータを宛先に書き込むことを指します。Data Integration は、論理的な 2 次元のテーブル構造に抽象化できるデータの転送に焦点を当てています。データストリームの消費や ETL 変換機能は提供しません。 Data Integration は、at-least-once (少なくとも 1 回) の配信保証のみをサポートします。exactly-once (厳密に 1 回) の配信はサポートされていません。これは、同期後に重複データが発生する可能性があることを意味します。データの重複排除を保証するには、プライマリキーと宛先の機能にのみ依存できます。
フィールドマッピング	フィールドマッピングは、同期タスクにおけるソースデータと宛先データの読み書きの対応関係を定義します。フィールドマッピングを設定する際は、ソースフィールドと宛先フィールドの型の互換性を慎重に確認し、ダーティデータを生成したりタスクの失敗を引き起こしたりする可能性のある変換エラーを回避してください。一般的なリスクは次のとおりです：型変換の失敗：ソースと宛先のフィールド型が一致しない場合 (例：ソースが `String` で宛先が `Integer`)、タスクの中断やダーティデータが直接発生します。精度と範囲の損失：宛先フィールド型の最大値がソースの最大値より小さい場合 (または最小値が大きい、あるいは精度が低い場合)、データの書き込み失敗や精度の切り捨てが発生する可能性があります。これは、双方のフィールド型や、同期がバッチかリアルタイムかに関わらず適用されます。
同時実行数	同時実行数とは、データ同期タスク中にデータストアへの読み書きを並行して実行できるスレッドの最大数です。
スロットリング	スロットリングとは、Data Integration の同期タスクが到達できる転送速度の上限です。
ダーティデータ	ダーティデータとは、無効、不正な形式、または同期例外が発生したデータを指します。単一のレコードが宛先に書き込めない場合、それはダーティデータとして分類されます (例：ソースの `VARCHAR` 型が宛先の `INT` 型に変換できない場合)。タスク設定でダーティデータの許容ポリシーを設定できます。しきい値を設定してダーティデータレコードの数を制限します。しきい値を超えると、タスクは失敗して終了します。ダーティデータが原因でタスクが失敗した場合、正常に書き込まれたデータはロールバックされません。Data Integration はバッチ書き込みメカニズムを使用します。失敗したバッチをロールバックできるかどうかは、宛先がトランザクションをサポートしているかどうかに依存します。Data Integration 自体はトランザクションをサポートしていません。
データソース	データソースとは、DataWorks において外部システムに接続するための標準化された設定単位です。MaxCompute、MySQL、OSS などのさまざまな異種データソースの事前設定された接続テンプレートを通じて、Data Integration タスクに統一された読み書きのエンドポイント定義を提供します。
データ一貫性	Data Integration は、at-least-once (少なくとも 1 回) の配信保証のみをサポートします。exactly-once (厳密に 1 回) の配信はサポートされていません。これは、同期後に重複データが発生する可能性があることを意味します。データの重複排除を保証するには、プライマリキーと宛先の機能にのみ依存できます。

機能とコアバリュー

DataWorks Data Integration の機能は、その広範な接続性、柔軟な同期方法、高性能、便利な開発と運用保守、および包括的なセキュリティ管理に表れています。

広範なデータエコシステム接続

データサイロを解消し、データの集約と移行を可能にします。

豊富なデータソースサポート：リレーショナルデータベース、ビッグデータストレージシステム、NoSQL データベース、メッセージキュー、ファイルストレージサービス、SaaS アプリケーションなど、広範なデータソースタイプをカバーします。
複雑なネットワークへの互換性：ネットワーク接続の設定を行うことで、インターネット、VPC、Express Connect、または Cloud Enterprise Network (CEN) を使用して、ハイブリッドクラウドやマルチクラウドアーキテクチャ間でのデータ転送を可能にします。

柔軟で多用途な同期方法

バッチからリアルタイム、単一テーブルから全データベース、完全から増分まで、さまざまな同期要件に対応します。

バッチ同期：単一テーブル、全データベース、シャーディングなど、さまざまなバッチ同期シナリオをサポートします。大規模な T+1 の定期的な ETL ロードのためのデータフィルタリング、列のプルーニング、および変換ロジックを提供します。
リアルタイム同期： MySQL、Oracle、Hologres などのデータソースからのデータ変更をニアリアルタイムでキャプチャし、リアルタイムデータウェアハウスやメッセージキューに書き込むことで、リアルタイムのビジネス意思決定をサポートします。
完全と増分の統合：バッチ全データベース、リアルタイム全データベース、および全データベースの完全と増分同期ソリューションを提供します。最初の実行で完全なデータ初期化を行い、その後の実行は自動的に増分同期に切り替わります。これにより、初期のデータロードと後続の更新プロセスが簡素化され、完全移行、増分キャプチャ、および完全から増分への自動移行機能が提供されます。

弾性スケーリングとパフォーマンス

適応型のリソーススケジューリングにより、コアビジネスオペレーション向けに高い信頼性のデータ転送を提供します。

弾性リソース：サーバーレスリソースグループは、オンデマンドの弾性スケーリングと従量課金制をサポートし、トラフィックの変動に効果的に対応します。
パフォーマンス管理：同時実行数制御、スロットリング、ダーティデータ処理、および分散処理をサポートし、さまざまなワークロード下での安定した同期を保証します。

ローコード開発とインテリジェントな運用保守

視覚的な設定と合理化されたワークフローにより、データ同期の開発の複雑さと運用保守コストを削減します。

ローコード開発：コードレス UI は視覚的な設定インターフェースを提供し、コードを書かずに簡単なポイントアンドクリック操作でほとんどの同期タスクを設定できます。コードエディターは、JSON スクリプトによる高度な設定をサポートし、パラメーター化や動的な列マッピングなどの複雑な要件に対応します。
フルスタックの運用保守：バッチ同期タスクは DAG ワークフローに統合でき、スケジューリングオーケストレーション、モニタリング、およびアラートをサポートします。

包括的なセキュリティ管理

多層的なセキュリティメカニズムを統合し、データフローのライフサイクル全体にわたってデータの制御性とコンプライアンスを保証します。

一元管理：統一されたデータソース管理センターで、データソースに対する権限制御と、開発環境と本番環境の分離をサポートします。
セキュリティ保護： RAM のアクセス制御に準拠し、ロールベースの認証とデータマスキングをサポートします。

課金

Data Integration タスクのコストには、主にリソースグループ料金、スケジューリング料金、およびパブリックネットワークトラフィック料金が含まれます。Data Integration タスクはリソースグループに依存し、コストはリソースグループごとに請求されます。一部のバッチ同期タスクおよび全データベースのバッチ同期タスクには、スケジュール実行が含まれ、スケジューリング料金が発生します。データソースがインターネット経由でデータを転送する場合、パブリックネットワークトラフィック料金も発生します。課金の詳細については、「コア課金シナリオ」をご参照ください。

ネットワーク接続

データソースとリソースグループ間のネットワーク接続は、Data Integration タスクを正常に実行するための前提条件です。両者間のネットワーク接続を確保する必要があります。さもないと、タスクは必然的に失敗します。

Data Integration は、以下のような複雑なネットワーク環境における異種データソース間のデータ同期をサポートします。

Alibaba Cloud アカウントまたはリージョン間でのデータ同期。
ハイブリッドクラウドとオンプレミス IDC の接続。
インターネット、VPC、CEN などの複数のネットワークチャネル設定。

詳細なネットワーク設定ソリューションについては、「ネットワーク接続ソリューションの概要」をご参照ください。

DataWorks:概要