Data Integration は、安定性・効率性・スケーラビリティに優れたデータ同期プラットフォームであり、複雑なネットワーク環境下で異種データソース間のデータを高速に移動させます。
Chrome 69 以降を使用して PC から Data Integration にアクセスしてください。
仕組み
典型的な Data Integration ワークフローは、以下の 4 つのステージで構成されます。
接続:データソースを構成し、リソースグループをプロビジョニングして、両者の間にネットワーク接続を確立します。
開発:バッチ同期またはリアルタイム同期のいずれかの方法を選択し、リソースおよびタスクの構成を完了します。
テストと公開:データプレビューおよび試行実行を使用してデバッグを行います。デバッグが成功したら、タスクを送信して公開します。バッチタスクは本番環境に公開する必要があります。
運用:同期ステータスをモニタリングし、アラートを設定してリソースを最適化することで、ライフサイクル全体の管理を実現します。
同期方法
DataWorks Data Integration では、遅延、範囲、データポリシーという 3 つのディメンションに沿って同期方法を組み合わせることができます。各ソリューションおよび推奨事項の詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。
ディメンションの読み方:
遅延 — データ転送の頻度(スケジュールされたバッチ vs. 継続的なリアルタイム)
範囲 — 転送対象となるソースの量(単一テーブル、フルデータベース、またはシャードのマージ)
データポリシー — 転送対象となるレコード(全履歴、新規変更分のみ、または両方)
遅延
| 方法 | 説明 |
|---|---|
| バッチ | 定期タスク(毎時または毎日)を使用して、完全データまたは増分データを移行します。T+1 の ETL ワークロードなどの定期処理に適しています。 |
| リアルタイム | ストリーム処理エンジンを介して Change Data Capture (CDC) を使用し、ソースデータの変更をキャプチャすることで、数秒以内の同期遅延を実現します。 |
範囲
| 方法 | 説明 |
|---|---|
| 単一テーブル | フィールドマッピング、変換ルール、制御設定を詳細に指定しながら、1 回につき 1 つのテーブルを転送します。 |
| フルデータベース | 1 つのタスクで複数テーブルのスキーマおよびデータを移行します。自動テーブル作成をサポートしており、タスク数およびリソース消費を削減できます。 |
| シャーディング | 同一スキーマを持つ複数のソーステーブルからデータをマージし、1 つの送信先テーブルに統合します。シャーディングのルーティングルールを自動検出します。 |
データポリシー
| 方法 | 説明 |
|---|---|
| 完全 | 既存データを一度だけ移行します。通常、データウェアハウスの初期化やデータアーカイブに使用されます。 |
| 増分 | 新規または変更されたレコード(例:INSERT または UPDATE 操作)のみを転送します。データフィルタリング(バッチモード)または CDC ログ読み取り(リアルタイムモード)によって実装されます。 |
| 完全および増分 | 一度だけ完全同期を実行した後、自動的に増分同期に切り替えます。適時性スコアの要件に基づき、以下の 3 つのサブモードが利用可能です。 |
完全および増分のサブモード:
| サブモード | 動作内容 | 使用タイミング |
|---|---|---|
| バッチ | 一度だけ完全ロードを実行し、その後は定期的に増分同期を実行 | ソースに厳格な適時性スコアの要件がなく、有効な増分フィールド(例:modify_time)が存在する場合 |
| リアルタイム | 一度だけ完全ロードを実行し、その後はリアルタイム CDC 増分同期を実行 | データに高い適時性スコアが求められる場合。ソースがメッセージキューまたは CDC ログをサポートするデータベースである場合 |
| ニアリアルタイム | 一度だけベーステーブルに完全ロードを実行し、リアルタイムでログテーブルに増分データを書き込み、T+1 でログデータをベーステーブルにマージ | 送信先のフォーマットが更新または削除をサポートしていない場合(例:標準 MaxCompute テーブル) |
基本概念
以下の用語は、タスクの構成および運用の特定の段階で登場します。事前に理解しておくことで、構成ミスを防げます。
| 概念 | 意味 | 重要となる場面 |
|---|---|---|
| データ同期 | ソースからデータを読み取り、抽出およびフィルタリングを行い、送信先に書き込みます。Data Integration は、論理的な二次元テーブルスキーマに解析可能なデータの転送に特化しています。データストリームの消費や ETL 変換機能は提供しません。 | ステップ 1:接続 |
| データソース | DataWorks 内で外部システム(MaxCompute、MySQL、OSS など)向けに定義された標準化された接続構成です。タスクが再利用する保存済みの接続文字列と考えてください。 | ステップ 1:接続 |
| フィールドマッピング | どのソースフィールドを読み取り、どの送信先フィールドに書き込むかを定義します。ソースと送信先のフィールド間で型の不一致があると、タスクが失敗したりダーティデータが発生したりするため、構成時に厳密な型互換性を確保してください。主なリスクは次のとおりです。型変換失敗 — フィールド型が不一致の場合(例:ソース側が String、送信先側が Integer)は、タスクが中断されたりダーティデータが発生したりします。精度または有効値範囲の損失 — 送信先フィールドの最大値がソースの最大値より小さい、または精度が低い場合、同期方法に関係なく書き込み失敗または精度の切り捨てが発生する可能性があります。 | ステップ 2:開発 |
| コンカレンシー | 同期タスクにおける並列読み取り/書き込みスレッドの最大数です。 | ステップ 2:開発 |
| レート制限 | 同期タスクの転送速度上限です。 | ステップ 2:開発 |
| ダーティデータ | 送信先への書き込みに失敗したレコード(例:VARCHAR 値を INT に変換できない場合)です。タスク構成でダーティデータのしきい値を設定してください。しきい値を超えるとタスクは失敗して終了します。すでに書き込まれたデータはロールバックされません。Data Integration はバッチ書き込みメカニズムを使用しており、バッチエラーが発生した場合のロールバック機能は送信先がトランザクションをサポートしているかどうかに依存します。Data Integration 自体はトランザクションをサポートしていません。 | ステップ 3:テストと公開 |
| データ整合性 | Data Integration は at-least-once 配信を保証します。exactly-once 配信はサポートされていないため、重複レコードが発生する可能性があります。プライマリキーおよび送信先の機能を利用して、一意性を保証してください。 | ステップ 4:運用 |
特徴
データエコシステムへの接続
Data Integration は、リレーショナルデータベース、ビッグデータストア、NoSQL データベース、メッセージキュー、ファイルストレージシステム、およびSaaS アプリケーションに接続できます。
クロスアカウント、クロスリージョン、ハイブリッドクラウド、オンプレミス環境においては、ネットワーク接続を構成し、インターネット、VPC、Express Connect、Cloud Enterprise Network (CEN) を経由してデータをルーティングします。
柔軟なデータ同期
バッチ同期:単一テーブル、フルデータベース、シャーディングの各シナリオに対応します。大規模な定期 ETL ロード向けに、データフィルタリング、列のプルーニング、変換ロジックをサポートします。
リアルタイム同期:MySQL、Oracle、Hologres などのソースからの変更をキャプチャし、数秒以内の遅延でリアルタイムデータウェアハウスまたはメッセージキューに書き込みます。
完全および増分同期:初期の完全ロードと継続的な増分同期(バッチ、リアルタイム、ニアリアルタイム)を組み合わせることで、データウェアハウスの初期構築および継続的な更新を簡素化します。
ワークロードに応じたスケーリング
サーバーレスリソースグループは、従量課金でオンデマンドにスケーリングし、トラフィックの変動に手動介入なしで対応します。並列度制御、レート制限、ダーティデータ処理、分散処理により、さまざまな負荷下でも同期を安定的に維持します。
低コストでの開発および運用
コーディレスのビジュアルインターフェイスで、ほとんどの同期タスク構成に対応できます。パラメーター化や動的カラムマッピングなどの高度な要件には JSON スクリプトエディタを使用します。バッチ同期タスクは有向非循環グラフ (DAG) ワークフローに統合され、スケジューリングオーケストレーション、モニタリング、アラート機能を提供します。
アクセス制御とデータ保護
統一されたデータソース管理センターにより、権限制御が可能となり、開発環境と本番環境が分離されます。Resource Access Management (RAM) によるロールベース認証でアクセスの制御を実現します。データマスキングも利用可能です。
課金
Data Integration のコストは、以下の 3 つの要素から構成されます。
リソースグループ料金:リソースグループの使用量に基づいて課金されます。すべてのタスクにはリソースグループが必要です。
スケジューリング料金:特定のバッチ同期タスクおよびフルデータベースバッチタスクに適用されます。
データ転送料金:データがインターネットを越える際に発生します。
詳細な内訳については、「Core billing scenarios」をご参照ください。
ネットワーク接続
Data Integration タスクはすべて、データソースとリソースグループの間に正常なネットワーク接続が必要です。この接続が確立できない場合、タスクは失敗します。

Data Integration は、以下の環境間での同期をサポートします。
異なる Alibaba Cloud アカウントまたはリージョン間
ハイブリッドクラウドとオンプレミスデータセンター
複数のネットワークチャネル:インターネット、VPC、Express Connect、CEN
構成の詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。
次のステップ
Data Integration または Data Studio でデータソースを構成し、同期タスクを作成します。