DataWorks のデータ統合機能を使用して、他のデータソースから MaxCompute にバッチモードまたはリアルタイムモードでデータをインポートできます。一部の種類のローカルファイルもインポートできます。このトピックでは、DataWorks を使用して MaxCompute にデータをインポートする方法について説明します。
操作手順
MaxCompute プロジェクトとテーブルを作成します。このテーブルには、MaxCompute に同期するデータが格納されます。
データをインポートします。
ローカルファイルの MaxCompute へのインポート
DataWorks コンソールにログインし、左上のコーナーでリージョンを選択します。
左側のナビゲーションウィンドウで、 を選択します。
左側のナビゲーションウィンドウで、アップロードアイコン
をクリックし、次に [データのアップロード] をクリックします。画面の指示に従って、対象のデータをアップロードします。
[ローカルファイル] または [OSS] を使用して、
CSV、XLS、XLSX、およびJSONファイルを MaxCompute にインポートできます:ローカルファイル: 最大ファイルサイズは、
CSVファイルの場合は 5 GB、その他のファイルタイプの場合は 100 MB です。OSS: 現在の MaxCompute プロジェクトと同じリージョンにあるバケットからのみデータをアップロードできます。
詳細については、「データのアップロード」をご参照ください。
以前のバージョンの DataWorks ワークスペースでは、ローカルの CSV ファイルまたはカスタムテキストファイルを MaxCompute テーブルにアップロードできます。詳細については、「データのアップロード」をご参照ください。
他のデータソースから MaxCompute へのデータのインポート
DataWorks コンソールにログインし、左上のコーナーでリージョンを選択します。
左側のナビゲーションウィンドウで、 を選択します。
ワークスペースを選択する セクションで、[DataStudio へ移動] をクリックします。
[DataStudio] の左ペインで、
アイコンをクリックし、 または [リアルタイム同期]を選択します。バッチ同期ノード:データ宛先を MaxCompute に、データソースを別のデータソースに設定します。
リアルタイム同期ノード:出力は MaxCompute に、入力は別のデータソースに設定します。
詳細については、「コードレス UI でのノードの設定」、「コードエディタでのノードの設定」、および「DataStudio でのリアルタイム同期タスクの設定」をご参照ください。
DataWorks コンソールに戻ります。
左側のナビゲーションウィンドウで、 を選択します。
左側のナビゲーションウィンドウで [同期タスク] を選択し、[同期タスクの作成] をクリックして、[同期タスクの作成] ダイアログボックスでデータソース情報を設定します。
詳細については、「データベース全体のリアルタイム同期タスクの設定」をご参照ください。
データ統合の同期機能
DataWorks データ統合は、他のデータソースから MaxCompute へのデータ同期をサポートしています。たとえば、ApsaraDB RDS などのデータベースから MaxCompute にデータを同期できます。同期の原則とサポートされる機能は、シナリオによって異なります。
バッチ同期は、データソースからのデータの読み取りと書き込みを行うための Reader および Writer プラグインを提供します。
バッチインポートシナリオでは、各バッチ同期ノードは 1 つ以上のテーブルから単一の MaxCompute テーブルにデータをインポートできます。
リアルタイム同期は、さまざまな入力および出力データソースを組み合わせて同期リンクを作成することをサポートしています。このリンクは、単一のテーブルまたはデータベース全体に対してリアルタイムの増分同期を実行できます。
データ統合は、さまざまなデータソースが関わる多様なシナリオに対応する同期ソリューションも提供します。これらのソリューションは、データベース全体のバッチ同期や、完全および増分リアルタイム同期などのシナリオをサポートします。
次の表に、MaxCompute でサポートされているデータ同期機能を示します。
オフライン同期 | リアルタイム同期 | 同期ソリューション | |||||||
単一テーブルからの読み取り | 単一テーブルへの書き込み | 単一テーブルからの増分データの読み取り | 単一テーブルへの増分データの書き込み | データベース全体からの増分データの読み取り | データベース全体への増分データの書き込み | データベース全体からの読み取り (バッチ) | データベース全体への書き込み (バッチ) | 単一テーブル/データベース全体からの完全および増分データの読み取り (リアルタイム) | 単一テーブル/データベース全体への完全および増分データの書き込み (リアルタイム) |
|
| - |
| - |
| - |
| - |
|
DataWorks データ統合が MaxCompute に提供するデータ同期機能の詳細については、「MaxCompute データソース」をご参照ください。
課金
DataWorks データ統合を使用してデータ同期を行うには、データ統合リソースグループとスケジュールリソースグループを使用する必要があります。要件に応じて、共有または専用のリソースグループを使用できます。データがインターネット経由で転送される場合、データ転送コストが請求されることがあります。
データ統合リソースグループの課金の詳細については、「データ統合の専用リソースグループの課金:サブスクリプション」および「データ統合の共有リソースグループ (デバッグ) の課金:従量課金」をご参照ください。
データ転送コストの詳細については、「インターネットトラフィックの課金」をご参照ください。
スケジュールリソースグループの課金の詳細については、「スケジュールの専用リソースグループの課金:サブスクリプション」および「スケジュールの共有リソースグループの課金」をご参照ください。