MaxCompute Migration Service (MMS) を使用してデータを移行する前に、BigQuery データソースを追加して開始する必要があります。データソースと MMS サービス間のネットワーク接続が確保されていることを確認してください。その後、BigQuery のメタデータを MMS サービスと同期して、移行ジョブの設定を準備できます。
適用範囲
この機能は、シンガポールおよびインドネシア (ジャカルタ) リージョンでのみ利用可能です。
移行コスト
MMS を使用したデータ移行では、さまざまなリソースが消費され、コストが発生します。主なコストは次の表で説明します:
MMS 操作 | 課金項目 | 課金元 |
| 計算コスト:MaxCompute 上で Spark ジョブが生成され、計算リソースを消費します。 | Alibaba Cloud MaxCompute |
ソースデータのストレージ | ストレージコスト:Object Storage Service (OSS) や S3 などのオブジェクトストレージサービスを使用する場合、ソースが保存されているファイルにアクセスする際に発生します。 | BigQuery |
移行ジョブで検証の有効化が設定されている場合 | 計算コスト:Hive および MaxCompute で検証 SQL 文を実行することで発生します。 | Alibaba Cloud MaxCompute および BigQuery |
ネットワーク構成 | ネットワークコスト:
| 専用回線プロバイダーまたは Alibaba Cloud ネットワーク |
移行コストを削減するために、サブスクリプションの計算リソースと専用の Data Transmission Service リソースを使用して移行ジョブを実行することを推奨します。
操作手順
移行先の MaxCompute プロジェクトの事前準備が完了していることを確認してください。
ステップ 1:外部データソースの準備
ソースの BigQuery で、次の手順を実行します:
BigQuery のサービスアカウントを作成し、認証 JSON ファイルをダウンロードします。
BigQuery プロジェクトを作成します。BigQuery サービスアカウントに、プロジェクトのメタデータとデータを読み取るために必要な権限を付与します。
ステップ 2:データソースの追加
MaxCompute コンソールにログインし、左上隅でリージョンを選択します。
左側のナビゲーションウィンドウで、 を選択します。
データソース タブで、データソースの追加 をクリックします。
MaxComputeサービスの関連付けの役割 ダイアログボックスで、確認 をクリックしてロールを作成します。このダイアログボックスが表示されない場合は、ロールがすでに作成されていることを意味します。
データソースの追加 ページでデータソース情報を設定し、[追加] をクリックしてデータソースを作成します。
データソース基本情報
パラメーター
必須
説明
データソース名
はい
データソースの名前。名前はカスタマイズ可能で、特殊文字を含めることはできません。
データソースタイプ
はい
[BigQuery] を選択します。
ネットワーク接続
はい
使用するネットワーク接続を選択します。
ネットワーク接続は、MaxCompute コンソールの で作成されます。これらは、MMS と VPC 間の通信でデータソースに接続するために使用されます。
サービスアカウントキーファイル
はい
BigQuery サービスアカウントのキーファイルです。
サービスアカウントを作成し、BigQuery IAM コンソールから認証 JSON ファイルをダウンロードできます。詳細については、「サービスアカウントの概要」をご参照ください。
プロジェクト ID
はい
移行する BigQuery プロジェクトの名前です。
[デフォルトの移行先 MaxCompute プロジェクト]
はい
データ移行マッピングの移行先プロジェクト。この設定は変更できません。
転送先 MaxCompute プロジェクトリスト
いいえ
1 つのデータソースのデータを複数の移行先プロジェクトに移行する必要がある場合は、移行先 MaxCompute プロジェクトのリストを設定します。
移行ジョブ実行用の MaxCompute プロジェクト
はい
MaxCompute で Spark や SQL などの移行ジョブを実行するプロジェクト。このプロジェクトに関連付けられているデフォルトの計算クォータが使用されます。
その他情報
次のパラメーターはオプションです。必要に応じて設定できます。
パラメータ
説明
範囲パーティションテーブルの移行方法
BigQuery の範囲パーティションテーブルの移行方法を指定します。
デフォルト値は [パーティション] です。
クラスター
圧縮タイプ
BigQuery データの圧縮タイプを指定します。
BIGNUMERIC 型のデフォルト精度
BigQuery の BIGNUMERIC データ型の精度を指定します。デフォルト値は 38 です。
BIGNUMERIC 型のデフォルトスケール
BigQuery の BIGNUMERIC データ型の小数点以下の桁数を指定します。デフォルト値は 18 です。
MaxCompute 自動パーティション
自動パーティション分割を有効にするかどうかを指定します。この機能はサポートされていません。このパラメーターは無効のままにしてください。
Append 2.0 テーブルの使用を強制する
移行先テーブルで Append 2.0 を強制的に使用するかどうかを指定します。この機能はサポートされていません。このパラメーターは無効のままにしてください。
[BigQuery 実行プロジェクト]
BigQuery でジョブを実行するプロジェクトの名前を指定します。
スケジュールされたメタデータ更新
データソースからメタデータを定期的にプルするかどうかを指定します。有効な値:
有効:定期的なメタデータのプルを有効にします。更新サイクル を日次または時間単位に設定し、開始時間の更新 を設定できます。
毎日更新:タイマーは指定された時刻に 1 日 1 回実行されます。時刻は分単位で正確です。
1時間ごとに更新:タイマーは指定された分に毎時実行されます。
無効:オンデマンドでメタデータをプルします。
メタストアの同時アクセス数
MaxCompute メタストアにアクセスする同時リクエスト数を指定します。値を大きくすると、MaxCompute メタデータの取得速度が向上する可能性があります。
データセット ホワイトリスト
移行する BigQuery データベースを指定します。複数のデータベースはコンマ (,) で区切ります。
データセットブラックリスト
移行から除外する BigQuery データベースを指定します。複数のデータベースはコンマ (,) で区切ります。
テーブルブラックリスト
移行から除外する BigQuery テーブルを指定します。
dbname.tablenameのフォーマットを使用します。複数のテーブルはコンマ (,) で区切ります。テーブルホワイトリスト
移行する BigQuery テーブルを指定します。
dbname.tablenameのフォーマットを使用します。複数のテーブルはコンマ (,) で区切ります。同時データ移行タスクの最大数
必要に応じて設定を構成できます。
MaxCompute 移行タスクの SQL パラメーター
SQL パラメーターを指定します。詳細については、「フラグパラメーターリスト」をご参照ください。
テーブル名の文字マッピング
テーブル名の文字マッピングを指定します。たとえば、BigQuery テーブル名のハイフン (
-) を、対応する MaxCompute テーブル名のアンダースコア (_) にマッピングできます。
ステップ 3:メタデータの同期
データソースを開始すると、ジョブインスタンスが生成され、データソースを MMS サービスに接続し、ソースのメタデータをサービスと同期します。この同期は、後続の移行ジョブを設定するための前提条件です。
このジョブインスタンスは、計算リソースを 4 CU 消費します。データソースに対して保留中または実行中の移行ジョブやメタデータ同期ジョブがない場合、システムは自動的にデータソースをシャットダウンします。この場合、データソースを使用する前に再起動する必要があります。
データソース タブで、対象のデータソースを見つけ、操作 列の メタデータの更新 をクリックします。
データソース タブで、対象のデータソースの ステータス を表示できます。
データソースのメタデータが変更され、[メタデータの定期更新] 機能が有効になっている場合、システムは設定された時刻にメタデータを自動的に更新します。この場合、手動でメタデータを同期する必要はありません。
外部データソースを設定した後、移行ジョブを作成できます。