DataWorks で BigQuery オフライン同期パイプラインを構築 - DataWorks

BigQuery データソースを使用すると、BigQuery からデータを読み取ることができます。コードレス UI またはコードエディタを用いて、データ同期タスクを構成できます。本トピックでは、DataWorks が BigQuery データ同期に対して提供する特徴について説明します。

サポート対象のバージョンおよびリージョン

BigQuery SDK のバージョンは google-cloud-bigquery 2.29.0 です。SDK の機能について詳しくは、「公式ドキュメント」をご参照ください。
以下のリージョンで BigQuery データソースを作成できます：
中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア)

サポート対象のフィールド型

BigQuery のフィールド型の詳細については、「BigQuery 公式ドキュメント」をご参照ください。以下に、主なサポート対象フィールド型の一覧を示します。

BigQuery 型	Java 型
BOOL	Bool
INT64	Long
FLOAT64	BigDecimal
NUMERIC	BigDecimal
BIGNUMERIC	BigDecimal
STRING	String
BYTES	Bytes
STRUCT	String
ARRAY	String
TIMESTAMP	Date
DATE	Date
TIME	Date
DATETIME	Date
GEOGRAPHY	String
JSON	String
INTERVAL	String

データ同期の事前準備

DataWorks でデータ同期を実行する前に、データソースとサーバーレスリソースグループまたはデータ統合専用リソースグループの間でネットワーク接続を確立し、リソースグループが内部ネットワーク経由でデータソースにアクセスできるようにする必要があります。データ同期には、サーバーレスリソースグループの利用を推奨します。ネットワーク接続の確立方法については、「ネットワーク接続ソリューション」をご参照ください。

データソースの追加

DataWorks で同期タスクを開発する前に、データソース管理の手順に従って、必要なデータソースを DataWorks に追加する必要があります。データソースを追加する際に、DataWorks コンソールで パラメーターの説明を確認することで、各パラメーターの意味を理解できます。

以下に、BigQuery データソースの主な設定項目を示します：

BigQuery Project ID：Google BigQuery 内のプロジェクトの ID です。
BigQuery 権限付与情報：Google Cloud から取得した認証ファイルをアップロードします。

データ同期タスクの開発

同期タスクの設定入口および設定手順については、以下の構成ガイドをご参照ください。

単一テーブル向けオフライン同期タスクの構成ガイド

詳細については、「コードレス UI によるタスク構成」および「コードエディタによるタスク構成」をご参照ください。
コードエディタ向けの全パラメーターおよびスクリプト例については、本トピックの「付録：スクリプト例およびパラメーターの説明」セクションをご参照ください。

付録：スクリプト例およびパラメーターの説明

コードエディタを用いたバッチ同期タスクの構成

コードエディタを用いてバッチ同期タスクを構成する場合、統一されたスクリプトフォーマット要件に基づき、スクリプト内で関連パラメーターを設定する必要があります。詳細については、「コードエディタによるタスク構成」をご参照ください。以下に、コードエディタを用いてバッチ同期タスクを構成する際に、データソース向けに設定する必要があるパラメーターを示します。

Reader スクリプト例

{
  "stepType": "bigquery"
  "parameter":
  {
    "datasource":"bq_test1",
    "table": "partition_1107",
    "where": "xxx=3",
    "dataSet": "database_0724",
    "partition": [
      "_PARTITIONTIME='2023-11-07'"
     ],
    "column":
    [
      "id",
      "table_id",
      "table_no",
      "table_name",
      "table_status"
    ]
  },
  "name": "Reader",
  "category": "reader"
}

Reader スクリプトのパラメーター

パラメーター	説明	必須	デフォルト値
datasource	データソースの名称です。コードエディタでは、この名称を追加済みのデータソース名と一致させる必要があります。	はい	なし
dataset	BigQuery のデータセットです。	はい	なし
table	同期対象のテーブル名です。	はい	なし
column	データを読み取る対象カラムです。カラム名はカンマで区切ります。例："column": ["id", "name", "age"]。	はい	なし
where	フィルター条件です。BigQuery Reader は指定された column、table、および where 条件を組み合わせて SQL 文を生成し、その文に基づいてデータを抽出します。たとえば、テスト目的で where 条件を `LIMIT 10` と設定できます。一般的なビジネスシナリオでは、当日分のデータを同期することがあります。このような場合は、where 条件を `gmt_create>$bizdate` と設定します。 where 条件により、効率的な増分同期が可能になります。このパラメーターを設定しない、または空欄のままにした場合、データはフィルターされません。	いいえ	なし
partition	パーティション情報です。このパラメーターを用いて、1 つまたは複数の特定パーティションを同期できます。	いいえ	なし
splitPk	partition パラメーターを指定した場合、splitPk パラメーターは無効になります。また、splitPk を指定すると、システムは指定されたフィールドを用いてデータパーティションを実行します。データ同期システムは、同時実行タスクを起動してデータを同期し、処理効率を向上させます。	いいえ	なし