BigQuery データソースを使用すると、BigQuery からデータを読み取ることができます。コードレス UI またはコードエディタを用いて、データ同期タスクを構成できます。本トピックでは、DataWorks が BigQuery データ同期に対して提供する特徴について説明します。
サポート対象のバージョンおよびリージョン
BigQuery SDK のバージョンは
google-cloud-bigquery 2.29.0です。SDK の機能について詳しくは、「公式ドキュメント」をご参照ください。以下のリージョンで BigQuery データソースを作成できます:
中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア)
サポート対象のフィールド型
BigQuery のフィールド型の詳細については、「BigQuery 公式ドキュメント」をご参照ください。以下に、主なサポート対象フィールド型の一覧を示します。
BigQuery 型 | Java 型 |
BOOL | Bool |
INT64 | Long |
FLOAT64 | BigDecimal |
NUMERIC | BigDecimal |
BIGNUMERIC | BigDecimal |
STRING | String |
BYTES | Bytes |
STRUCT | String |
ARRAY | String |
TIMESTAMP | Date |
DATE | Date |
TIME | Date |
DATETIME | Date |
GEOGRAPHY | String |
JSON | String |
INTERVAL | String |
データ同期の事前準備
DataWorks でデータ同期を実行する前に、データソースと サーバーレスリソースグループ またはデータ統合専用リソースグループの間でネットワーク接続を確立し、リソースグループが内部ネットワーク経由でデータソースにアクセスできるようにする必要があります。データ同期には、サーバーレスリソースグループの利用を推奨します。ネットワーク接続の確立方法については、「ネットワーク接続ソリューション」をご参照ください。
データソースの追加
DataWorks で同期タスクを開発する前に、データソース管理 の手順に従って、必要なデータソースを DataWorks に追加する必要があります。データソースを追加する際に、DataWorks コンソールで パラメーターの説明を確認することで、各パラメーターの意味を理解できます。
以下に、BigQuery データソースの主な設定項目を示します:
BigQuery Project ID:Google BigQuery 内のプロジェクトの ID です。
BigQuery 権限付与情報:Google Cloud から取得した 認証ファイル をアップロードします。
データ同期タスクの開発
同期タスクの設定入口および設定手順については、以下の構成ガイドをご参照ください。
単一テーブル向けオフライン同期タスクの構成ガイド
詳細については、「コードレス UI によるタスク構成」および「コードエディタによるタスク構成」をご参照ください。
コードエディタ向けの全パラメーターおよびスクリプト例については、本トピックの「付録:スクリプト例およびパラメーターの説明」セクションをご参照ください。
付録:スクリプト例およびパラメーターの説明
コードエディタを用いたバッチ同期タスクの構成
コードエディタを用いてバッチ同期タスクを構成する場合、統一されたスクリプトフォーマット要件に基づき、スクリプト内で関連パラメーターを設定する必要があります。詳細については、「コードエディタによるタスク構成」をご参照ください。以下に、コードエディタを用いてバッチ同期タスクを構成する際に、データソース向けに設定する必要があるパラメーターを示します。
Reader スクリプト例
{
"stepType": "bigquery"
"parameter":
{
"datasource":"bq_test1",
"table": "partition_1107",
"where": "xxx=3",
"dataSet": "database_0724",
"partition": [
"_PARTITIONTIME='2023-11-07'"
],
"column":
[
"id",
"table_id",
"table_no",
"table_name",
"table_status"
]
},
"name": "Reader",
"category": "reader"
}Reader スクリプトのパラメーター
パラメーター | 説明 | 必須 | デフォルト値 |
datasource | データソースの名称です。コードエディタでは、この名称を追加済みのデータソース名と一致させる必要があります。 | はい | なし |
dataset | BigQuery のデータセットです。 | はい | なし |
table | 同期対象のテーブル名です。 | はい | なし |
column | データを読み取る対象カラムです。カラム名はカンマで区切ります。例:"column": ["id", "name", "age"]。 | はい | なし |
where | フィルター条件です。BigQuery Reader は指定された column、table、および where 条件を組み合わせて SQL 文を生成し、その文に基づいてデータを抽出します。たとえば、テスト目的で where 条件を 一般的なビジネスシナリオでは、当日分のデータを同期することがあります。このような場合は、where 条件を
| いいえ | なし |
partition | パーティション情報です。このパラメーターを用いて、1 つまたは複数の特定パーティションを同期できます。 | いいえ | なし |
splitPk | partition パラメーターを指定した場合、splitPk パラメーターは無効になります。また、splitPk を指定すると、システムは指定されたフィールドを用いてデータパーティションを実行します。データ同期システムは、同時実行タスクを起動してデータを同期し、処理効率を向上させます。 | いいえ | なし |