全部产品
Search
文档中心

DataWorks:BigQuery data source

更新时间:Jul 06, 2025

DataWorks menyediakan BigQuery Reader untuk membaca data dari sumber data BigQuery. Anda dapat mengonfigurasi tugas sinkronisasi menggunakan antarmuka tanpa kode (UI) atau editor kode. Topik ini menjelaskan cara menyinkronkan data dari sumber data BigQuery.

Versi BigQuery yang didukung dan wilayah yang didukung

  • BigQuery menggunakan SDK google-cloud-bigquery 2.29.0. Untuk informasi lebih lanjut tentang kemampuan SDK yang didukung oleh BigQuery, lihat dokumentasi resmi BigQuery.

  • Sumber data BigQuery didukung di wilayah berikut:

    Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

Pemetaan tipe data

Untuk informasi lebih lanjut tentang tipe data BigQuery, lihat dokumentasi resmi BigQuery. Tabel berikut memberikan status dukungan untuk tipe data utama di BigQuery.

Tipe data BigQuery

Tipe data Java

BOOL

Bool

INT64

Long

FLOAT64

BigDecimal

NUMERIC

BigDecimal

BIGNUMERIC

BigDecimal

STRING

String

BYTES

Bytes

STRUCT

String

ARRAY

String

TIMESTAMP

Date

DATE

Date

TIME

Date

DATETIME

Date

GEOGRAPHY

String

JSON

String

INTERVAL

String

Membangun koneksi jaringan antara sumber data BigQuery dan grup sumber daya eksklusif untuk Data Integration

Sebelum menggunakan sumber data BigQuery untuk sinkronisasi data di Data Integration, Anda harus membangun koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan sumber data agar grup sumber daya dapat mengakses sumber data melalui alamat jaringan internal. Untuk informasi lebih lanjut, lihat Membangun koneksi jaringan antara grup sumber daya dan sumber data.

Mengembangkan tugas sinkronisasi data

Untuk informasi tentang titik masuk dan prosedur konfigurasi tugas sinkronisasi data, lihat subbagian berikut. Untuk informasi tentang pengaturan parameter, lihat infotip setiap parameter pada tab konfigurasi tugas.

Menambahkan sumber data

Saat menambahkan sumber data BigQuery, Anda harus mengonfigurasi item berikut:

  • ID Proyek BigQuery: nama proyek BigQuery Google Cloud.

  • Otorisasi dan autentikasi BigQuery: Anda harus mengunggah file autentikasi Google Cloud.

Mengonfigurasi tugas sinkronisasi batch untuk menyinkronkan data tabel tunggal

Lampiran: Kode dan parameter

Mengonfigurasi tugas sinkronisasi batch menggunakan editor kode

Jika menggunakan editor kode untuk mengonfigurasi tugas sinkronisasi batch, Anda harus mengonfigurasi parameter pembaca sumber data terkait sesuai dengan persyaratan format di editor kode. Untuk informasi lebih lanjut tentang persyaratan format, lihat Mengonfigurasi tugas sinkronisasi batch menggunakan editor kode. Informasi berikut menjelaskan detail konfigurasi parameter untuk pembaca di editor kode.

Kode untuk BigQuery Reader

{
  "stepType": "bigquery"
  "parameter":
  {
    "datasource":"bq_test1",
    "table": "partition_1107",
    "where": "xxx=3",
    "dataSet": "database_0724",
    "partition": [
      "_PARTITIONTIME='2023-11-07'"
     ],
    "column":
    [
      "id",
      "table_id",
      "table_no",
      "table_name",
      "table_status"
    ]
  },
  "name": "Reader",
  "category": "reader"
}

Parameter dalam kode untuk BigQuery Reader

Parameter

Deskripsi

Diperlukan

Nilai default

datasource

Nama sumber data. Harus sama dengan nama sumber data yang ditambahkan. Anda dapat menambahkan sumber data menggunakan editor kode.

Ya

Tidak ada nilai default

dataset

Dataset BigQuery.

Ya

Tidak ada nilai default

table

Nama tabel dari mana Anda ingin membaca data.

Ya

Tidak ada nilai default

column

Nama bidang dari mana Anda ingin membaca data. Pisahkan nama dengan koma (,), seperti "column": ["id", "name", "age"].

Ya

Tidak ada nilai default

where

Klausa WHERE digunakan untuk memfilter data. BigQuery Reader menggabungkan nilai parameter column, table, dan where untuk membentuk pernyataan SQL dan mengeksekusi pernyataan SQL untuk membaca data dari tabel sumber. Sebagai contoh, saat Anda melakukan tes, Anda dapat mengatur parameter where ke LIMIT 10.

Untuk membaca data yang dihasilkan pada hari saat ini, Anda dapat mengatur parameter where ke gmt_create>$bizdate.

  • Anda dapat menggunakan klausa WHERE untuk membaca data tambahan.

  • Jika parameter where tidak disediakan atau dibiarkan kosong, BigQuery Reader tidak akan memfilter data berdasarkan kondisi.

Tidak

Tidak ada nilai default

partition

Nama partisi dari mana Anda ingin membaca data. Anda dapat menentukan beberapa nama partisi sekaligus.

Tidak

Tidak ada nilai default

splitPk

Jika parameter partisi dikonfigurasi, parameter splitPk tidak berlaku. Jika Anda mengonfigurasi parameter splitPk, data dibagi berdasarkan bidang yang Anda tentukan dalam parameter splitPk. Data Integration kemudian menjalankan thread paralel untuk membaca data. Dengan cara ini, data dapat disinkronkan lebih efisien.

Tidak

Tidak ada nilai default