DataWorks menyediakan BigQuery Reader untuk membaca data dari sumber data BigQuery. Anda dapat mengonfigurasi tugas sinkronisasi menggunakan antarmuka tanpa kode (UI) atau editor kode. Topik ini menjelaskan cara menyinkronkan data dari sumber data BigQuery.
Versi BigQuery yang didukung dan wilayah yang didukung
BigQuery menggunakan SDK
google-cloud-bigquery 2.29.0. Untuk informasi lebih lanjut tentang kemampuan SDK yang didukung oleh BigQuery, lihat dokumentasi resmi BigQuery.Sumber data BigQuery didukung di wilayah berikut:
Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).
Pemetaan tipe data
Untuk informasi lebih lanjut tentang tipe data BigQuery, lihat dokumentasi resmi BigQuery. Tabel berikut memberikan status dukungan untuk tipe data utama di BigQuery.
Tipe data BigQuery | Tipe data Java |
BOOL | Bool |
INT64 | Long |
FLOAT64 | BigDecimal |
NUMERIC | BigDecimal |
BIGNUMERIC | BigDecimal |
STRING | String |
BYTES | Bytes |
STRUCT | String |
ARRAY | String |
TIMESTAMP | Date |
DATE | Date |
TIME | Date |
DATETIME | Date |
GEOGRAPHY | String |
JSON | String |
INTERVAL | String |
Membangun koneksi jaringan antara sumber data BigQuery dan grup sumber daya eksklusif untuk Data Integration
Sebelum menggunakan sumber data BigQuery untuk sinkronisasi data di Data Integration, Anda harus membangun koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan sumber data agar grup sumber daya dapat mengakses sumber data melalui alamat jaringan internal. Untuk informasi lebih lanjut, lihat Membangun koneksi jaringan antara grup sumber daya dan sumber data.
Mengembangkan tugas sinkronisasi data
Untuk informasi tentang titik masuk dan prosedur konfigurasi tugas sinkronisasi data, lihat subbagian berikut. Untuk informasi tentang pengaturan parameter, lihat infotip setiap parameter pada tab konfigurasi tugas.
Menambahkan sumber data
Saat menambahkan sumber data BigQuery, Anda harus mengonfigurasi item berikut:
ID Proyek BigQuery: nama proyek BigQuery Google Cloud.
Otorisasi dan autentikasi BigQuery: Anda harus mengunggah file autentikasi Google Cloud.
Mengonfigurasi tugas sinkronisasi batch untuk menyinkronkan data tabel tunggal
Untuk informasi lebih lanjut tentang prosedur konfigurasi, lihat Mengonfigurasi tugas sinkronisasi batch menggunakan UI tanpa kode dan Mengonfigurasi tugas sinkronisasi batch menggunakan editor kode.
Untuk informasi tentang semua parameter yang dikonfigurasi dan kode yang dijalankan saat menggunakan editor kode untuk mengonfigurasi tugas sinkronisasi batch, lihat Lampiran: Kode dan Parameter.
Lampiran: Kode dan parameter
Mengonfigurasi tugas sinkronisasi batch menggunakan editor kode
Jika menggunakan editor kode untuk mengonfigurasi tugas sinkronisasi batch, Anda harus mengonfigurasi parameter pembaca sumber data terkait sesuai dengan persyaratan format di editor kode. Untuk informasi lebih lanjut tentang persyaratan format, lihat Mengonfigurasi tugas sinkronisasi batch menggunakan editor kode. Informasi berikut menjelaskan detail konfigurasi parameter untuk pembaca di editor kode.
Kode untuk BigQuery Reader
{
"stepType": "bigquery"
"parameter":
{
"datasource":"bq_test1",
"table": "partition_1107",
"where": "xxx=3",
"dataSet": "database_0724",
"partition": [
"_PARTITIONTIME='2023-11-07'"
],
"column":
[
"id",
"table_id",
"table_no",
"table_name",
"table_status"
]
},
"name": "Reader",
"category": "reader"
}Parameter dalam kode untuk BigQuery Reader
Parameter | Deskripsi | Diperlukan | Nilai default |
datasource | Nama sumber data. Harus sama dengan nama sumber data yang ditambahkan. Anda dapat menambahkan sumber data menggunakan editor kode. | Ya | Tidak ada nilai default |
dataset | Dataset BigQuery. | Ya | Tidak ada nilai default |
table | Nama tabel dari mana Anda ingin membaca data. | Ya | Tidak ada nilai default |
column | Nama bidang dari mana Anda ingin membaca data. Pisahkan nama dengan koma (,), seperti "column": ["id", "name", "age"]. | Ya | Tidak ada nilai default |
where | Klausa WHERE digunakan untuk memfilter data. BigQuery Reader menggabungkan nilai parameter column, table, dan where untuk membentuk pernyataan SQL dan mengeksekusi pernyataan SQL untuk membaca data dari tabel sumber. Sebagai contoh, saat Anda melakukan tes, Anda dapat mengatur parameter where ke Untuk membaca data yang dihasilkan pada hari saat ini, Anda dapat mengatur parameter where ke
| Tidak | Tidak ada nilai default |
partition | Nama partisi dari mana Anda ingin membaca data. Anda dapat menentukan beberapa nama partisi sekaligus. | Tidak | Tidak ada nilai default |
splitPk | Jika parameter partisi dikonfigurasi, parameter splitPk tidak berlaku. Jika Anda mengonfigurasi parameter splitPk, data dibagi berdasarkan bidang yang Anda tentukan dalam parameter splitPk. Data Integration kemudian menjalankan thread paralel untuk membaca data. Dengan cara ini, data dapat disinkronkan lebih efisien. | Tidak | Tidak ada nilai default |