Sumber data BigQuery memungkinkan Anda membaca data dari BigQuery. Anda dapat mengonfigurasi tugas sinkronisasi data menggunakan Antarmuka tanpa kode atau editor kode. Topik ini menjelaskan fitur yang disediakan DataWorks untuk sinkronisasi data BigQuery.
Versi dan wilayah yang didukung
Versi SDK BigQuery adalah
google-cloud-bigquery 2.29.0. Untuk informasi selengkapnya tentang fitur SDK, lihat dokumentasi resmi.Anda dapat membuat sumber data BigQuery di wilayah berikut:
China (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia)
Tipe bidang yang didukung
Untuk informasi selengkapnya tentang tipe bidang BigQuery, lihat dokumentasi resmi BigQuery. Tabel berikut mencantumkan tipe bidang utama yang didukung.
Tipe BigQuery | Tipe Java |
BOOL | Bool |
INT64 | Long |
FLOAT64 | BigDecimal |
NUMERIC | BigDecimal |
BIGNUMERIC | BigDecimal |
STRING | String |
BYTES | Bytes |
STRUCT | String |
ARRAY | String |
TIMESTAMP | Date |
DATE | Date |
TIME | Date |
DATETIME | Date |
GEOGRAPHY | String |
JSON | String |
INTERVAL | String |
Persiapan untuk sinkronisasi data
Sebelum melakukan sinkronisasi data di DataWorks, Anda harus menetapkan koneksi jaringan antara sumber data Anda dan serverless resource group atau grup sumber daya eksklusif untuk Integrasi Data agar kelompok sumber daya tersebut dapat mengakses sumber data melalui jaringan internal. Kami merekomendasikan penggunaan serverless resource group untuk sinkronisasi data. Untuk informasi tentang cara menetapkan koneksi jaringan, lihat Solusi konektivitas jaringan.
Tambahkan sumber data
Sebelum mengembangkan tugas sinkronisasi di DataWorks, Anda harus menambahkan sumber data yang diperlukan ke DataWorks dengan mengikuti petunjuk dalam Manajemen sumber data. Anda dapat melihat deskripsi parameter di Konsol DataWorks untuk memahami arti parameter saat menambahkan sumber data.
Daftar berikut menjelaskan item konfigurasi utama untuk sumber data BigQuery:
BigQuery Project ID: ID proyek di Google BigQuery.
Informasi otorisasi BigQuery: Unggah file autentikasi yang Anda peroleh dari Google Cloud.
Kembangkan tugas sinkronisasi data
Untuk informasi tentang titik masuk dan prosedur konfigurasi tugas sinkronisasi, lihat panduan konfigurasi berikut.
Panduan konfigurasi tugas sinkronisasi offline untuk satu tabel
Untuk informasi selengkapnya, lihat Konfigurasikan tugas di Antarmuka tanpa kode dan Konfigurasikan tugas di editor kode.
Untuk informasi tentang semua parameter dan contoh skrip untuk editor kode, lihat bagian Lampiran: Contoh skrip dan deskripsi parameter dalam topik ini.
Lampiran: Contoh skrip dan deskripsi parameter
Konfigurasikan tugas sinkronisasi batch menggunakan editor kode
Jika ingin mengonfigurasi tugas sinkronisasi batch menggunakan editor kode, Anda harus mengonfigurasi parameter terkait dalam skrip sesuai dengan persyaratan format skrip terpadu. Untuk informasi selengkapnya, lihat Konfigurasikan tugas di editor kode. Informasi berikut menjelaskan parameter yang harus Anda konfigurasi untuk sumber data saat mengonfigurasi tugas sinkronisasi batch menggunakan editor kode.
Contoh skrip Reader
{
"stepType": "bigquery"
"parameter":
{
"datasource":"bq_test1",
"table": "partition_1107",
"where": "xxx=3",
"dataSet": "database_0724",
"partition": [
"_PARTITIONTIME='2023-11-07'"
],
"column":
[
"id",
"table_id",
"table_no",
"table_name",
"table_status"
]
},
"name": "Reader",
"category": "reader"
}Parameter skrip Reader
Parameter | Deskripsi | Wajib | Nilai default |
datasource | Nama sumber data. Di editor kode, nama ini harus sesuai dengan nama sumber data yang telah Anda tambahkan. | Ya | Tidak ada |
dataset | Dataset BigQuery. | Ya | Tidak ada |
table | Nama tabel yang ingin Anda sinkronkan. | Ya | Tidak ada |
column | Kolom tempat Anda ingin membaca data. Pisahkan nama kolom dengan koma. Contoh: "column": ["id", "name", "age"]. | Ya | Tidak ada |
where | Kondisi filter. BigQuery Reader menggabungkan column, table, dan kondisi where yang ditentukan menjadi sebuah Pernyataan SQL dan mengekstraksi data berdasarkan pernyataan tersebut. Misalnya, untuk pengujian, Anda dapat mengatur kondisi where menjadi Dalam skenario bisnis umum, Anda mungkin ingin menyinkronkan data hari ini. Untuk melakukannya, Anda dapat mengatur kondisi where menjadi
| Tidak | Tidak ada |
partition | Informasi partisi. Gunakan parameter ini untuk menyinkronkan satu atau beberapa partisi tertentu. | Tidak | Tidak ada |
splitPk | Parameter splitPk tidak berlaku jika Anda menentukan parameter partition. Jika Anda menentukan splitPk, sistem akan menggunakan bidang yang ditentukan untuk pemisahan data. Sistem sinkronisasi data menjalankan tugas konkuren untuk menyinkronkan data, sehingga meningkatkan efisiensi. | Tidak | Tidak ada |