Bangun Pipa Sinkronisasi Offline BigQuery di DataWorks - DataWorks

Sumber data BigQuery memungkinkan Anda membaca data dari BigQuery. Anda dapat mengonfigurasi tugas sinkronisasi data menggunakan Antarmuka tanpa kode atau editor kode. Topik ini menjelaskan fitur yang disediakan DataWorks untuk sinkronisasi data BigQuery.

Versi dan wilayah yang didukung

Versi SDK BigQuery adalah google-cloud-bigquery 2.29.0. Untuk informasi selengkapnya tentang fitur SDK, lihat dokumentasi resmi.
Anda dapat membuat sumber data BigQuery di wilayah berikut:
China (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia)

Tipe bidang yang didukung

Untuk informasi selengkapnya tentang tipe bidang BigQuery, lihat dokumentasi resmi BigQuery. Tabel berikut mencantumkan tipe bidang utama yang didukung.

Tipe BigQuery	Tipe Java
BOOL	Bool
INT64	Long
FLOAT64	BigDecimal
NUMERIC	BigDecimal
BIGNUMERIC	BigDecimal
STRING	String
BYTES	Bytes
STRUCT	String
ARRAY	String
TIMESTAMP	Date
DATE	Date
TIME	Date
DATETIME	Date
GEOGRAPHY	String
JSON	String
INTERVAL	String

Persiapan untuk sinkronisasi data

Sebelum melakukan sinkronisasi data di DataWorks, Anda harus menetapkan koneksi jaringan antara sumber data Anda dan serverless resource group atau grup sumber daya eksklusif untuk Integrasi Data agar kelompok sumber daya tersebut dapat mengakses sumber data melalui jaringan internal. Kami merekomendasikan penggunaan serverless resource group untuk sinkronisasi data. Untuk informasi tentang cara menetapkan koneksi jaringan, lihat Solusi konektivitas jaringan.

Tambahkan sumber data

Sebelum mengembangkan tugas sinkronisasi di DataWorks, Anda harus menambahkan sumber data yang diperlukan ke DataWorks dengan mengikuti petunjuk dalam Manajemen sumber data. Anda dapat melihat deskripsi parameter di Konsol DataWorks untuk memahami arti parameter saat menambahkan sumber data.

Daftar berikut menjelaskan item konfigurasi utama untuk sumber data BigQuery:

BigQuery Project ID: ID proyek di Google BigQuery.
Informasi otorisasi BigQuery: Unggah file autentikasi yang Anda peroleh dari Google Cloud.

Kembangkan tugas sinkronisasi data

Untuk informasi tentang titik masuk dan prosedur konfigurasi tugas sinkronisasi, lihat panduan konfigurasi berikut.

Panduan konfigurasi tugas sinkronisasi offline untuk satu tabel

Untuk informasi selengkapnya, lihat Konfigurasikan tugas di Antarmuka tanpa kode dan Konfigurasikan tugas di editor kode.
Untuk informasi tentang semua parameter dan contoh skrip untuk editor kode, lihat bagian Lampiran: Contoh skrip dan deskripsi parameter dalam topik ini.

Lampiran: Contoh skrip dan deskripsi parameter

Konfigurasikan tugas sinkronisasi batch menggunakan editor kode

Jika ingin mengonfigurasi tugas sinkronisasi batch menggunakan editor kode, Anda harus mengonfigurasi parameter terkait dalam skrip sesuai dengan persyaratan format skrip terpadu. Untuk informasi selengkapnya, lihat Konfigurasikan tugas di editor kode. Informasi berikut menjelaskan parameter yang harus Anda konfigurasi untuk sumber data saat mengonfigurasi tugas sinkronisasi batch menggunakan editor kode.

Contoh skrip Reader

{
  "stepType": "bigquery"
  "parameter":
  {
    "datasource":"bq_test1",
    "table": "partition_1107",
    "where": "xxx=3",
    "dataSet": "database_0724",
    "partition": [
      "_PARTITIONTIME='2023-11-07'"
     ],
    "column":
    [
      "id",
      "table_id",
      "table_no",
      "table_name",
      "table_status"
    ]
  },
  "name": "Reader",
  "category": "reader"
}

Parameter skrip Reader

Parameter	Deskripsi	Wajib	Nilai default
datasource	Nama sumber data. Di editor kode, nama ini harus sesuai dengan nama sumber data yang telah Anda tambahkan.	Ya	Tidak ada
dataset	Dataset BigQuery.	Ya	Tidak ada
table	Nama tabel yang ingin Anda sinkronkan.	Ya	Tidak ada
column	Kolom tempat Anda ingin membaca data. Pisahkan nama kolom dengan koma. Contoh: "column": ["id", "name", "age"].	Ya	Tidak ada
where	Kondisi filter. BigQuery Reader menggabungkan column, table, dan kondisi where yang ditentukan menjadi sebuah Pernyataan SQL dan mengekstraksi data berdasarkan pernyataan tersebut. Misalnya, untuk pengujian, Anda dapat mengatur kondisi where menjadi `LIMIT 10`. Dalam skenario bisnis umum, Anda mungkin ingin menyinkronkan data hari ini. Untuk melakukannya, Anda dapat mengatur kondisi where menjadi `gmt_create>$bizdate`. Kondisi where memungkinkan sinkronisasi data inkremental yang efisien. Jika Anda tidak mengonfigurasi parameter ini atau membiarkannya kosong, tidak ada data yang difilter.	Tidak	Tidak ada
partition	Informasi partisi. Gunakan parameter ini untuk menyinkronkan satu atau beberapa partisi tertentu.	Tidak	Tidak ada
splitPk	Parameter splitPk tidak berlaku jika Anda menentukan parameter partition. Jika Anda menentukan splitPk, sistem akan menggunakan bidang yang ditentukan untuk pemisahan data. Sistem sinkronisasi data menjalankan tugas konkuren untuk menyinkronkan data, sehingga meningkatkan efisiensi.	Tidak	Tidak ada