Isi Ulang Data Historis dengan Menjalankan dan Memantau Instans Backfill - DataWorks

Saat melakukan pengisian ulang data (data backfill), Scheduling Parameters dalam kode Anda secara otomatis diganti dengan nilai spesifik berdasarkan Data Timestamp yang dipilih. Hal ini memastikan kode Anda menulis data ke partisi yang benar. Kode node Anda menentukan partisi target dan logika eksekusi.

Izin

Anda harus memiliki izin Action untuk semua node dalam alur kerja pengisian ulang data. Jika Anda tidak memiliki izin untuk salah satu node, konsekuensi berikut akan terjadi:

Tidak memiliki izin pada node target: Jika Anda tidak memiliki izin Action untuk Root Node atau salah satu Descendant Node-nya, pengisian ulang data tidak dapat dijalankan.
Tidak memiliki izin pada node perantara: Jika Anda tidak memiliki izin untuk node perantara (artinya baik Ancestor maupun Descendant Node-nya berada dalam cakupan pengisian ulang), sistem akan melakukan Dry Run pada node tersebut.
- Perilaku Dry Run: Saat node dimulai, logika komputasi aktual tidak dieksekusi. Sebaliknya, status Succeeded langsung dikembalikan untuk memastikan Descendant Node-nya dapat dipicu.
- Peringatan: Dry Run pada node perantara tidak menghasilkan data aktual. Hal ini dapat menyebabkan Descendant Node-nya gagal atau menghasilkan output yang salah karena input yang hilang. Lakukan dengan hati-hati.

Pertimbangan

Untuk memastikan stabilitas dan prediktabilitas operasi pengisian ulang data, baca dengan cermat aturan eksekusi berikut.

Siklus hidup instans dan retensi log

Pembersihan instans: Data Backfill Instances tidak dapat dihapus secara manual. Platform secara otomatis menghapusnya sekitar 30 hari setelah pembuatan. Jika suatu node tidak perlu lagi dijalankan, Anda dapat Freeze instans-nya untuk menghentikan penjadwalannya.

Kebijakan retensi: Periode retensi untuk instans dan log bervariasi berdasarkan tipe Resource Group.

Tipe kelompok sumber daya	Kebijakan retensi instans	Kebijakan retensi log
Shared Resource Group for Scheduling	30 hari	7 hari
Exclusive Resource Group for Scheduling	30 hari	30 hari
Serverless Resource Group	30 hari	30 hari

Pembersihan log besar: Untuk instans yang telah selesai, platform secara berkala melakukan purge terhadap log eksekusi yang melebihi 3 MB.

Aturan eksekusi instans

Ketergantungan harian ketat: Pengisian ulang data dilakukan secara serial berdasarkan Data Timestamp. Instans untuk suatu hari tidak akan dimulai hingga semua instans untuk hari sebelumnya berhasil. Jika ada instans yang gagal, hal ini akan memblokir semua instans untuk tanggal berikutnya.
Konkurensi untuk node per jam dan per menit: Saat Anda mengisi ulang data untuk semua instans suatu node pada hari tertentu, properti Self-dependency node tersebut menentukan metode eksekusinya:
- Self-dependency tidak diatur: Semua instans dalam satu hari (misalnya, 00:00, 01:00) dapat berjalan secara paralel, selama ketergantungan masing-masing Ancestor Node-nya terpenuhi.
- Self-dependency diatur: Semua instans dalam satu hari akan berjalan secara serial. Misalnya, instans pukul 01:00 akan menunggu instans pukul 00:00 berhasil sebelum dijalankan.
Konflik dengan Instans yang Dipicu Otomatis: Untuk melindungi jadwal reguler, Instans yang Dipicu Otomatis memiliki prioritas lebih tinggi daripada Instans Pengisian Ulang Data. Jika kedua jenis instans dijadwalkan berjalan pada waktu yang sama, Anda mungkin perlu secara manual menghentikan Instans Pengisian Ulang Data.
Penanganan node dalam blacklist: Jika suatu node dalam Blocklist merupakan node perantara dalam alur kerja pengisian ulang data, node tersebut akan melakukan Dry Run. Hal ini dapat memengaruhi output data dari Descendant Node-nya.

Sumber daya penjadwalan dan prioritas

Konfigurasi sumber daya: Jumlah besar Instans Pengisian Ulang Data atau tingkat paralelisme yang tinggi dapat mengonsumsi sumber daya penjadwalan secara signifikan, yang berpotensi memengaruhi operasi normal Instans yang Dipicu Otomatis. Konfigurasikan sumber daya sesuai kebutuhan Anda.
Kebijakan degradasi prioritas: Untuk melindungi operasi inti, platform secara dinamis menyesuaikan prioritas node berdasarkan Data Timestamp dari pengisian ulang:
- Mengisi ulang data untuk hari sebelumnya (T-1): Prioritas node tidak berubah dan ditentukan oleh prioritas baseline tempat node tersebut berada.
- Mengisi ulang data historis (T-2 atau lebih awal): Prioritas node secara otomatis diturunkan sesuai aturan berikut:
  - Prioritas 7 dan 8 diturunkan menjadi 3.
  - Prioritas 5 dan 3 diturunkan menjadi 2.
  - Prioritas 1 tidak berubah.

Buat Tugas Pengisian Ulang Data

Langkah 1: Buka halaman pengisian ulang data

Buka halaman Operation Center.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Operation Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Operation Center.
Di panel navigasi kiri, pilih O&M Assistant > Data Backfill untuk membuka halaman Data Backfill.

Catatan

Untuk mengisi ulang data untuk node yang dipicu otomatis tertentu, Anda juga dapat membuka halaman Auto Triggered Task O&M > Auto Triggered Nodes dan klik Backfill Data di kolom Actions untuk node tersebut.

Langkah 2: Buat tugas pengisian ulang data

Di halaman Data Backfill, klik Create Data Backfill Task dan konfigurasikan parameter sesuai kebutuhan.

Konfigurasi Basic Basic information.
Platform secara otomatis menghasilkan nama untuk Data Backfill Task. Anda dapat mengubah nama tersebut sesuai kebutuhan.

Pilih node untuk pengisian ulang data.

Anda dapat menggunakan salah satu metode berikut untuk memilih node yang memiliki izin untuk dioperasikan: Manually Select, Select by Link, Select by Workspace, atau Specify Task and All Descendant Tasks. Parameter konfigurasi berbeda untuk setiap metode.

Manually select

Pilih satu atau beberapa node sebagai root node, lalu pilih Descendant Node-nya untuk menentukan cakupan pengisian ulang data. Metode ini kompatibel dengan opsi pengisian ulang sebelumnya: Current Node, Current and Descendant Nodes, dan Advanced Mode.