All Products
Search
Document Center

DataWorks:O&M Otomatis

Last Updated:Mar 27, 2026

Operasi dan pemeliharaan (O&M) otomatis memungkinkan Anda menyandikan playbook respons insiden sebagai aturan yang dieksekusi secara otomatis. Ketika kondisi yang dikonfigurasi terpenuhi—misalnya, kelompok sumber daya mencapai ambang batas pemanfaatannya atau instans node gagal—DataWorks bertindak atas nama Anda tanpa memerlukan intervensi manual. Hal ini mengurangi panggilan darurat di luar jam kerja dan meningkatkan keandalan pipeline.

Cara kerja

O&M otomatis DataWorks mencakup dua skenario:

  • Menghentikan instans yang sedang berjalan: Ketika aturan peringatan kustom aktif pada grup sumber daya eksklusif untuk penjadwalan, DataWorks menghentikan instans node yang sesuai. Misalnya, jika pemanfaatan sumber daya mencapai 80% dan tetap pada level tersebut selama 10 menit, sistem secara otomatis menghentikan instans non-auto-triggered dengan prioritas 1 atau 3 pada grup sumber daya tersebut.

  • Automated rerun: Ketika instans node gagal tanpa properti jalankan ulang otomatis yang dikonfigurasi, atau mengalami timeout, DataWorks menjalankannya kembali berdasarkan aturan jalankan ulang otomatis. Aturan jalankan ulang hanya berlaku untuk node yang berjalan pada grup sumber daya serverless.

Kedua jenis aturan ini bersifat independen—aturan penghentian merespons tekanan sumber daya, sedangkan aturan jalankan ulang merespons kegagalan instans individual. Jika Anda menginginkan kedua perilaku tersebut, konfigurasikan kedua jenis aturan secara terpisah.

Batasan

Izin: Hanya Akun Alibaba Cloud, Pengguna RAM dengan kebijakan AliyunDataWorksFullAccess yang dilampirkan, dan administrator ruang kerja yang dapat mengelola aturan O&M otomatis.

Batasan grup sumber daya:

  • Aturan penghentian hanya berlaku untuk node yang berjalan pada grup sumber daya eksklusif untuk penjadwalan yang memiliki aturan peringatan pemanfaatan sumber daya yang dikonfigurasi.

  • Aturan jalankan ulang otomatis hanya berlaku untuk node yang berjalan pada grup sumber daya serverless.

Batasan fitur:

  • Beberapa aturan penghentian dapat dikaitkan dengan aturan peringatan yang sama.

  • Hanya satu aturan jalankan ulang otomatis yang dapat dibuat per ruang kerja.

  • Catatan eksekusi tersedia untuk 30 hari sebelumnya.

Akses halaman Automatic

  1. Masuk ke Konsol DataWorks. Pada bilah navigasi atas, pilih wilayah target. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Operation Center. Pilih ruang kerja Anda dari daftar tarik-turun, lalu klik Go to Operation Center.

  2. Di panel navigasi kiri, pilih O&M Assistant > Automatic.

Buat aturan

Di halaman Automatic O&M > Rules Management, Anda dapat membuat dua jenis aturan O&M otomatis:

Jenis aturanPemicuBerlaku untuk
Menghentikan instans yang sedang berjalanAturan peringatan aktif berdasarkan penggunaan grup sumber dayaNode pada grup sumber daya eksklusif untuk penjadwalan
Automatic rerunInstans node gagal atau mengalami timeoutNode pada grup sumber daya serverless

Setiap aturan memiliki kondisi pemicu yang menentukan kapan aturan tersebut aktif, kondisi filter yang menentukan cakupan instans yang dipengaruhi, dan batasan yang membatasi seberapa sering aturan tersebut dapat dieksekusi. Node dalam blacklist dikecualikan meskipun memenuhi semua kondisi lainnya.

Buat aturan penghentian

Aturan penghentian menghentikan instans yang sesuai dengan aturan peringatan kustom ketika aturan tersebut aktif. Jenis instans yang didukung: recurring instances, data backfill instances, test instances, one-time task instances, dan manually triggered workflow instances.

BagianParameterDeskripsi
Trigger conditionAssociated monitoring ruleAturan alert yang memicu aturan O&M ini. Hanya aturan alert dengan Object Type diatur ke Schedule Resource dan Trigger Condition diatur ke Resource Group Usage yang dapat dikaitkan. Lihat cara membuat aturan pemantauan.
Filter conditionsWorkspaceRuang kerja tempat aturan ini berlaku.
Instance typeTipe instans yang akan ditindaklanjuti.
Scheduling cycleFrekuensi penjadwalan yang harus sesuai. Wajib diisi ketika Instance Type bernilai Recurring Instance atau Data Backfill Instance.
PriorityPrioritas instans yang akan ditindaklanjuti. Nilai yang lebih tinggi menunjukkan prioritas yang lebih tinggi.
StatusStatus instans yang akan ditindaklanjuti.
BlacklistBlacklistNode yang memenuhi semua kondisi tetapi harus dikecualikan. Masukkan nama atau ID node untuk menambahkannya.
Constraints on ruleEffective periodRentang waktu selama aturan dapat dieksekusi. Instans di luar rentang ini tidak akan terpengaruh meskipun semua kondisi terpenuhi.
Maximum effective timesJumlah maksimum eksekusi aturan. Setiap eksekusi diperiksa terhadap trigger condition sebelum dijalankan.
Minimum effective intervalWaktu minimum antara eksekusi berturut-turut.

Buat aturan jalankan ulang otomatis

Aturan jalankan ulang otomatis mencoba kembali instans yang gagal secara otomatis. Aturan ini aktif ketika:

  • Instans node gagal dan properti jalankan ulang otomatis tidak dikonfigurasi pada tab Properties node tersebut.

  • Instans node mengalami timeout.

Jenis instans yang didukung: recurring instances, data backfill instances, test instances, one-time task instances, dan manually triggered workflow instances.

Cakupan instans yang diperiksa:

  • Recurring instances: Hanya instans dengan waktu data kemarin yang diperiksa. Misalnya, jika hari ini 5 Juni 2025, aturan memeriksa instans dengan waktu data 4 Juni 2025.

  • Jenis instans lainnya (data backfill, test, one-time task, manually triggered workflow): Instans yang dibuat hari ini, kemarin, dan dua hari lalu diperiksa. Misalnya, jika hari ini 5 Juni 2025, instans yang dibuat pada tanggal 3, 4, dan 5 Juni memenuhi syarat.

BagianParameterDeskripsi
Trigger conditionRunning statusAktif ketika instans node gagal tanpa properti jalankan ulang otomatis yang dikonfigurasi, atau ketika instans mengalami timeout.
Filter conditionsWorkspaceRuang kerja tempat aturan ini berlaku.
Instance typeJenis instans yang akan ditindaklanjuti.
Scheduling cycleFrekuensi penjadwalan yang harus dicocokkan. Tersedia ketika Instance Type adalah Recurring Instance atau Data Backfill Instance.
PriorityPrioritas instans yang akan ditindaklanjuti. Nilai yang lebih tinggi menunjukkan prioritas yang lebih tinggi.
Logs contain keywordsMemicu jalankan ulang ketika log operasi berisi kata kunci tertentu. Nilai yang valid: abnormal exit (proses node gagal dimulai atau keluar secara tak terduga) dan out of memory (node keluar karena memori tidak mencukupi). Kata kunci out of memory hanya didukung untuk node pada grup sumber daya serverless.
BlacklistBlacklistNode yang memenuhi semua kondisi tetapi harus dikecualikan. Masukkan nama atau ID node untuk menambahkannya.
RerunPreparationJika node adalah node komputasi pada grup sumber daya serverless, pilih Add CUs For Computing Tasks untuk mengalokasikan kapasitas komputasi tambahan untuk jalankan ulang.
CUs to addJumlah Computing Unit (CU) yang ditambahkan di atas alokasi instans asli. CU tambahan hanya digunakan untuk instans jalankan ulang. Atur nilai ini untuk mencegah jalankan ulang bersaing sumber daya dengan node lain yang sedang berjalan.
Rerun timesJumlah maksimum percobaan ulang. Nilai yang valid: 1–10.
Rerun intervalWaktu tunggu antar percobaan ulang. Nilai yang valid: 3–30 menit.
Constraints on ruleEffective periodJendela waktu selama aturan dapat dieksekusi. Instans di luar jendela ini tidak dijalankan ulang meskipun semua kondisi terpenuhi.

Aktifkan atau nonaktifkan aturan

Aturan langsung berlaku setelah dibuat. Untuk menonaktifkan aturan, klik ikon image di kolom Actions.

Operasi lainnya

Kelola aturan

  • Untuk melihat aturan, temukan di tab Rules Management dan klik View di kolom Actions.

  • Untuk mengedit aturan, buka dengan View lalu klik Modify di bagian bawah kotak dialog View Rule.

  • Untuk menghapus aturan, klik Delete di kolom Actions dan konfirmasi penghapusan.

  • Untuk mencari aturan berdasarkan nama, gunakan kotak pencarian di pojok kiri atas halaman Rules Management.

Lihat catatan eksekusi

Tab Execution Records menampilkan kapan setiap aturan dijalankan, pemilik aturan, dan berapa banyak instans node yang terpengaruh. Klik View Details di kolom Actions untuk melihat log eksekusi lengkap.

Catatan

Operasi O&M dijalankan menggunakan identitas pemilik aturan. Anda dapat melacak setiap tindakan otomatis dalam log operasi instans node yang memicu aturan tersebut.

Catatan eksekusi aturan penghentian mencakup:

  • Instances waiting for resources/resource usage: Grafik yang menampilkan jumlah instans yang menunggu sumber daya beserta pemanfaatan grup sumber daya dari waktu ke waktu. Arahkan kursor ke titik mana pun untuk melihat nilainya pada saat itu.

  • Terminated node instances: Daftar lengkap instans yang eksekusinya dihentikan.

Catatan eksekusi jalankan ulang otomatis mencakup:

  • Instances that are automatically rerun: Daftar yang mencakup Node name, Data timestamp, Instance type, Node type, Owner, dan detail lainnya untuk setiap instans yang dijalankan ulang.

Pantau grup sumber daya

Setelah Anda membuat aturan O&M otomatis, DataWorks secara otomatis memantau penggunaan sumber daya grup sumber daya yang terkait. Untuk detailnya, lihat Resource O&M.