Operasi dan pemeliharaan (O&M) otomatis adalah fitur lanjutan yang disediakan oleh DataWorks untuk memastikan operasi sistem yang berkelanjutan dan stabil. Anda dapat mengubah pengalaman penanganan kegagalan data sebelumnya menjadi aturan O&M otomatis. Ketika kondisi yang ditentukan dalam aturan tersebut terpenuhi, sistem secara otomatis menjalankan operasi O&M, sehingga meningkatkan stabilitas layanan dan efisiensi O&M serta mengurangi frekuensi pemeliharaan pada malam hari.
Latar Belakang
Dalam DataWorks, fitur O&M otomatis mencakup penghentian otomatis instans node yang berjalan dan rerun otomatis.
Penghentian otomatis instans node yang berjalan
Jika sebuah node yang berjalan pada grup sumber daya eksklusif untuk penjadwalan memicu aturan peringatan kustom tentang grup sumber daya, sistem akan menggunakan aturan O&M otomatis yang telah ditentukan untuk menghentikan instans tertentu yang dihasilkan oleh node tersebut. Misalnya, jika laju penggunaan sumber daya grup sumber daya eksklusif untuk penjadwalan mencapai 80% dan bertahan selama 10 menit, sistem secara otomatis menghentikan eksekusi instans node non-auto triggered dengan prioritas 1 dan 3 pada grup sumber daya eksklusif tersebut.
Rerun otomatis
Sebuah node secara otomatis direrun berdasarkan aturan rerun otomatis dalam skenario berikut: (1) status node adalah Gagal dan properti rerun otomatis belum dikonfigurasi untuk node tersebut; atau (2) node gagal karena eksekusi node melebihi batas waktu.
Batasan
Batasan izin: Hanya akun Alibaba Cloud, pengguna RAM yang telah diberikan kebijakan AliyunDataWorksFullAccess, dan administrator ruang kerja yang dapat mengelola aturan O&M otomatis.
Batasan grup sumber daya:
Aturan O&M otomatis mengenai penghentian otomatis instans node yang berjalan hanya berlaku untuk node yang dijalankan pada grup sumber daya eksklusif untuk penjadwalan dan hanya berlaku untuk node yang telah dikonfigurasi aturan peringatan mengenai laju penggunaan sumber daya grup sumber daya eksklusif untuk penjadwalan.
Aturan O&M otomatis mengenai membuat aturan rerun otomatis hanya berlaku untuk node yang dijalankan pada grup sumber daya arsitektur tanpa server dan hanya berlaku untuk node yang dijalankan pada.
Batasan fitur:
Anda dapat mengaitkan beberapa aturan O&M otomatis mengenai penghentian otomatis instans node yang berjalan dengan aturan peringatan yang sama.
Anda hanya dapat membuat satu aturan O&M otomatis untuk membuat aturan rerun otomatis di setiap ruang kerja.
Anda dapat melihat catatan eksekusi yang dihasilkan untuk aturan O&M otomatis dalam 30 hari terakhir.
Buka halaman Otomatis
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Operation Center.
Di panel navigasi kiri, pilih .
Buat aturan
Di halaman , Anda dapat membuat aturan O&M otomatis untuk Terminating Running Instances dan Automatic Rerun. DataWorks hanya melakukan operasi O&M pada node yang memenuhi kondisi pemicu dan kondisi filter yang ditentukan dalam aturan O&M otomatis. Anda dapat mengonfigurasi blacklist untuk mengecualikan node tempat Anda tidak ingin melakukan operasi O&M. Logika penerapan aturan O&M otomatis bergantung pada batasan yang ditentukan dalam aturan tersebut. Anda dapat membuat dan mengaktifkan berbagai aturan O&M otomatis sesuai kebutuhan O&M Anda.
Buat aturan untuk menghentikan instans yang berjalan
Dalam Automatic O&M, Anda dapat mengonfigurasi operasi O&M otomatis untuk menghentikan instans yang memenuhi aturan kustom. Instans yang didukung meliputi instans berulang, instans pengisian ulang data, instans uji, instans tugas satu kali, dan instans alur kerja yang dipicu secara manual. Parameter konfigurasi utama untuk aturan penghentian instans yang berjalan adalah sebagai berikut:
Bagian | Parameter | Deskripsi |
Trigger Condition | Associated Monitoring Rule | Aturan peringatan yang ingin Anda kaitkan dengan aturan O&M otomatis. Jika aturan peringatan dipicu, instans node akan secara otomatis dihentikan. Catatan
|
Filter Conditions | Workspace | Nama ruang kerja tempat aturan O&M otomatis diterapkan. |
Instance Type | Jenis instans node tempat aturan O&M otomatis diterapkan. | |
Scheduling Cycle | Frekuensi penjadwalan instans node tempat aturan O&M otomatis diterapkan. Jika Anda mengatur Instance Type ke Recurring Instance atau Data Backfill Instance, Anda harus mengonfigurasi parameter Siklus Penjadwalan. | |
Priority | Prioritas instans node tempat aturan O&M otomatis diterapkan. Nilai yang lebih besar menunjukkan prioritas yang lebih tinggi. | |
Status | Status instans node tempat aturan O&M otomatis diterapkan. | |
Blacklist | Node yang memenuhi kondisi yang ditentukan dalam aturan O&M otomatis tetapi tidak ingin Anda lakukan operasi O&M. Untuk menambahkan node ke blacklist, masukkan nama atau ID node ke dalam kotak pencarian. | |
Constraints On Rule | Effective Period | Rentang waktu di mana aturan O&M otomatis berlaku. Operasi O&M otomatis hanya dilakukan ketika kondisi yang ditentukan dalam aturan O&M otomatis terpenuhi dan aturan dipicu selama periode waktu efektif. Jika aturan O&M otomatis dipicu di luar periode waktu efektif, operasi O&M otomatis tidak dilakukan meskipun kondisi dalam aturan terpenuhi. |
Maximum Effective Times | Jumlah maksimum kali aturan O&M otomatis dapat dipicu, yaitu jumlah maksimum eksekusi aturan tersebut. Catatan Setiap kali sebelum aturan O&M otomatis dieksekusi, sistem memeriksa apakah kondisi pemicu terpenuhi. Jika kondisi pemicu tidak terpenuhi, aturan O&M otomatis tidak dieksekusi. | |
Minimum Effective Interval | Interval minimum di mana aturan O&M otomatis dapat dipicu. | |
Buat aturan rerun otomatis
Dalam Automatic O&M, Anda dapat mengonfigurasi Automatic Rerun untuk tugas yang memenuhi Trigger Conditions. Instans yang akan direrun secara otomatis meliputi instans berulang, instans pengisian ulang data, instans uji, instans tugas satu kali, dan instans alur kerja yang dipicu secara manual.
Ketika instans adalah instans berulang, rerun otomatis hanya memeriksa instans dengan waktu data kemarin.
Sebagai contoh, jika tanggal saat ini adalah 5 Juni 2025, hanya instans berulang dengan waktu data 4 Juni 2025 yang akan direrun secara otomatis setelah memenuhi kondisi pemicu rerun otomatis.
Jika instans merupakan instans pengisian ulang data, instans tes, instans tugas satu kali, atau instans alur kerja yang dipicu secara manual, eksekusi ulang otomatis akan memeriksa instans yang dibuat hari ini, kemarin, dan kemarin lusa.
Sebagai contoh, jika tanggal saat ini adalah 5 Juni 2025, maka instans pengisian ulang data, instans uji, instans tugas satu kali, dan instans alur kerja yang dipicu secara manual yang dibuat pada tanggal 5, 4, dan 3 Juni akan direrun secara otomatis setelah memenuhi kondisi pemicu rerun otomatis.
Parameter konfigurasi utama untuk aturan rerun otomatis adalah sebagai berikut:
Bagian | Parameter | Deskripsi |
Kondisi Pemicu | Running Status | Instans yang ditentukan akan direrun secara otomatis ketika memenuhi kondisi berikut dan gagal berjalan:
|
Kondisi Filter | Workspace | Nama ruang kerja tempat aturan O&M otomatis diterapkan. |
Instance Type | Jenis instans node tempat aturan O&M otomatis diterapkan. | |
Scheduling Cycle | Frekuensi penjadwalan instans node tempat aturan O&M otomatis diterapkan. Jika Anda mengatur Jenis Instans ke Recurring Instance atau Data Backfill Instance, Anda dapat mengonfigurasi parameter Siklus Penjadwalan. | |
Priority | Prioritas instans node tempat aturan O&M otomatis diterapkan. Nilai yang lebih besar menunjukkan prioritas yang lebih tinggi. | |
Logs Contain Keywords | Kata kunci yang ingin Anda identifikasi dalam log operasi instans node. Jika log operasi instans node berisi kata kunci tersebut, aturan rerun otomatis akan secara otomatis dipicu. Nilai yang valid adalah Catatan Aturan rerun otomatis hanya dapat dipicu untuk node yang log operasinya berisi kata kunci | |
Blacklist | Blacklist | Node yang memenuhi kondisi yang ditentukan dalam aturan O&M otomatis tetapi tidak ingin Anda lakukan operasi O&M. Untuk menambahkan node ke blacklist, masukkan nama atau ID node ke dalam kotak pencarian. |
Rerun | Preparation | Jika node Anda adalah node komputasi yang dijalankan pada grup sumber daya arsitektur tanpa server, pilih Add CUs For Computing Tasks. Catatan Tentukan jumlah CU yang ditambahkan untuk setiap rerun guna mencegah eksekusi node lain terganggu akibat persaingan sumber daya. |
CUs To Add | Selain CU yang dikonsumsi oleh instans node asli, tambahkan CU yang ditentukan untuk instans rerun. CU tambahan hanya digunakan untuk rerun instans tersebut. | |
Rerun Times | Jumlah maksimum rerun otomatis yang dapat dipicu. Nilai yang valid: 1 hingga 10. Satuan: kali. | |
Rerun Interval | Interval antar rerun. Nilai yang valid: 3 hingga 30. Satuan: menit. | |
Batasan Aturan | Effective Period | Rentang waktu di mana aturan O&M otomatis berlaku. Operasi O&M otomatis hanya dilakukan ketika kondisi yang ditentukan dalam aturan O&M otomatis terpenuhi dan aturan dipicu selama periode waktu efektif. Jika aturan O&M otomatis dipicu di luar periode waktu efektif, operasi O&M otomatis tidak dilakukan meskipun kondisi dalam aturan terpenuhi. |
Aktifkan atau nonaktifkan aturan
Secara default, aturan O&M otomatis langsung berlaku setelah dibuat. Untuk menonaktifkan aturan, klik ikon
di kolom Tindakan aturan tersebut.
Operasi lainnya
Kelola aturan
Untuk melihat informasi tentang aturan O&M otomatis, temukan aturan yang diinginkan dalam daftar aturan O&M otomatis di tab Rules Management dan klik View di kolom Tindakan.
Untuk mengubah definisi aturan O&M otomatis, klik Modify di bagian bawah kotak dialog View Rule.
Untuk menghapus aturan O&M otomatis, temukan aturan yang diinginkan dalam daftar aturan O&M otomatis dan klik Delete di kolom Tindakan. Di kotak dialog yang muncul, klik OK.
Di kotak pencarian di pojok kiri atas halaman Rules Management, Anda dapat memasukkan nama aturan O&M otomatis untuk mencari aturan tersebut.
Lihat catatan eksekusi aturan
Halaman Execution Records menampilkan informasi eksekusi aturan O&M otomatis, termasuk waktu eksekusi aturan, pemilik aturan, dan jumlah instans node tempat aturan diterapkan. Untuk melihat informasi eksekusi detail suatu aturan, klik View Details di kolom Tindakan aturan tersebut.
Ketika kondisi yang ditentukan dalam aturan O&M otomatis terpenuhi, operasi O&M dilakukan atas identitas pemilik aturan. Anda dapat melihat operasi O&M tersebut dalam log operasi instans node yang memicu aturan O&M otomatis.
Catatan eksekusi aturan O&M otomatis mengenai penghentian otomatis instans node yang berjalan mencakup informasi berikut:
Instances Waiting For Resources/Resource Usage: Bagian ini menyediakan grafik yang menampilkan jumlah instans node yang menunggu sumber daya dan penggunaan sumber daya grup sumber daya yang diinginkan. Anda dapat mengarahkan pointer ke titik pada grafik untuk melihat jumlah instans node yang menunggu sumber daya dan penggunaan sumber daya grup sumber daya yang diinginkan pada titik waktu terkait.
Terminated Node Instances: Bagian ini menampilkan semua instans node yang eksekusinya dihentikan.
Catatan eksekusi aturan O&M otomatis mengenai rerun otomatis instans node mencakup informasi berikut:
Instances That Are Automatically Rerun: Bagian ini menampilkan jumlah instans node yang direrun secara otomatis, serta Node Name, Data Timestamp, Instance Type, Node Type, Owner, dan informasi lainnya untuk setiap instans.
Pantau grup sumber daya
Setelah Anda membuat aturan O&M otomatis, sistem secara otomatis memantau penggunaan sumber daya grup sumber daya yang ditentukan dalam aturan tersebut. Untuk informasi lebih lanjut tentang pemantauan grup sumber daya, lihat O&M Sumber Daya.