Konfigurasi tuning otomatis menggunakan Autopilot atau scheduled tuning - Realtime Compute for Apache Flink

Pekerjaan Flink mendukung dua mode penalaan otomatis: tuning cerdas dan tuning terjadwal. Topik ini menjelaskan cara mengonfigurasi kedua mode tersebut serta menyediakan pencegahan penting.

Informasi latar belakang

Penalaan pekerjaan bisa memakan waktu. Misalnya, saat meluncurkan pekerjaan baru, Anda harus mengonfigurasi sumber daya, parallelism, serta jumlah dan ukuran TaskManager. Selama pekerjaan berjalan, Anda juga perlu menyesuaikan sumber daya untuk memaksimalkan pemanfaatannya. Ketika pekerjaan mengalami backpressure atau peningkatan latency, konfigurasi pekerjaan perlu disesuaikan. Untuk menyederhanakan proses ini, Realtime Compute for Apache Flink menyediakan fitur penalaan otomatis. Anda dapat memilih mode penalaan yang sesuai berdasarkan informasi berikut.

Mode Penyetelan

Skenario

Manfaat

Referensi

Intelligent tuning

Sebuah pekerjaan menggunakan 30 CU. Setelah berjalan stabil selama periode tertentu, Anda menemukan bahwa penggunaan CPU dan memori pekerjaan kadang-kadang sangat rendah ketika tidak ada latency sumber atau backpressure.

Jika Anda tidak ingin menyesuaikan sumber daya secara manual dan memerlukan sistem untuk secara otomatis menyelesaikan penyesuaian sumber daya, Anda dapat menggunakan mode tuning cerdas. Sistem secara otomatis mengurangi konfigurasi sumber daya saat penggunaan sumber daya rendah, dan meningkatkan konfigurasi sumber daya saat penggunaan sumber daya naik hingga mencapai ambang batas tertentu.

Membantu Anda menyesuaikan parallelism pekerjaan dan konfigurasi sumber daya secara lebih wajar.
Mengoptimalkan pekerjaan Anda secara global untuk mengatasi berbagai masalah tuning performa, seperti throughput yang tidak mencukupi, backpressure end-to-end, dan pemborosan sumber daya.

Untuk mengaktifkan fitur tuning cerdas, lihat Aktifkan dan konfigurasikan tuning cerdas.

Penjadwalan Penalaan

Rencana tuning terjadwal menggambarkan pemetaan antara sumber daya dan titik waktu. Rencana tuning terjadwal dapat berisi beberapa pemetaan antara sumber daya dan titik waktu.

Saat menggunakan rencana tuning terjadwal, Anda perlu mengetahui penggunaan sumber daya di setiap periode waktu dan menetapkan sumber daya yang sesuai berdasarkan karakteristik jendela waktu bisnis Anda.

Misalnya, jam sibuk bisnis adalah pukul 09.00–19.00, dan jam sepi adalah pukul 19.00–09.00 hari berikutnya. Dalam kasus ini, Anda dapat menggunakan fitur tuning terjadwal untuk menggunakan 30 CU selama jam sibuk dan 10 CU selama jam sepi.

Untuk mengonfigurasi kebijakan tuning terjadwal, lihat Konfigurasikan dan terapkan rencana tuning terjadwal.

Batasan

Anda dapat membuat maksimal 20 paket sumber daya.
Anda tidak dapat menyesuaikan parallelism saat unaligned checkpointing diaktifkan.
Tuning cerdas tidak mendukung pekerjaan yang diterapkan di session cluster.
Penalaan otomatis belum didukung untuk pekerjaan YAML.
Mode penalaan bersifat saling eksklusif. Anda harus menghentikan mode yang sedang diterapkan sebelum menerapkan mode lainnya.
- Tuning terjadwal dan tuning cerdas saling eksklusif. Untuk beralih dari satu mode ke mode lainnya, Anda harus terlebih dahulu menghentikan mode yang sedang diterapkan.
- Rencana tuning terjadwal saling eksklusif. Untuk menerapkan rencana tuning terjadwal yang berbeda, Anda harus terlebih dahulu menghentikan rencana yang sedang diterapkan.

Pencegahan

Setiap mode penalaan yang menyebabkan pekerjaan restart akan mengakibatkan gangguan singkat dalam konsumsi data.
Catatan
Untuk VVR 8.0.1 dan versi selanjutnya, sistem Flink terlebih dahulu mencoba merestart pekerjaan menggunakan pembaruan parameter dinamis sebelum mencoba restart pekerjaan penuh. Bergantung pada status dan logika pekerjaan, waktu henti layanan untuk pembaruan parameter dinamis 30% hingga 98% lebih singkat dibandingkan restart pekerjaan penuh. Saat ini, hanya parameter parallelism yang dapat dimodifikasi dengan metode ini. Untuk informasi selengkapnya, lihat Skalabilitas dinamis dan pembaruan parameter dinamis.
Jika Anda menggunakan pekerjaan DataStream atau konektor kustom dalam SQL, jangan mengonfigurasi parallelism pekerjaan di kode pekerjaan. Jika tidak, tuning cerdas dan tuning terjadwal tidak dapat menyesuaikan sumber daya pekerjaan, sehingga konfigurasi penalaan otomatis tidak akan berlaku.
Tuning cerdas tidak dapat mengatasi semua bottleneck performa pekerjaan streaming.
Performa pekerjaan streaming ditentukan oleh sistem hulu dan hilir. Jika terjadi bottleneck performa di Flink, Anda dapat mengatasinya dengan menyetel ulang sumber daya Flink. Namun, strategi penalaan didasarkan pada asumsi tertentu mengenai model pemrosesan pekerjaan. Misalnya, strategi penalaan mengasumsikan bahwa traffic berubah secara mulus, tidak ada kesenjangan data, dan kapasitas throughput setiap operator meningkat secara linear seiring peningkatan parallelism. Jika logika bisnis menyimpang secara signifikan dari asumsi-asumsi ini, pekerjaan dapat menjadi abnormal. Contohnya:
- Operasi untuk memodifikasi parallelism tidak dapat dipicu, pekerjaan tidak dapat mencapai kondisi normal, atau pekerjaan terus-menerus merestart.
- Masalah performa pada fungsi skalar yang didefinisikan pengguna (UDF), fungsi agregat yang didefinisikan pengguna (UDAF), atau user-defined table-valued function (UDTF).
Tuning cerdas tidak dapat mengidentifikasi masalah pada sistem eksternal. Jika terjadi masalah pada sistem eksternal, Anda harus menanganinya secara manual.
Saat sistem eksternal gagal atau aksesnya melambat, parallelism pekerjaan meningkat secara otomatis. Hal ini memberikan tekanan tambahan pada sistem eksternal dan dapat menyebabkan kegagalan berantai. Masalah umum pada sistem eksternal meliputi:
- Partisi yang tidak mencukupi di DataHub atau throughput yang tidak mencukupi di Message Queue for Apache RocketMQ.
- Masalah performa sink.
- Deadlock di ApsaraDB RDS.
Saat menyesuaikan sumber daya, sistem membandingkan konfigurasi sumber daya dan menentukan metode penyesuaian.
Jika paket sumber daya yang akan diterapkan melibatkan perubahan CPU atau memori dibandingkan konfigurasi online saat ini, pekerjaan disesuaikan dengan cara dihentikan lalu direstart. Proses ini dapat menyebabkan waktu henti layanan, latency catch-up data, atau kegagalan startup akibat sumber daya yang tidak mencukupi. Jika hanya parallelism yang diubah, penyesuaian dilakukan langsung melalui jalur skalabilitas dinamis untuk mengurangi waktu henti layanan. Untuk informasi selengkapnya, lihat Skalabilitas dinamis dan pembaruan parameter dinamis.

Aktifkan dan konfigurasikan tuning cerdas

Strategi tuning

Strategi

Skenario

Manfaat

(Direkomendasikan) Strategi adaptif

Cocok untuk skenario dengan fluktuasi besar dalam kebutuhan sumber daya, sensitivitas tinggi terhadap latency, multitasking, kesenjangan data atau beban tidak merata, serta pekerjaan berdurasi panjang.

Setelah menerapkan strategi ini, sistem secara dinamis memodifikasi konfigurasi sumber daya berdasarkan sumber daya pekerjaan real-time dan informasi metrik. Sistem lebih memperhatikan latency dan penggunaan sumber daya pekerjaan saat ini serta mengoptimalkan adaptasi sumber daya lebih cepat berdasarkan perubahan metrik terkait. Hal ini memungkinkan sistem merespons kebutuhan pekerjaan secara lebih sensitif dan meningkatkan efisiensi serta adaptabilitas konfigurasi sumber daya.

Strategi stabil

Cocok untuk tugas periodik, tugas terjadwal, dan skenario berdurasi panjang dengan kebutuhan sumber daya relatif stabil, biaya start-stop tinggi, serta persyaratan stabilitas tinggi.

Dengan menerapkan strategi ini, sistem menemukan konfigurasi sumber daya tetap atau rencana terjadwal yang sesuai untuk seluruh siklus berjalan. Sistem menyesuaikan sumber daya pekerjaan berdasarkan kondisi operasional pekerjaan sepanjang siklus untuk mengurangi dampak tindakan start-stop terhadap pekerjaan. Hal ini membuat pekerjaan berjalan lebih stabil, mengurangi perubahan dan fluktuasi yang tidak perlu, serta akhirnya mencapai kondisi konvergensi.

Catatan

Sumber daya hanya disesuaikan secara dinamis jika ditemukan konfigurasi sumber daya yang lebih sesuai untuk seluruh siklus. Jika tidak, sumber daya yang ada tidak dimodifikasi. Setelah mencapai kondisi stabil, rencana penyesuaian sumber daya dihasilkan, yang dapat Anda simpan dan terapkan. Untuk informasi selengkapnya, lihat Simpan rencana penyesuaian sumber daya.
Merestart pekerjaan atau melakukan hot update mengganggu kondisi stabil dan memicu retuning.

Prosedur

Navigasi ke halaman untuk mengaktifkan dan mengonfigurasi tuning cerdas.
1. Login ke Realtime Compute for Apache Flink console.
2. Untuk ruang kerja target, klik Console di kolom Actions.
3. Di halaman Operation Center > Job O&M, klik nama pekerjaan target.
4. Di tab Automatic Tuning, klik Intelligent Tuning Pattern.
Anda dapat mengaktifkan Autopilot.
Setelah sakelar tersebut diaktifkan, status Intelligent Tuning In Progress akan ditampilkan di bagian atas tab Automatic Tuning. Untuk menonaktifkan tuning cerdas, klik Turn Off Intelligent Tuning atau nonaktifkan sakelar Automatic Tuning.

Klik Edit di sebelah kanan Tuning Configuration untuk memilih kebijakan penalaan dan memodifikasi parameter tuning cerdas.

(Direkomendasikan) Strategi adaptif

Parameter	Deskripsi
Max CPU	Batas maksimum CPU tempat pekerjaan dapat secara otomatis diskalakan keluar. Nilai default adalah 64 core.
Max Memory	Batas maksimum memori tempat pekerjaan dapat secara otomatis diskalakan keluar. Nilai default adalah 256 GiB.
Maximum Parallelism	Parallelism maksimum yang dapat diatur untuk tuning otomatis. Nilai default adalah 1024. Catatan Untuk produk antrian pesan seperti Kafka, MQ, dan SLS, penyesuaian parallelism tuning otomatis dipengaruhi oleh jumlah partisi dan tidak boleh melebihi batas atas ini. Jika parallelism maksimum yang Anda atur melebihi jumlah partisi, sistem secara otomatis menyesuaikan parallelism menjadi jumlah partisi.
Min Parallelism	Parallelism minimum yang dapat diatur untuk tuning otomatis. Nilai default adalah 1.
Scale-out Policy	Menentukan kondisi untuk penskalaan naik. Kapan pun kondisi terpenuhi, penskalaan naik dipicu. Anda dapat mengklik Disable untuk menonaktifkan kondisi sesuai kebutuhan. Latency pekerjaan melebihi ambang batas, dan kondisi ini berlangsung selama periode tertentu. Metrik Busy rata-rata dari satu operator melebihi ambang batas, dan kondisi ini berlangsung selama periode tertentu. Penggunaan memori satu TaskManager (TM) melebihi ambang batas. Terjadi error out-of-memory (OOM) pada pekerjaan. Persentase waktu yang dihabiskan untuk garbage collection (GC) per detik untuk TaskManager (TM) atau JobManager (JM) pekerjaan melebihi ambang batas, dan kondisi ini berlangsung selama periode tertentu. Catatan Anda dapat mengatur ambang batas berdasarkan data historis atau nilai default. Jika data referensi tidak tersedia, Anda dapat memulai dengan ambang batas yang relatif longgar dan menyesuaikannya setelah periode observasi. Satuan ambang batas adalah persentase, dan nilainya berkisar antara 0% hingga 100%. Durasi digunakan untuk menyaring fluktuasi sementara dan menghindari scale-out yang sering akibat anomali singkat. Durasi yang wajar membantu meningkatkan akurasi scale-out. Anda dapat memilih satuan waktu sesuai kebutuhan. Untuk error OOM, Anda tidak perlu memasukkan nilai spesifik. Cukup aktifkan atau nonaktifkan aturan tersebut.
Scale-in Policy	Scale-in dipicu jika salah satu kondisi berikut terpenuhi. Jika beberapa parameter tidak berlaku untuk skenario bisnis saat ini, Anda dapat mengklik tombol Disable di sebelah kanan untuk menonaktifkannya. Ambang batas diukur dalam persentase, dan Anda dapat memilih satuan waktu sesuai kebutuhan. Metrik Busy rata-rata dari satu operator kurang dari ambang batas (dalam persentase), dan kondisi ini berlangsung selama periode tertentu. Penggunaan memori satu TaskManager (TM) kurang dari ambang batas.
Advanced Rules	Beberapa aturan masih dalam tahap pengujian dan belum sepenuhnya tersedia. Jika Anda memiliki kebutuhan terkait, hubungi kami untuk dukungan.

Strategi stabil

Parameter	Deskripsi
Cooldown Minutes	Interval waktu untuk tuning berikutnya setelah restart tuning berlaku. Nilai default adalah 10 menit.
Max CPU	Batas maksimum CPU tempat pekerjaan dapat secara otomatis diskalakan keluar. Nilai default adalah 16 core.
Max Memory	Batas maksimum memori tempat pekerjaan dapat secara otomatis diskalakan keluar. Nilai default adalah 64 GiB.
Max Delay	Ambang batas latency maksimum yang dapat ditoleransi. Nilai default adalah 1 menit.
More Parameter Settings	Parameter berikut dapat dikonfigurasi: `mem.scale-down.interval`: Interval pemicu minimum untuk scaling down memori. Nilai default adalah 4 jam. Dalam rentang 4 jam, jika penggunaan memori yang terdeteksi lebih rendah dari ambang batas yang ditetapkan, sistem menyesuaikan alokasi memori atau merekomendasikan pengurangan alokasi memori untuk mengoptimalkan pemanfaatan sumber daya. `parallelism.scale.max`: Batas parallelism maksimum saat scaling up. Nilai default adalah -1, yang menunjukkan tidak ada batas pada parallelism maksimum. Catatan Untuk produk antrian pesan seperti Kafka, MQ, dan SLS, penyesuaian parallelism tuning otomatis dipengaruhi oleh jumlah partisi dan tidak boleh melebihi batas atas ini. Jika parallelism maksimum yang Anda atur melebihi jumlah partisi, sistem secara otomatis menyesuaikan parallelism menjadi jumlah partisi. `parallelism.scale.min`: Batas parallelism minimum saat scaling down. Nilai default adalah 1, yang menunjukkan parallelism minimum adalah 1. `delay-detector.scale-up.threshold`: Ambang batas latency maksimum yang dapat ditoleransi. Metrik ini mengukur kapasitas throughput pekerjaan berdasarkan latency di sumber data. Nilai default adalah 1 menit. Saat kapasitas pemrosesan data tidak mencukupi dan latency melebihi 1 menit, sistem menggunakan metode Scale Up untuk meningkatkan kapasitas throughput pekerjaan. Metode Scale Up meliputi peningkatan parallelism atau pemisahan rantai, atau merekomendasikan Scale Up. `slot-usage-detector.scale-up.threshold`: Menetapkan ambang batas tingkat penggunaan sumber daya komputasi/IO node pemrosesan (tidak termasuk node Source). Jika persentase waktu yang dihabiskan node untuk memproses data tetap di atas nilai ini, sistem meningkatkan parallelism. Nilai default adalah 0,8. `slot-usage-detector.scale-down.threshold`: Menetapkan ambang batas tingkat penggunaan sumber daya komputasi/IO node pemrosesan (tidak termasuk node Source). Jika persentase waktu yang dihabiskan node untuk memproses data tetap di bawah nilai ini, sistem mengurangi parallelism. Nilai default adalah 0,2. `slot-usage-detector.scale-up.sample-interval`: Rentang waktu tempat sistem mengambil sampel tingkat penggunaan node pemrosesan. Sistem menghitung rata-rata tingkat penggunaan dalam periode ini dan membandingkannya dengan dua ambang batas sebelumnya untuk memutuskan apakah akan melakukan scale-up atau scale-down. Nilai default adalah 3 menit. `resources.memory-scale-up.max`: Nilai maksimum tempat memori satu TaskManager dan JobManager dapat disesuaikan. Nilai default adalah 16 GiB. Saat tuning cerdas dilakukan atau parallelism ditingkatkan untuk TM dan JM, batas memori atas adalah 16 GiB.

Klik Save.

Simpan rencana penyesuaian sumber daya

Setelah pekerjaan yang menggunakan Stable Strategy stabil, sistem secara otomatis menghasilkan paket sumber daya tetap atau terjadwal yang dapat Anda lihat, analisis, simpan, atau terapkan. Tabel berikut memberikan detail tentang rencana yang direkomendasikan.

Recommended plan

Instructions

Notes

Fixed resource

Menghasilkan konfigurasi sumber daya tunggal tanpa dimensi waktu.

Setelah Anda mengklik View Details, pilih Fixed Resources, klik Save, lalu klik Confirm.

Setelah Anda mengklik Confirm, konfigurasi sumber daya untuk penerapan pekerjaan diperbarui dengan estimasi yang disimpan dan akan diterapkan saat pekerjaan berikutnya dimulai.

Rencana terjadwal (dalam pratinjau publik)

Menghasilkan periode waktu dan konfigurasi sumber daya untuk setiap periode waktu.

Anda dapat menyimpan dan terus menerapkan rencana terjadwal yang dihasilkan sistem. Untuk informasi selengkapnya, lihat Simpan dan terapkan rencana terjadwal.

Setelah rencana terjadwal ini diterapkan dalam tuning cerdas, mode tuning secara otomatis berubah dari tuning cerdas ke tuning terjadwal. Setelah pekerjaan menjadi stabil, sumber daya tidak lagi disesuaikan.

Konfigurasikan dan terapkan rencana tuning terjadwal

Prosedur

Buat dan terapkan rencana terjadwal baru

Navigasi ke halaman untuk mengaktifkan dan mengonfigurasi tuning terjadwal.
1. Login ke Realtime Compute for Apache Flink console.
2. Untuk ruang kerja target, klik Console di kolom Actions.
3. Di halaman Operation Center > Job O&M, klik nama pekerjaan target.
4. Di tab Auto Tuning, klik Scheduled Tuning Mode.
Klik New Plan.
Di bagian Resource Configuration, masukkan informasi yang diperlukan.
- Trigger Period: Anda dapat memilih No Repeat, Every Day, Every Week, atau Every Month. Untuk pemicu mingguan atau bulanan, Anda juga harus menentukan rentang tanggal efektif.
- Trigger Time: Waktu saat rencana mulai berlaku.
- Resource Mode: Opsi yang tersedia adalah Basic mode dan Expert mode. Untuk informasi selengkapnya, lihat Configure job resources.
- Running Parameters: Untuk informasi selengkapnya, lihat Configure Running Parameters.
(Opsional) Klik Add Resource Configuration Period untuk mengonfigurasi waktu efektif dan konfigurasi sumber daya.
Anda dapat mengonfigurasi rencana penalaan sumber daya untuk beberapa periode waktu dalam rencana terjadwal yang sama.
Penting
Dalam rencana terjadwal yang sama, New Resource Configuration Period dan konfigurasi sumber daya yang ada harus memiliki waktu pemicu yang terpisah lebih dari 30 menit. Jika tidak, konfigurasi sumber daya baru tidak dapat disimpan.
Untuk paket sumber daya terjadwal target, klik Apply di kolom Actions.

Simpan dan terapkan rencana terjadwal

Setelah pekerjaan yang menggunakan Stable Strategy stabil, sistem secara otomatis menghasilkan rencana terjadwal yang dapat Anda lihat, analisis, simpan, dan terapkan.

Navigasi ke halaman Automatic Tuning.
1. Login ke Realtime Compute for Apache Flink console.
2. Untuk ruang kerja target, klik Console di kolom Actions.
3. Di halaman Operation Center > Job O&M, klik pekerjaan target.
4. Klik tab Auto-tuning.
Klik Details dan atur Recommended Plan ke Scheduled Plan.

Konfigurasikan rencana terjadwal.

Tindakan	Deskripsi	Notes
1. Tetapkan jumlah maksimum perubahan.	Tentukan jumlah maksimum perubahan yang dapat terjadi dalam rencana terjadwal.	Batas bawah adalah 2 dan batas atas adalah 5.
2. Klik Merge Time Periods.	Gabungkan periode berdasarkan jumlah maksimum perubahan yang Anda tetapkan.	Saat menggabungkan, pertimbangkan apakah akan melakukan scale-out atau scale-in untuk memenuhi persyaratan kebijakan terlebih dahulu.

Lihat dan modifikasi konfigurasi sumber daya yang telah digabung. Untuk informasi selengkapnya mengenai parameter konfigurasi, lihat Configure job resources.
Klik Save di pojok kiri bawah halaman.
Tentukan Scheduled Plan Name atau pilih Apply This Plan Immediately. Lalu, klik Confirm.
Setelah rencana terjadwal ini diterapkan, mode penalaan secara otomatis berubah dari tuning cerdas ke tuning terjadwal. Setelah pekerjaan stabil, sumber dayanya tidak lagi disesuaikan.

Contoh konfigurasi

Jam sibuk bisnis adalah pukul 09.00–19.00, yang memerlukan 30 CU. Jam sepi adalah pukul 19.00–09.00 hari berikutnya, yang memerlukan 10 CU. Gambar berikut menunjukkan konfigurasi kebijakan penalaan untuk skenario ini.

Referensi

Layanan diagnosis pekerjaan cerdas membantu Anda memantau kesehatan pekerjaan dan memastikan stabilitas serta keandalan bisnis Anda. Untuk informasi selengkapnya, lihat Intelligent job diagnosis.
Anda dapat meningkatkan performa pekerjaan Flink SQL melalui konfigurasi pekerjaan dan optimasi Flink SQL. Untuk informasi selengkapnya, lihat High-performance Flink SQL optimization techniques.