Fitur Diagnosa Penyebaran Cerdas dari Flink Advisor digunakan untuk memantau status kesehatan penyebaran, menganalisis dan mendiagnosis log pengecualian, serta memberikan saran optimasi berdasarkan hasil diagnosis. Fitur ini memastikan stabilitas dan keandalan bisnis Anda. Topik ini menjelaskan cara menggunakan fitur tersebut.
Informasi latar belakang
Fitur Diagnosa Penyebaran Cerdas dari Flink Advisor memantau status kesehatan penyebaran secara real-time dan mengevaluasi skor kesehatan penyebaran yang sedang berjalan. Skor maksimal adalah 100. Fitur ini menganalisis status penyebaran dalam 30 menit terakhir dan mengurangi skor berdasarkan jumlah risiko dan tingkat risiko yang ditemukan. Fitur ini membantu Anda mengelola dan mendiagnosis penyebaran mulai dari pengembangan hingga operasi dan pemeliharaan Realtime Compute for Apache Flink. Sistem menganalisis semua log, peristiwa, data deret waktu, dan konfigurasi penyebaran selama siklus hidupnya secara real-time. Anda dapat menggunakannya untuk mendiagnosis log pengecualian draf, memeriksa skor kesehatan penyebaran, dan mendeteksi penyebab utama masalah berdasarkan pengalaman para ahli teknis Alibaba Cloud. Setelah diagnosis selesai, Realtime Compute for Apache Flink memberikan saran optimasi untuk mengurangi waktu analisis data dan mean time to repair (MTTR), serta memastikan stabilitas penyebaran. Gambar berikut menunjukkan kemampuan fitur ini.

Batasan
Hanya penyebaran streaming yang mendukung fitur Diagnosa Penyebaran Cerdas. Penyebaran batch tidak didukung.
Diagnosa log pengecualian
Diagnosa log pengecualian draf
Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.
Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, buat draf, tulis pernyataan SQL, dan kemudian klik Validate.
Periksa semantik SQL draf, konektivitas jaringan, dan informasi metadata tabel yang digunakan. Anda juga dapat mengklik SQL Advice di hasil perhitungan untuk melihat informasi tentang risiko SQL dan saran optimasi terkait.
Di bagian bawah halaman SQL Editor, lihat detail kesalahan, penyebab potensial, dan saran optimasi.
CatatanJika Anda tidak dapat mengidentifikasi penyebab kesalahan atau mendapatkan saran optimasi berdasarkan hasil pemeriksaan sintaksis, Anda dapat memilih log terkait dan mengklik Search in Documentation untuk menemukan informasi relevan di dokumentasi.
Diagnosa log pengecualian penyebaran
Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.
Di panel navigasi sisi kiri, pilih . Di halaman Deployments, klik nama penyebaran yang ingin Anda kelola.
Klik tab Logs. Di panel sisi kiri tab Logs, klik Logs, Startup Logs, dan JM Exceptions untuk melihat log penyebaran.

Untuk informasi lebih lanjut, lihat Lihat log boot dan log operasional penyebaran, Lihat log pengecualian penyebaran, dan Lihat log penyebaran historis.
Lakukan diagnosa penyebaran cerdas pada penyebaran abnormal
Pergi ke tab Diagnosis.
Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.
Di panel navigasi sisi kiri, pilih . Di halaman Deployments, klik nama penyebaran yang ingin Anda kelola.
Pergi ke tab Diagnosis.
Anda dapat pergi ke tab Diagnosis dengan salah satu metode berikut:
Di daftar penyebaran, temukan penyebaran yang ingin Anda kelola dan klik skor penyebaran di kolom Health.

Tabel berikut menjelaskan warna dan arti skor kesehatan penyebaran.
Warna
Deskripsi
Rentang skor
Hijau
Status kesehatan penyebaran baik. Tidak ada risiko potensial di penyebaran. Saran konfigurasi spesifik mungkin diberikan.
Di atas 80
Kuning
Masalah atau risiko potensial spesifik ada di penyebaran. Anda perlu memeriksa penyebaran.
60 hingga 80
Merah
Masalah serius terdeteksi di penyebaran dan perlu ditangani. Jika Anda tidak menangani masalah tersebut sesegera mungkin, penyebaran mungkin dibatalkan. Hal ini mempengaruhi kontinuitas bisnis Anda.
Di bawah 60
Di halaman Deployments, temukan penyebaran yang ingin Anda kelola dan klik namanya. Di halaman yang muncul, klik tab Diagnosis.

Klik Diagnose.
Flink Advisor menyediakan berbagai repositori log untuk log pengecualian Flink. Untuk informasi lebih lanjut tentang jenis diagnosis, fase diagnosis, item diagnosis, dan metode penanganan, lihat bagian Item Diagnosis Flink Advisor dari topik ini.
Lihat hasil diagnosis dan saran optimasi.
Jika Anda ingin menerapkan saran optimasi, Anda dapat mengklik Apply di sisi kanan saran optimasi.
Item diagnosis Flink Advisor
Tipe | Fase | Item diagnosis | Deskripsi |
Pengecualian (Eksekusi penyebaran terpengaruh.) | Startup | Analisis file startup | Jika paket JAR yang diperlukan tidak ada di direktori Object Storage Service (OSS), penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, unggah kembali paket JAR sebelum Anda memulai penyebaran. |
Analisis sumber daya | Jika sumber daya tersisa yang tersedia tidak mencukupi, penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, kurangi nilai konfigurasi sumber daya penyebaran atau tambahkan kapasitas kluster tempat penyebaran berada. | ||
Jika Container Network Interface (CNI) gagal di-bind ke penyebaran, penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, periksa apakah jumlah alamat IP vSwitch terkait mencapai batas maksimum. | |||
Jika jumlah alamat IP Elastic network interfaces (ENI) melebihi batas maksimum, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda meningkatkan jumlah ENI dan mencoba lagi. | |||
Analisis jaringan topologi | Jika tidak ada koneksi jaringan yang dibuat antara TaskManager dan JobManager, penyebaran abnormal. | ||
Jika operasi binding ENI ke instance Elastic Compute Service (ECS) timeout dalam 10 menit terakhir, penyebaran mulai dengan kecepatan rendah. Kami merekomendasikan Anda menunggu beberapa saat. | |||
Analisis jaringan layanan upstream dan downstream | Jika deteksi port Transmission Control Protocol (TCP) normal tetapi konektor upstream atau downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi jaringan layanan upstream dan downstream. | ||
Deteksi izin layanan upstream dan downstream | Jika sumber data upstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan upstream. | ||
Jika sumber data downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan downstream. | |||
Analisis kecepatan startup | Jika paket JAR penyebaran terlalu besar, penyebaran mulai dengan kecepatan rendah. Kami merekomendasikan Anda mengecilkan ukuran paket JAR dan mengunggahnya kembali atau menunggu dengan sabar. | ||
Pemeriksaan JobGraph | File konfigurasi Realtime Compute for Apache Flink versi sebelumnya mungkin hilang. Jika masalah ini terjadi, penyebaran mungkin tidak pulih setelah melakukan failover. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran. | ||
Pemeriksaan cluster sesi | Cluster sesi Realtime Compute for Apache Flink versi sebelumnya mungkin abnormal. Jika masalah ini terjadi, penyebaran abnormal. | ||
Ikon run | Pemeriksaan status high availability (HA) | Jika HA tidak diaktifkan untuk penyebaran, penyebaran tidak dapat pulih setelah kegagalan. Untuk menyelesaikan masalah ini, publikasikan ulang draf untuk penyebaran dan batalkan secara manual lalu mulai penyebaran. | |
Pemeriksaan checkpoint | Fitur checkpoint Realtime Compute for Apache Flink versi sebelumnya mungkin abnormal. Jika masalah ini terjadi, checkpointing mungkin gagal. | ||
Deteksi izin layanan upstream dan downstream | Jika deteksi port TCP normal tetapi konektor upstream atau downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan upstream dan downstream. | ||
Pemeriksaan status running | Jika terjadi kesalahan out-of-memory (OOM) di TaskManager penyebaran, penyebaran melakukan failover. Kami merekomendasikan Anda memeriksa konfigurasi penyebaran dan menambah memori TaskManager. | ||
Pembatalan | Analisis kecepatan pembatalan | Di Realtime Compute for Apache Flink versi sebelumnya, proses pembatalan penyebaran lambat. Jika penyebaran dibatalkan dengan kecepatan rendah, batalkan secara manual dan kemudian mulai penyebaran. | |
Risiko (Eksekusi penyebaran tidak terpengaruh.) | Konfigurasi | Pemeriksaan JobGraph | Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa file konfigurasi Realtime Compute for Apache Flink versi sebelumnya mungkin hilang. Akibatnya, penyebaran tidak dapat pulih setelah gagal. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran. |
Pemeriksaan status HA | Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa HA tidak diaktifkan untuk penyebaran. Akibatnya, penyebaran tidak dapat pulih setelah gagal. Untuk menyelesaikan masalah ini, publikasikan ulang draf untuk penyebaran dan batalkan secara manual lalu mulai penyebaran. | ||
Pemeriksaan versi | Status saat ini penyebaran normal. Namun, sistem mendeteksi cacat utama di Realtime Compute for Apache Flink versi saat ini. | ||
Ikon run | Pemeriksaan checkpoint | Status saat ini penyebaran normal. Namun, sistem mendeteksi masalah stabilitas potensial yang disebabkan oleh pengecualian checkpoint di Realtime Compute for Apache Flink versi sebelumnya. | |
Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa tidak ada checkpoint yang dibuat dalam waktu lama. | |||
Analisis kecepatan pembatalan | Status saat ini penyebaran normal. Namun, sistem mendeteksi risiko yang dapat menyebabkan penyebaran dibatalkan dengan kecepatan rendah di Realtime Compute for Apache Flink versi sebelumnya. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran. | ||
Analisis lingkungan runtime |
| ||
Pemeriksaan versi | Versi telah mencapai End of Service (EOS). Masalah stabilitas mungkin terjadi atau tidak ada dukungan produk yang efektif. Untuk informasi lebih lanjut, lihat Operasi konsol. |
Referensi
Anda dapat melihat performa JobManager dan TaskManagers yang sedang berjalan. Untuk informasi lebih lanjut, lihat Pantau Performa Penyebaran.
Jika Anda ingin sistem secara otomatis atau berkala mengonfigurasi ulang sumber daya, Anda dapat mengonfigurasi tuning otomatis. Untuk informasi lebih lanjut, lihat Konfigurasikan Tuning Otomatis.
Anda dapat meningkatkan performa penyebaran SQL Realtime Compute for Apache Flink dengan mengoptimalkan konfigurasi penyebaran dan logika Flink SQL. Untuk informasi lebih lanjut, lihat Optimalkan Flink SQL.