全部产品
Search
文档中心

Realtime Compute for Apache Flink:Lakukan diagnosa penyebaran cerdas

更新时间:Jul 02, 2025

Fitur Diagnosa Penyebaran Cerdas dari Flink Advisor digunakan untuk memantau status kesehatan penyebaran, menganalisis dan mendiagnosis log pengecualian, serta memberikan saran optimasi berdasarkan hasil diagnosis. Fitur ini memastikan stabilitas dan keandalan bisnis Anda. Topik ini menjelaskan cara menggunakan fitur tersebut.

Informasi latar belakang

Fitur Diagnosa Penyebaran Cerdas dari Flink Advisor memantau status kesehatan penyebaran secara real-time dan mengevaluasi skor kesehatan penyebaran yang sedang berjalan. Skor maksimal adalah 100. Fitur ini menganalisis status penyebaran dalam 30 menit terakhir dan mengurangi skor berdasarkan jumlah risiko dan tingkat risiko yang ditemukan. Fitur ini membantu Anda mengelola dan mendiagnosis penyebaran mulai dari pengembangan hingga operasi dan pemeliharaan Realtime Compute for Apache Flink. Sistem menganalisis semua log, peristiwa, data deret waktu, dan konfigurasi penyebaran selama siklus hidupnya secara real-time. Anda dapat menggunakannya untuk mendiagnosis log pengecualian draf, memeriksa skor kesehatan penyebaran, dan mendeteksi penyebab utama masalah berdasarkan pengalaman para ahli teknis Alibaba Cloud. Setelah diagnosis selesai, Realtime Compute for Apache Flink memberikan saran optimasi untuk mengurangi waktu analisis data dan mean time to repair (MTTR), serta memastikan stabilitas penyebaran. Gambar berikut menunjukkan kemampuan fitur ini.

image..png

Batasan

Hanya penyebaran streaming yang mendukung fitur Diagnosa Penyebaran Cerdas. Penyebaran batch tidak didukung.

Diagnosa log pengecualian

Diagnosa log pengecualian draf

  1. Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.

  2. Di panel navigasi sisi kiri, pilih Development > ETL. Pada halaman yang muncul, buat draf, tulis pernyataan SQL, dan kemudian klik Validate.

    Periksa semantik SQL draf, konektivitas jaringan, dan informasi metadata tabel yang digunakan. Anda juga dapat mengklik SQL Advice di hasil perhitungan untuk melihat informasi tentang risiko SQL dan saran optimasi terkait.

  3. Di bagian bawah halaman SQL Editor, lihat detail kesalahan, penyebab potensial, dan saran optimasi.

    image..png

    Catatan

    Jika Anda tidak dapat mengidentifikasi penyebab kesalahan atau mendapatkan saran optimasi berdasarkan hasil pemeriksaan sintaksis, Anda dapat memilih log terkait dan mengklik Search in Documentation untuk menemukan informasi relevan di dokumentasi.

Diagnosa log pengecualian penyebaran

  1. Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.

  2. Di panel navigasi sisi kiri, pilih O&M > Deployments. Di halaman Deployments, klik nama penyebaran yang ingin Anda kelola.

  3. Klik tab Logs. Di panel sisi kiri tab Logs, klik Logs, Startup Logs, dan JM Exceptions untuk melihat log penyebaran.

作业智能诊断.jpg

Untuk informasi lebih lanjut, lihat Lihat log boot dan log operasional penyebaran, Lihat log pengecualian penyebaran, dan Lihat log penyebaran historis.

Lakukan diagnosa penyebaran cerdas pada penyebaran abnormal

  1. Pergi ke tab Diagnosis.

    1. Masuk ke konsol manajemen Realtime Compute for Apache Flink. Temukan ruang kerja yang ingin Anda kelola dan klik Console di kolom Actions.

    2. Di panel navigasi sisi kiri, pilih O&M > Deployments. Di halaman Deployments, klik nama penyebaran yang ingin Anda kelola.

    3. Pergi ke tab Diagnosis.

      Anda dapat pergi ke tab Diagnosis dengan salah satu metode berikut:

      • Di daftar penyebaran, temukan penyebaran yang ingin Anda kelola dan klik skor penyebaran di kolom Health.健康分按钮

        Tabel berikut menjelaskan warna dan arti skor kesehatan penyebaran.

        Warna

        Deskripsi

        Rentang skor

        Hijau

        Status kesehatan penyebaran baik. Tidak ada risiko potensial di penyebaran. Saran konfigurasi spesifik mungkin diberikan.

        Di atas 80

        Kuning

        Masalah atau risiko potensial spesifik ada di penyebaran. Anda perlu memeriksa penyebaran.

        60 hingga 80

        Merah

        Masalah serius terdeteksi di penyebaran dan perlu ditangani. Jika Anda tidak menangani masalah tersebut sesegera mungkin, penyebaran mungkin dibatalkan. Hal ini mempengaruhi kontinuitas bisnis Anda.

        Di bawah 60

      • Di halaman Deployments, temukan penyebaran yang ingin Anda kelola dan klik namanya. Di halaman yang muncul, klik tab Diagnosis.

        作业智能诊断1.jpg

  2. Klik Diagnose.

    Flink Advisor menyediakan berbagai repositori log untuk log pengecualian Flink. Untuk informasi lebih lanjut tentang jenis diagnosis, fase diagnosis, item diagnosis, dan metode penanganan, lihat bagian Item Diagnosis Flink Advisor dari topik ini.

  3. Lihat hasil diagnosis dan saran optimasi.

    Jika Anda ingin menerapkan saran optimasi, Anda dapat mengklik Apply di sisi kanan saran optimasi.

Item diagnosis Flink Advisor

Tipe

Fase

Item diagnosis

Deskripsi

Pengecualian (Eksekusi penyebaran terpengaruh.)

Startup

Analisis file startup

Jika paket JAR yang diperlukan tidak ada di direktori Object Storage Service (OSS), penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, unggah kembali paket JAR sebelum Anda memulai penyebaran.

Analisis sumber daya

Jika sumber daya tersisa yang tersedia tidak mencukupi, penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, kurangi nilai konfigurasi sumber daya penyebaran atau tambahkan kapasitas kluster tempat penyebaran berada.

Jika Container Network Interface (CNI) gagal di-bind ke penyebaran, penyebaran tidak dapat dimulai. Untuk menyelesaikan masalah ini, periksa apakah jumlah alamat IP vSwitch terkait mencapai batas maksimum.

Jika jumlah alamat IP Elastic network interfaces (ENI) melebihi batas maksimum, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda meningkatkan jumlah ENI dan mencoba lagi.

Analisis jaringan topologi

Jika tidak ada koneksi jaringan yang dibuat antara TaskManager dan JobManager, penyebaran abnormal.

Jika operasi binding ENI ke instance Elastic Compute Service (ECS) timeout dalam 10 menit terakhir, penyebaran mulai dengan kecepatan rendah. Kami merekomendasikan Anda menunggu beberapa saat.

Analisis jaringan layanan upstream dan downstream

Jika deteksi port Transmission Control Protocol (TCP) normal tetapi konektor upstream atau downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi jaringan layanan upstream dan downstream.

Deteksi izin layanan upstream dan downstream

Jika sumber data upstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan upstream.

Jika sumber data downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan downstream.

Analisis kecepatan startup

Jika paket JAR penyebaran terlalu besar, penyebaran mulai dengan kecepatan rendah. Kami merekomendasikan Anda mengecilkan ukuran paket JAR dan mengunggahnya kembali atau menunggu dengan sabar.

Pemeriksaan JobGraph

File konfigurasi Realtime Compute for Apache Flink versi sebelumnya mungkin hilang. Jika masalah ini terjadi, penyebaran mungkin tidak pulih setelah melakukan failover. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran.

Pemeriksaan cluster sesi

Cluster sesi Realtime Compute for Apache Flink versi sebelumnya mungkin abnormal. Jika masalah ini terjadi, penyebaran abnormal.

Ikon run

Pemeriksaan status high availability (HA)

Jika HA tidak diaktifkan untuk penyebaran, penyebaran tidak dapat pulih setelah kegagalan. Untuk menyelesaikan masalah ini, publikasikan ulang draf untuk penyebaran dan batalkan secara manual lalu mulai penyebaran.

Pemeriksaan checkpoint

Fitur checkpoint Realtime Compute for Apache Flink versi sebelumnya mungkin abnormal. Jika masalah ini terjadi, checkpointing mungkin gagal.

Deteksi izin layanan upstream dan downstream

Jika deteksi port TCP normal tetapi konektor upstream atau downstream tidak terhubung, penyebaran tidak dapat dimulai. Kami merekomendasikan Anda memeriksa konfigurasi izin layanan upstream dan downstream.

Pemeriksaan status running

Jika terjadi kesalahan out-of-memory (OOM) di TaskManager penyebaran, penyebaran melakukan failover. Kami merekomendasikan Anda memeriksa konfigurasi penyebaran dan menambah memori TaskManager.

Pembatalan

Analisis kecepatan pembatalan

Di Realtime Compute for Apache Flink versi sebelumnya, proses pembatalan penyebaran lambat. Jika penyebaran dibatalkan dengan kecepatan rendah, batalkan secara manual dan kemudian mulai penyebaran.

Risiko (Eksekusi penyebaran tidak terpengaruh.)

Konfigurasi

Pemeriksaan JobGraph

Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa file konfigurasi Realtime Compute for Apache Flink versi sebelumnya mungkin hilang. Akibatnya, penyebaran tidak dapat pulih setelah gagal. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran.

Pemeriksaan status HA

Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa HA tidak diaktifkan untuk penyebaran. Akibatnya, penyebaran tidak dapat pulih setelah gagal. Untuk menyelesaikan masalah ini, publikasikan ulang draf untuk penyebaran dan batalkan secara manual lalu mulai penyebaran.

Pemeriksaan versi

Status saat ini penyebaran normal. Namun, sistem mendeteksi cacat utama di Realtime Compute for Apache Flink versi saat ini.

Ikon run

Pemeriksaan checkpoint

Status saat ini penyebaran normal. Namun, sistem mendeteksi masalah stabilitas potensial yang disebabkan oleh pengecualian checkpoint di Realtime Compute for Apache Flink versi sebelumnya.

Status saat ini penyebaran normal. Namun, sistem mendeteksi bahwa tidak ada checkpoint yang dibuat dalam waktu lama.

Analisis kecepatan pembatalan

Status saat ini penyebaran normal. Namun, sistem mendeteksi risiko yang dapat menyebabkan penyebaran dibatalkan dengan kecepatan rendah di Realtime Compute for Apache Flink versi sebelumnya. Untuk menyelesaikan masalah ini, batalkan secara manual dan kemudian mulai penyebaran.

Analisis lingkungan runtime

  • Penyebaran melakukan failover karena pengecualian terjadi pada mesin tempat penyebaran berjalan. Dalam kasus ini, penyebaran dapat dipulihkan secara otomatis setelah failover. Anda tidak perlu menangani masalah ini secara manual.

  • Penyebaran mungkin melakukan failover dalam beberapa menit selama peningkatan mesin tempat penyebaran berjalan. Setelah failover berhasil, penyebaran dapat dipulihkan secara otomatis. Untuk mencegah masalah ini, batalkan secara manual dan kemudian mulai penyebaran sebelum Anda meningkatkan mesin.

  • Kegagalan perangkat keras terjadi pada mesin tempat penyebaran berjalan dan mesin pulih setelah beberapa saat. Jika ini terjadi, penyebaran melakukan failover. Untuk mencegah masalah ini, batalkan secara manual dan kemudian mulai penyebaran.

Pemeriksaan versi

Versi telah mencapai End of Service (EOS). Masalah stabilitas mungkin terjadi atau tidak ada dukungan produk yang efektif. Untuk informasi lebih lanjut, lihat Operasi konsol.

Referensi

  • Anda dapat melihat performa JobManager dan TaskManagers yang sedang berjalan. Untuk informasi lebih lanjut, lihat Pantau Performa Penyebaran.

  • Jika Anda ingin sistem secara otomatis atau berkala mengonfigurasi ulang sumber daya, Anda dapat mengonfigurasi tuning otomatis. Untuk informasi lebih lanjut, lihat Konfigurasikan Tuning Otomatis.

  • Anda dapat meningkatkan performa penyebaran SQL Realtime Compute for Apache Flink dengan mengoptimalkan konfigurasi penyebaran dan logika Flink SQL. Untuk informasi lebih lanjut, lihat Optimalkan Flink SQL.