Artificial Intelligence for IT Operations (AIOps) menyediakan diagnostik satu klik untuk node, pod, layanan, Ingress, memori, jaringan, dan AI Profiling. Fitur ini membantu Anda mengidentifikasi masalah dalam kluster Anda. Topik ini menjelaskan cara menggunakan fitur diagnostik kluster di kluster ACK.
Prasyarat
Kluster ACK yang dikelola telah dibuat. Untuk informasi selengkapnya, lihat Buat Kluster ACK yang Dikelola.
Status kluster Kubernetes adalah Running.
CatatanAnda dapat masuk ke Container Service Management Console. Pada halaman Clusters, periksa kolom Cluster Status untuk memastikan status kluster adalah Running.
Fitur diagnostik
AIOps menyediakan fitur diagnostik yang dijelaskan dalam tabel berikut.
Item diagnostik | Deskripsi |
Mendiagnosis masalah terkait node, seperti node Kubernetes dalam status NotReady. | |
Mendiagnosis masalah terkait status pod yang tidak normal, seperti kegagalan startup pod atau restart pod yang sering terjadi. | |
Mendiagnosis masalah terkait layanan, seperti konfigurasi layanan, kuota sumber daya, dan aktivitas anomali. | |
Mendiagnosis masalah terkait Ingress, seperti konfigurasi lalu lintas. | |
Mendiagnosis masalah memori node, seperti kebocoran memori, kebocoran cgroup, dan error kehabisan memori (OOM). Hasil diagnostik menampilkan penggunaan memori secara keseluruhan dalam bentuk grafik visual. | |
Mendiagnosis masalah jaringan umum, seperti masalah konektivitas antar pod, antara kluster dan Internet, atau antara Internet dan LoadBalancer. | |
Mengumpulkan data real-time dari kontainer GPU online, termasuk panggilan CPU, proses Python, panggilan sistem, dan fungsi kernel CUDA. Anda dapat menganalisis data tersebut melalui antarmuka grafik visual. |
Konfigurasi diagnostik
Saat menggunakan fitur diagnostik kluster, program pengumpulan data akan berjalan di node kluster Anda untuk mengumpulkan hasil pemeriksaan. Informasi yang dikumpulkan mencakup versi sistem, beban sistem, status Docker dan kubelet, serta pesan error kritis dari log sistem. Program pengumpulan data tidak mengumpulkan informasi bisnis atau data sensitif Anda.
Prosedur konfigurasi diagnostik untuk node, pod, layanan, dan Ingress serupa. Bagian berikut menggunakan diagnostik node sebagai contoh untuk menunjukkan cara mengonfigurasi fitur ini.
Masuk ke ACK console. Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster target. Di panel navigasi sebelah kiri, pilih .
Pada halaman Diagnostics, klik Node Diagnostics. Pada halaman Node Diagnostics yang muncul, klik Diagnose di pojok kiri atas.
Pada panel Select Node, pilih Node Name, baca catatan, pilih I Have Read And Agree To The Preceding Terms, lalu klik Start Diagnosis.
Anda dapat melihat progres diagnostik di halaman tersebut. Setelah diagnosis selesai, halaman akan menampilkan hasil diagnostik dan daftar item diagnostik. Anda kemudian dapat meninjau hasil tersebut untuk mengidentifikasi penyebab masalah dan menyelesaikannya.
Lihat hasil diagnostik
Pada halaman Diagnostics, temukan laporan diagnostik dalam daftar dan klik Details di kolom Actions untuk melihat hasil diagnostik secara rinci.
Item diagnostik dapat berbeda tergantung pada konfigurasi kluster. Item diagnostik aktual ditampilkan pada halaman diagnostik yang berlaku.
Item diagnostik | Periksa status item | Deskripsi |
Node Diagnostics |
| Diagnostik node mencakup item pemeriksaan Node, NodeComponent, ClusterComponent, ECSControllerManager, dan GPUNode. Penyebab anomali node ditentukan berdasarkan status node, status komponen node, status komponen kluster, dan status ECS. Pada halaman detail diagnostik, Anda dapat melihat hasil diagnostik node, saran perbaikan, dan daftar item pemeriksaan spesifik. Arahkan penunjuk tetikus ke ikon Jika terdapat item pemeriksaan dengan status abnormal atau warning, item tersebut akan ditampilkan di tab To Be Processed. Jika suatu item pemeriksaan memiliki status abnormal, Anda dapat melihat anomali tersebut pada tip yang muncul saat mengarahkan kursor ke View Details di kolom Status untuk item tersebut. |
Pod Diagnostics | Diagnostik pod mencakup item pemeriksaan Pod, ClusterComponent, Node, NodeComponent, dan ECSControllerManager. Penyebab anomali pod ditentukan berdasarkan status pod, status komponen kluster, status node, status komponen node, dan status ECS. Pada halaman detail diagnostik, Anda dapat melihat hasil diagnostik pod, saran perbaikan, dan daftar item pemeriksaan spesifik. Arahkan penunjuk tetikus ke ikon Jika terdapat item pemeriksaan dengan status abnormal atau warning, item tersebut akan ditampilkan di tab To Be Processed. Jika suatu item pemeriksaan memiliki status abnormal, Anda dapat melihat anomali tersebut pada tip yang muncul saat mengarahkan kursor ke View Details di kolom Status untuk item tersebut. | |
Service Diagnostics | Diagnostik layanan mencakup item pemeriksaan Service dan ResourceQuotas. Penyebab anomali layanan ditentukan dengan memeriksa item seperti jenis penagihan CLB, sertifikat, kuota, dan event anomali. Arahkan penunjuk tetikus ke ikon Jika terdapat item pemeriksaan dengan status abnormal atau warning, item tersebut akan ditampilkan di tab To Be Processed. Jika suatu item pemeriksaan memiliki status abnormal, Anda dapat melihat anomali tersebut pada tip yang muncul saat mengarahkan kursor ke View Details di kolom Status untuk item tersebut. | |
Ingress Diagnostics | Diagnostik Ingress mencakup item pemeriksaan Ingress, Addon, dan SLB. Penyebab anomali Ingress ditentukan berdasarkan status Ingress, status plugin Ingress, dan status SLB. Arahkan penunjuk tetikus ke ikon Jika terdapat item pemeriksaan dengan status abnormal atau warning, item tersebut akan ditampilkan di tab To Be Processed. Jika suatu item pemeriksaan memiliki status abnormal, Anda dapat melihat anomali tersebut pada tip yang muncul saat mengarahkan kursor ke View Details di kolom Status untuk item tersebut. | |
Memory Diagnostics | Tidak ada. | Pada halaman detail diagnostik, Anda dapat melihat Memory Overview, Memory Analysis, dan OOM Analysis, yang mencakup informasi seperti status kebocoran memori, tingkat pemanfaatan memori, dan memori yang digunakan oleh setiap proses. |
Network Diagnostics |
| Pada halaman Diagnosis Result, Anda dapat melihat hasil diagnostik jaringan. Area Access Map menampilkan peta lengkap jalur akses untuk diagnosis tersebut. Node yang abnormal disorot dengan warna berbeda dari node normal. |