Container Intelligence Service menyediakan fitur diagnosa node untuk membantu Anda mendiagnosis masalah umum pada node. Topik ini menjelaskan item diagnostik node serta memberikan saran untuk memperbaiki masalah tersebut.
Container Intelligence Service mengembangkan sistem diagnostik berdasarkan pengalaman ahli dan melatih model AI menggunakan sejumlah besar data. Hal ini membantu Anda menemukan akar penyebab masalah. Diagnosa node mencakup komponen-komponen berikut:
Diagnostic items: Mendiagnosis node, komponen node, komponen klaster, Elastic Compute Service (ECS) controller manager, dan node yang dipercepat GPU.
Root causes: Mengidentifikasi akar penyebab masalah dan memberikan saran perbaikan. Fitur diagnosa node mengumpulkan informasi tentang klaster dan node, mengidentifikasi anomali, lalu melakukan diagnostik mendalam.
Saat menggunakan fitur diagnosa node, ACK menjalankan program pengumpulan data pada setiap node dalam klaster dan mengumpulkan hasil diagnostik. Informasi yang dikumpulkan hanya mencakup versi sistem, status beban kerja, Docker, kubelet, serta informasi kesalahan utama dalam log sistem. Program pengumpulan data tidak mengumpulkan informasi bisnis atau data sensitif.
Skenario
Tabel berikut menjelaskan skenario diagnosa node dan diagnostik berbantuan AI.
Kategori | Skema |
Diagnosa node | Node NotReady:
|
Kuota inode yang tersisa tidak mencukupi. | |
Kuota PIDs tidak mencukupi. | |
Waktu node tidak benar. | |
Sistem file node bersifat hanya-baca. | |
Deadlock terjadi di kernel node. | |
Diagnostik berbantuan AI | Status node tidak normal. |
Status Instance ECS tidak normal. | |
Kesalahan terjadi di kubelet pada node. | |
Pengecualian runtime terjadi pada node. | |
Ruang disk tidak mencukupi. | |
Penggunaan CPU node tinggi. |
Prosedur
Fitur diagnostik klaster mengumpulkan informasi tentang klaster dan node, mengidentifikasi anomali, lalu melakukan diagnostik mendalam. Mode ahli dan mode AI digunakan untuk membantu menemukan akar penyebab masalah. Hasil diagnostik dihasilkan melalui langkah-langkah berikut: identifikasi anomali, pengumpulan data, pemeriksaan item diagnostik, dan analisis penyebab akar.

Anomaly identification: Mengumpulkan data dasar seperti status node, status pod, dan aliran peristiwa klaster, serta menganalisis anomali berdasarkan data yang dikumpulkan.
Data collection: Mengumpulkan dan mendiagnosis data kontekstual berdasarkan hasil identifikasi anomali. Sebagai contoh, ACK mengumpulkan informasi node dalam Kubernetes, informasi ECS, status proses Docker, dan status proses kubelet.
Diagnostic item check: Memeriksa apakah metrik kunci normal berdasarkan data yang dikumpulkan. Sebagai contoh, item diagnostik node mencakup status proses Docker dan status ECS. Diagnosa node diklasifikasikan ke dalam beberapa kategori. ACK mencantumkan item diagnostik dari kategori berbeda dan memberikan deskripsi setiap item diagnostik.
Root cause analysis: Menganalisis akar penyebab masalah berdasarkan data yang dikumpulkan dan hasil pemeriksaan item diagnostik.
Hasil diagnostik
Hasil diagnostik mencakup hasil analisis penyebab akar dan hasil pemeriksaan item diagnostik. Hasil analisis penyebab akar mencakup detected anomalies, root cause, suggestions for fixes. Hasil pemeriksaan item diagnostik mencakup hasil pemeriksaan setiap item diagnostik. Pemeriksaan item diagnostik digunakan untuk menemukan penyebab yang mungkin tidak diidentifikasi oleh analisis penyebab akar.
Item diagnostik dapat bervariasi berdasarkan konfigurasi klaster. Item diagnostik aktual terdapat pada halaman diagnostik yang berlaku.
Item diagnostik
Kategori | Deskripsi |
Mendiagnosis masalah node umum, termasuk status node, status jaringan, log kernel, proses kernel, dan ketersediaan layanan. | |
Mendiagnosis status komponen node kunci, termasuk komponen jaringan dan volume. | |
Mendiagnosis masalah klaster umum, termasuk ketersediaan Layanan API, ketersediaan DNS, dan status gateway NAT. | |
Mendiagnosis masalah Instance ECS umum, termasuk status Instance ECS, koneksi jaringan, sistem operasi, dan I/O disk. | |
Mendiagnosis masalah node yang dipercepat GPU, termasuk status modul NVIDIA dan konfigurasi driver. |
Node
Jika masalah berikut tetap ada setelah Anda mengadopsi solusi yang dijelaskan dalam tabel berikut, kumpulkan log node lalu submit a ticket.
Item diagnostik | Deskripsi | Solusi |
Kesalahan konektivitas ke server API Kubernetes | Memeriksa apakah node dapat terhubung ke server API Kubernetes klaster. | Periksa konfigurasi klaster. Untuk informasi lebih lanjut, lihat Troubleshoot ACK clusters. |
AUFS mount hangs | Memeriksa apakah AUFS mount hangs terjadi. | |
BufferIOError errors | Memeriksa apakah BufferIOError errors terjadi di kernel node. | |
Cgroup leaks | Memeriksa apakah cgroup leaks terjadi pada node. | Cgroup leaks dapat mengganggu pengumpulan data pemantauan dan menyebabkan kegagalan startup kontainer. Masuk ke node dan hapus direktori cgroup. |
Status proses chronyd abnormal | Memeriksa apakah proses chronyd pada node berada dalam keadaan abnormal. Jika proses chronyd pada node berada dalam keadaan abnormal, sinkronisasi jam sistem mungkin terpengaruh. | Jika proses chronyd pada node berada dalam keadaan abnormal, sinkronisasi jam sistem mungkin terpengaruh. Jalankan perintah |
Image pulling oleh containerd | Memeriksa apakah runtime containerd dapat menarik gambar sesuai harapan. | Periksa konfigurasi jaringan node dan gambar. |
Status containerd | Memeriksa status runtime containerd. | |
Ketersediaan pod CoreDNS | Memeriksa apakah node dapat mengakses alamat IP pod CoreDNS. | Periksa apakah node dapat mengakses alamat IP pod CoreDNS. Untuk informasi lebih lanjut, lihat Apa yang harus saya lakukan jika beban kueri DNS tidak seimbang di antara pod CoreDNS?. |
Status gambar | Memeriksa apakah gambar rusak. | |
Status overlay2 gambar | Memeriksa apakah sistem file overlay2 dalam gambar rusak. | Jika sistem file overlay2 dalam gambar rusak. |
Waktu sistem | Memeriksa apakah waktu sistem benar. | Tidak ada. |
Startup kontainer Docker | Memeriksa apakah kontainer Docker gagal dimulai. | |
Penarikan gambar Docker | Memeriksa apakah node dapat menarik gambar Docker sesuai harapan. | Periksa konfigurasi jaringan node dan gambar. |
Status Docker | Memeriksa status Docker. | |
Waktu startup Docker | Memeriksa waktu startup Dockerd. | Tidak ada. |
Kesalahan hang Docker | Memeriksa apakah kesalahan hang Docker terjadi pada node. | Jalankan perintah |
Keberadaan Instance ECS | Memeriksa keberadaan Instance ECS. | Periksa status Instance ECS. Untuk informasi lebih lanjut, lihat FAQ tentang node dan pool node. |
Status Instance ECS | Memeriksa status Instance ECS. | Periksa status Instance ECS. Untuk informasi lebih lanjut, lihat FAQ tentang node dan pool node. |
Ext4FsError errors | Memeriksa apakah Ext4FsError errors terjadi di kernel node. | |
Sistem file node hanya-baca | Dalam banyak kasus, sistem file node menjadi hanya-baca karena kegagalan disk. Anda tidak dapat menulis data ke sistem file node yang hanya-baca dan bisnis Anda mungkin terpengaruh. | Gunakan perintah fsck untuk memperbaiki sistem file node lalu mulai ulang node. |
Waktu perangkat keras | Periksa konsistensi antara waktu perangkat keras dan waktu sistem. Jika selisih antara waktu perangkat keras dan waktu sistem lebih dari 2 menit, kesalahan komponen mungkin terjadi. | Jalankan perintah |
DNS | Memeriksa apakah nama domain dapat diselesaikan pada node. | Periksa apakah nama domain dapat diselesaikan pada node. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS. |
Kesalahan Kernel Oops | Memeriksa apakah terdapat kesalahan oops di kernel node. | |
Versi Kernel | Periksa apakah versi kernel sudah usang. Versi kernel yang usang dapat menyebabkan kegagalan sistem. | Perbarui kernel node. Untuk informasi lebih lanjut, lihat FAQ tentang Node dan Node Pool. |
Ketersediaan DNS | Memeriksa apakah node dapat mengakses alamat IP klaster layanan kube-dns untuk menggunakan layanan DNS yang disediakan oleh klaster. | Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan Masalah DNS. |
Status kubelet | Memeriksa status kubelet. | Periksa log kubelet. Untuk detail lebih lanjut, lihat Troubleshoot ACK clusters. |
Waktu Startup Kubelet | Memeriksa waktu startup kubelet. | Tidak ada. |
Penggunaan CPU | Periksa apakah penggunaan CPU pada node terlalu tinggi. | Tidak ada. |
Penggunaan Memori | Memeriksa apakah penggunaan memori node terlalu tinggi. | Tidak ada. |
Fragmen Memori | Memeriksa keberadaan fragmen memori pada node. | Jika terdapat fragmen memori pada node, akses node tersebut dan jalankan perintah |
Memori Swap | Periksa apakah memori swap diaktifkan pada node. | Memori swap tidak boleh diaktifkan. Masuk ke node dan nonaktifkan memori swap. |
Pemuatan driver perangkat jaringan | Memeriksa pemuatan driver VirtIO pada perangkat jaringan. | Terjadi kesalahan saat memuat driver VirtIO pada perangkat jaringan. |
Penggunaan CPU node yang terlalu tinggi | Periksa penggunaan CPU node selama seminggu terakhir. Jika penggunaan CPU node tinggi dan sejumlah besar pod dijadwalkan pada node, pod akan bersaing untuk mendapatkan sumber daya. Hal ini meningkatkan penggunaan CPU dan dapat menyebabkan gangguan layanan. | Untuk mencegah gangguan layanan, atur permintaan sumber daya dan batas pada nilai yang sesuai guna menghindari menjalankan terlalu banyak pod pada node. |
Keberadaan IP Node Privat | Memeriksa apakah alamat IP node privat tersedia. | Jika alamat IP node privat tidak tersedia, hapus node tersebut dan tambahkan kembali node ke klaster. Jangan lepaskan Instance ECS saat menghapus node. Untuk informasi lebih lanjut tentang cara menghapus node dari klaster, lihat Hapus node. Untuk informasi lebih lanjut tentang cara menambahkan node ke klaster, lihat Tambahkan Instance ECS yang ada. |
Penggunaan memori node yang terlalu tinggi | Periksa penggunaan memori node dalam seminggu terakhir. Jika penggunaan memori node tinggi dan sejumlah besar pod dijadwalkan ke node, pod akan bersaing untuk mendapatkan sumber daya. Hal ini meningkatkan penggunaan memori, menyebabkan kesalahan out of memory (OOM), dan berpotensi mengakibatkan gangguan layanan. | Untuk mencegah gangguan layanan, atur permintaan sumber daya dan batas pada nilai yang sesuai guna menghindari menjalankan terlalu banyak pod pada node. |
Status Node | Memeriksa apakah node berstatus Ready. | Mulai ulang node. Untuk detail lebih lanjut, lihat FAQ tentang Node dan Pool Node. |
Penjadwalan node | Memeriksa apakah node tidak dapat dijadwalkan. | Jika node tidak dapat dijadwalkan, periksa konfigurasi penjadwalan node. Untuk informasi lebih lanjut, lihat Pembuangan node dan status penjadwalan. |
Kesalahan OOM | Memeriksa apakah kesalahan OOM terjadi pada node. | |
Pemeriksaan Runtime | Memeriksa apakah runtime node sesuai dengan runtime klaster. | Untuk informasi lebih lanjut, lihat Bisakah saya mengubah runtime kontainer klaster dari containerd ke Docker?. |
Versi OS yang Ketinggalan Zaman | Periksa apakah versi OS yang digunakan oleh node memiliki bug yang diketahui atau sudah ketinggalan zaman serta mengalami masalah stabilitas. Masalah tersebut dapat menyebabkan komponen Docker dan containerd tidak berfungsi dengan baik. | Perbarui versi OS. |
Akses Internet | Memeriksa apakah node dapat mengakses Internet. | Periksa apakah SNAT diaktifkan untuk klaster. Untuk informasi lebih lanjut, lihat Aktifkan klaster ACK yang ada untuk mengakses Internet. |
RCUStallError errors | Memeriksa apakah RCUStallError errors terjadi di kernel node. | |
Versi OS | Memeriksa versi OS yang digunakan oleh node. Jika versi OS yang ketinggalan zaman digunakan oleh node, klaster mungkin tidak berjalan secara normal. | Tidak ada. |
Kelebihan proses runc | Jika kelebihan proses runc terjadi pada node, node mungkin secara berkala memasuki keadaan NotReady. | Jika kelebihan proses runc terjadi, periksa proses runc yang bocor dan hentikan proses secara manual. |
SoftLockupError errors | Memeriksa apakah SoftLockupError errors terjadi di kernel node. | |
Sistem hang systemd | Memeriksa apakah hang systemd terjadi pada node. | Jika hang systemd terjadi pada node, masuk ke node dan jalankan perintah |
Versi systemd yang ketinggalan zaman | Memeriksa apakah versi systemd yang digunakan oleh node memiliki bug yang diketahui. Versi systemd yang ketinggalan zaman memiliki masalah stabilitas yang dapat menyebabkan komponen Docker dan containerd tidak berfungsi dengan baik. | Perbarui versi systemd. Untuk informasi lebih lanjut, lihat systemd. |
Proses yang tergantung | Memeriksa apakah proses yang tergantung ada pada node. | |
Kesalahan unregister_netdevice | Memeriksa apakah kesalahan unregister_netdevice terjadi di kernel node. |
KomponenNode
Item diagnostik | Deskripsi | Solusi |
Status komponen CNI | Memeriksa apakah plug-in Container Network Interface (CNI) berjalan sesuai harapan. | Periksa status komponen jaringan yang digunakan oleh klaster. Untuk informasi lebih lanjut, lihat FAQ tentang manajemen jaringan. |
Status komponen CSI | Memeriksa apakah plug-in Container Storage Interface (CNI) berjalan sesuai harapan. | Periksa status komponen volume yang digunakan oleh klaster. Untuk informasi lebih lanjut, lihat FAQ tentang CSI. |
KomponenKlaster
Item diagnostik | Deskripsi | Solusi |
Versi aliyun-acr-credential-helper | Memeriksa apakah versi aliyun-acr-credential-helper yang digunakan oleh klaster sudah ketinggalan zaman. | Jika versi aliyun-acr-credential-helper yang digunakan oleh klaster sudah ketinggalan zaman, perbarui aliyun-acr-credential-helper. Untuk informasi lebih lanjut, lihat Gunakan komponen aliyun-acr-credential-helper untuk menarik gambar tanpa menggunakan rahasia. |
Ketersediaan Layanan API | Memeriksa apakah Layanan API klaster tersedia. | Jalankan perintah |
Blok CIDR pod yang tersedia tidak mencukupi | Memeriksa apakah jumlah blok CIDR pod yang tersedia dalam klaster yang telah memasang Flannel kurang dari lima. Setiap node dalam klaster dilampirkan ke blok CIDR pod. Jika semua blok CIDR pod digunakan, node baru yang Anda tambahkan ke klaster tidak dapat bekerja dengan baik. | |
Titik akhir CoreDNS | Memeriksa jumlah titik akhir CoreDNS. | Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS. |
Alamat IP klaster CoreDNS | Memeriksa apakah alamat IP klaster dialokasikan ke pod CoreDNS. Jika alamat IP klaster tidak dialokasikan ke pod CoreDNS, gangguan layanan mungkin terjadi. | Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS. |
Status gateway NAT | Memeriksa status gateway NAT yang digunakan oleh klaster. | Masuk ke Konsol Gateway NAT untuk memeriksa apakah gateway NAT terkunci karena pembayaran tertunda. |
Tingkat koneksi bersamaan yang terputus pada gateway NAT terlalu tinggi | Memeriksa apakah tingkat di mana koneksi bersamaan terputus pada gateway NAT tinggi. | Jika tingkat tersebut tinggi, tingkatkan gateway NAT. Untuk informasi lebih lanjut, lihat FAQ tentang peningkatan gateway NAT Internet standar ke gateway NAT Internet yang ditingkatkan. |
ECSControllerManager
Item diagnostik | Deskripsi | Solusi |
Pembayaran terlambat terkait komponen Instance ECS | Memeriksa apakah disk atau lebar pita jaringan dari Instance ECS tidak tersedia karena pembayaran terlambat dalam akun Anda. | Jika disk atau lebar pita jaringan dari Instance ECS tidak tersedia karena pembayaran terlambat dalam akun Anda, isi ulang akun Anda. |
Pembayaran terlambat terkait Instance ECS | Memeriksa apakah Instance ECS pay-as-you-go ditangguhkan karena pembayaran terlambat. | Jika Instance ECS pay-as-you-go ditangguhkan karena pembayaran terlambat, Anda harus mengisi ulang akun Anda terlebih dahulu dan kemudian memulai ulang instance tersebut. |
Status NIC Instance ECS | Memeriksa apakah NIC dari Instance ECS berfungsi seperti yang diharapkan. | Jika NIC dari Instance ECS tidak berfungsi seperti yang diharapkan, mulai ulang instance tersebut. |
Status startup Instance ECS | Memeriksa apakah operasi boot dapat dilakukan pada instance secara normal. | Jika operasi boot tidak dapat dilakukan pada instance secara normal, Anda harus membuat instance lain. |
Status sistem manajemen backend Instance ECS | Memeriksa apakah sistem manajemen backend dari Instance ECS bekerja sesuai harapan. | Jika sistem manajemen backend dari Instance ECS tidak bekerja seperti yang diharapkan, mulai ulang instance tersebut. |
Status CPU Instance ECS | Memeriksa apakah terjadi konten CPU atau kegagalan pengikatan CPU di lapisan bawah Instance ECS. | Jika terdapat konten CPU, instance mungkin gagal mendapatkan CPU atau menghadapi masalah lainnya. Mulai ulang instance tersebut. |
Kunci terpisah di CPU Instance ECS | Memeriksa apakah kunci terpisah terjadi di CPU Instance ECS. | Kunci terpisah terjadi di CPU Instance ECS. Untuk informasi lebih lanjut, lihat Mendeteksi dan menangani kunci terpisah. |
Status mitigasi DDoS untuk Instance ECS | Memeriksa apakah alamat IP publik dari instance mengalami serangan DDoS. | Jika alamat IP dari Instance ECS mengalami serangan DDoS, belilah layanan anti-DDoS lainnya. Untuk informasi lebih lanjut, lihat Perbandingan solusi Anti-DDoS Alibaba Cloud. |
Kemampuan baca/tulis terbatas pada disk cloud | Memeriksa apakah kemampuan baca/tulis disk cloud dibatasi. | Jika IOPS maksimum baca dan tulis disk telah tercapai, operasi baca dan tulis pada disk dibatasi. Untuk informasi lebih lanjut tentang cara melihat metrik disk, lihat Performa penyimpanan blok. |
Pemuatan disk Instance ECS | Memeriksa apakah disk cloud dapat dilekatkan ke Instance ECS ketika instance dimulai. | Jika instance gagal dimulai karena disk cloud gagal dilekatkan ke instance, hentikan instance dan kemudian mulai ulang instance tersebut. |
Kedaluwarsa Instance ECS | Memeriksa apakah langganan instance telah kedaluwarsa. | Jika Instance ECS telah kedaluwarsa, perpanjang instance tersebut. Untuk informasi lebih lanjut, lihat Perpanjang instance langganan. |
Crash OS Instance ECS | Memeriksa apakah crash OS terjadi pada Instance ECS. | Jika crash OS terjadi pada Instance ECS dalam 48 jam terakhir, selidiki log sistem untuk mengidentifikasi penyebabnya. Untuk informasi lebih lanjut, lihat Lihat log sistem dan tangkapan layar. |
Status host Instance ECS | Memeriksa apakah kegagalan terjadi pada server fisik tempat Instance ECS ditempatkan. | Jika kegagalan terjadi pada server fisik tempat Instance ECS ditempatkan, instance mungkin dalam keadaan abnormal dan performa instance menurun. Mulai ulang instance tersebut. |
Pemuatan gambar Instance ECS | Memeriksa apakah Instance ECS dapat memuat gambar saat sistem menginisialisasi instance. | Instance ECS gagal memuat gambar karena masalah terkait sistem dan gambar. Mulai ulang instance tersebut. |
Hung I/O pada disk Instance ECS | Memeriksa apakah hung I/O terjadi pada disk sistem Instance ECS. | Jika hung I/O terjadi pada disk sistem Instance ECS, periksa metrik disk. Untuk informasi lebih lanjut, lihat Lihat data pemantauan disk cloud. Untuk informasi tentang cara menangani hung I/O pada Alibaba Cloud Linux 2, lihat Deteksi hung I/O sistem file dan lapisan blok. |
Batas bandwidth atas Instance ECS | Memeriksa apakah total bandwidth dari Instance ECS telah mencapai bandwidth maksimum yang diizinkan untuk tipe instance. | Jika total bandwidth dari Instance ECS telah mencapai bandwidth maksimum yang diizinkan untuk tipe instance, tingkatkan instance ke tipe instance yang menyediakan kemampuan bandwidth lebih tinggi. Untuk informasi lebih lanjut, lihat Ikhtisar perubahan konfigurasi instance. |
Batas atas bandwidth burst Instance ECS | Memeriksa apakah bandwidth burst dari instance melebihi batas atas bandwidth burst yang diizinkan untuk tipe instance. | Jika bandwidth burst dari instance melebihi batas atas bandwidth burst yang diizinkan untuk tipe instance, tingkatkan instance ke tipe instance yang menyediakan bandwidth lebih tinggi. Untuk informasi lebih lanjut, lihat Ikhtisar perubahan konfigurasi instance. |
Pemuatan NIC Instance ECS. | Memeriksa apakah NIC dari Instance ECS dapat dimuat. | Jika NIC tidak dapat dimuat, konektivitas jaringan instance terpengaruh. Mulai ulang instance tersebut. |
Pembentukan sesi NIC pada Instance ECS | Memeriksa apakah sesi dapat dibentuk ke NIC dari Instance ECS. | Jika sesi tidak dapat dibentuk ke NIC atau jika jumlah maksimum sesi yang didukung oleh NIC tercapai, konektivitas jaringan atau throughput instance terpengaruh. Mulai ulang instance tersebut. |
Operasi utama pada Instance ECS | Memeriksa apakah operasi yang baru-baru ini Anda lakukan pada instance berhasil. Operasi ini termasuk memulai dan menghentikan instance serta meningkatkan konfigurasi instance. | Jika operasi yang baru-baru ini Anda lakukan pada instance gagal, lakukan operasi tersebut lagi. |
Kehilangan paket pada NIC Instance ECS | Memeriksa apakah kehilangan paket arah masuk atau arah keluar terjadi pada NIC dari Instance ECS. | Jika kehilangan paket arah masuk atau arah keluar terjadi pada NIC dari Instance ECS, mulai ulang instance tersebut. |
Penurunan performa Instance ECS | Memeriksa apakah performa instance sementara menurun karena masalah pada perangkat lunak atau perangkat keras. | Jika performa instance menurun, waktu penurunan performa akan ditampilkan. Anda dapat melihat peristiwa historis atau log sistem instance untuk mengidentifikasi penyebab penurunan performa. Untuk informasi lebih lanjut, lihat Lihat peristiwa sistem historis. |
Performa Instance ECS terganggu | Memeriksa apakah performa Instance ECS terganggu. | Instance ECS hanya dapat memberikan kinerja dasar karena kredit CPU yang tersedia tidak mencukupi. |
Penyesuaian ukuran disk Instance ECS | Memeriksa apakah disk dari Instance ECS disesuaikan ukurannya. | Setelah disk disesuaikan ukurannya, sistem operasi tidak dapat menyesuaikan ukuran sistem file. Jika disk tidak dapat digunakan setelah disesuaikan ukurannya, sesuaikan ukuran disk lagi. |
Aplikasi sumber daya Instance ECS | Memeriksa apakah sumber daya fisik, termasuk sumber daya CPU dan memori, yang dibutuhkan oleh Instance ECS cukup. | Jika sumber daya fisik yang dibutuhkan oleh Instance ECS tidak cukup, instance tidak dapat dimulai. Tunggu beberapa menit dan mulai ulang instance tersebut. Anda juga dapat membuat Instance ECS di wilayah lain. |
Status OS Instance ECS | Memeriksa apakah kernel panics, kesalahan OOM, atau kegagalan internal terjadi di OS dari Instance ECS. | Kegagalan ini mungkin disebabkan oleh konfigurasi instance yang tidak tepat atau program pengguna di OS instance. Mulai ulang instance tersebut. |
Status virtualisasi Instance ECS | Memeriksa apakah ada pengecualian di layanan inti pada lapisan virtualisasi bawah instance. | Jika ada pengecualian, instance mungkin tidak merespons atau ditangguhkan secara tak terduga. Mulai ulang instance tersebut. |
GPUNode
Item diagnostik | Deskripsi | Solusi |
Runtime kontainer | Memeriksa apakah runtime kontainer yang digunakan oleh node yang dipercepat GPU valid. | Periksa status runtime Docker atau containerd pada node. ACK hanya mendukung node yang dipercepat GPU yang menggunakan runtime Docker atau containerd. |
Versi NVIDIA-Container-Runtime | Memeriksa versi NVIDIA-Container-Runtime yang digunakan oleh node yang dipercepat GPU. | NVIDIA-Container-Runtime tidak diinstal atau versi NVIDIA-Container-Runtime yang diinstal memiliki masalah. Lakukan langkah-langkah berikut:
|
Status modul cGPU | Memeriksa apakah modul cGPU node yang dipercepat GPU berjalan sesuai harapan. | Periksa apakah node memiliki berbagi GPU diaktifkan. Lakukan langkah-langkah berikut:
|
Konfigurasi runtime kontainer | Memeriksa apakah runtime kontainer yang digunakan oleh node yang dipercepat GPU dikonfigurasi dengan benar. | Runtime kontainer yang digunakan oleh node yang dipercepat GPU tidak dikonfigurasi dengan benar. Periksa apakah bidang nvidia-container-runtime ditentukan dalam konfigurasi runtime kontainer.
|
Status NVIDIA-Container-Runtime | Memeriksa apakah NVIDIA-Container-Runtime berjalan sesuai harapan pada node yang dipercepat GPU. | Kesalahan terjadi pada NVIDIA-Container-Runtime. Kumpulkan data diagnostik tentang node yang dipercepat GPU dan submit a ticket. Untuk informasi lebih lanjut tentang cara mengumpulkan data diagnostik, lihat Kumpulkan data diagnostik dari node yang dipercepat GPU. |
Status modul NVIDIA | Memeriksa apakah modul NVIDIA berjalan sesuai harapan pada node yang dipercepat GPU. | Kesalahan terjadi pada modul NVIDIA node yang dipercepat GPU. Lakukan langkah-langkah berikut:
|