Topik ini menjelaskan masalah umum dan solusinya saat menggunakan node edge dalam kluster ACK Edge.
Bagaimana ACK Edge membedakan antara node cloud dan node edge?
ACK Edge mengidentifikasi node edge berdasarkan label alibabacloud.com/is-edge-worker.
Saat sebuah node bergabung ke kelompok node cloud atau kelompok node edge, label is-edge-worker akan ditambahkan secara otomatis. Jika nilai label ini adalah true, maka node tersebut merupakan node edge. Jika nilainya false, maka node tersebut merupakan node cloud.
Tambahkan node edge melalui Express Connect
Saat menambahkan node edge ke kluster ACK Edge dalam lingkungan Express Connect, perhatikan persyaratan berikut. Untuk informasi selengkapnya, lihat Petunjuk konfigurasi khusus untuk kluster ACK Edge dalam skenario Express Connect.
-
Saat memilih tipe kelompok node edge, pilih Dedicated. Kemudian, buat skrip koneksi node dengan mengikuti petunjuk dalam Tambahkan node edge.
Untuk informasi lebih lanjut tentang kelompok node edge Dedicated, lihat Buat dan kelola kelompok node edge.
CatatanUntuk kluster ACK Edge versi 1.22 atau yang lebih baru, Anda tidak dapat membuat koneksi melalui Express Connect dengan mengonfigurasi parameter
inDedicatedNetworkdalam skrip koneksi node. Jika versi kluster Anda lebih lama dari 1.22, segera lakukan upgrade. -
Saat menambahkan node edge melalui Express Connect, node tersebut menggunakan alamat privat untuk berkomunikasi dengan layanan cloud. Pastikan node tersebut dapat mengakses layanan yang diperlukan, seperti Object Storage Service (OSS), Container Registry (ACR), dan Server Load Balancer (SLB).
Tambahkan node GPU
-
Sebelum menambahkan node, Anda harus menginstal driver GPU.
-
Untuk informasi tentang versi driver yang didukung, lihat Daftar versi driver NVIDIA yang didukung oleh ACK.
-
Saat membuat skrip koneksi node, Anda harus mengonfigurasi parameter
gpuVersion. Model GPU berikut didukung:Arsitektur sistem
Model GPU
Versi kluster Edge Kubernetes
AMD64/x86_64
Nvidia_Tesla_T4
≥1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_P4
≥1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_P100
≥1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_V100
≥1.18.8-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_A10
≥1.20.11-aliyunedge.1
AMD64/x86_64
Nvidia_L40
≥1.26.3-aliyun.1

-
Setelah mengonfigurasi parameter ini, tool akan secara otomatis menginstal nvidia-containerd-runtime. Untuk informasi lebih lanjut tentang nvidia-containerd-runtime, lihat NVIDIA Container Runtime.
Penyelesaian masalah kegagalan skrip koneksi node
Jika terjadi error saat menjalankan skrip, gunakan tabel berikut untuk troubleshooting. Jika masalah Anda tidak tercakup dalam tabel ini, kumpulkan informasi diagnostik node dan submit a ticket. Untuk informasi cara mengumpulkan informasi diagnostik node, lihat Bagaimana cara mengumpulkan informasi diagnostik node untuk kluster ACK Edge?
|
Pesan error |
Penyebab |
Solusi |
|
The os XXX unsupport |
Sistem operasi node edge tidak didukung. |
Untuk daftar sistem operasi yang didukung untuk node edge, lihat Tambahkan node edge. |
|
invalid nodeName |
Nama node tidak valid. |
|
|
Node route overlaps with service cidr |
Tabel routing node bertentangan dengan Blok CIDR Pod atau Blok CIDR Service yang dikonfigurasi saat pembuatan kluster. |
Buat ulang kluster tersebut. Pastikan Blok CIDR Pod dan Blok CIDR Service tidak bertentangan dengan alamat NameServer atau tabel routing node edge. |
|
response error msg: TOKEN_EXPIRED |
Token akses telah kedaluwarsa. |
|
|
A node named XXX is already exist in the cluster |
Node dengan nama yang sama sudah ada di kluster. |
Hapus node dengan nama yang sama dari kluster. |
|
error run phase join-node: failed to get cluster info: failed to get cluster-info configmap, Get "https://xx.xxx.xx.xx:6443/api/v1/namespaces/kube-public/configmaps/cluster-info": dial tcp xx.xxx.xx.xx:6443: i/o timeout |
Gagal mendapatkan informasi kluster. |
Saat edgeadm menghubungkan node tepi, edgeadm perlu mengakses server API di alamat tersebut. Pastikan aturan daftar kontrol akses (ACL) Server Load Balancer (SLB) untuk server API tidak membatasi akses dari alamat ini. |
|
error run phase join-node: Install edge-hub failed: Copy file /tmp/edge-hub to /usr/bin/edge-hub fail: open /usr/bin/edge-hub: text file busy | 40009 | 40009 |
Instalasi |
Jalankan perintah |
|
error run phase post-check: timed out waiting for the condition |
Komponen sistem gagal dijalankan. |
|
Penyelesaian masalah kegagalan upgrade node edge
Saat Anda melakukan upgrade kelompok node edge, jika Anda tidak menerima pesan This node has been upgraded successfully, gunakan tabel berikut untuk troubleshooting.
|
Pesan error |
Penyebab |
Solusi |
|
edgeadm version xxxx does not match cluster version |
Versi tool upgrade tidak sesuai dengan versi kluster. |
|
|
node has already been upgraded to xxx |
Node tersebut sudah di-upgrade ke versi target. |
Jika beberapa komponen pada node belum di-upgrade, simpan log dan submit a ticket. |
|
kubelet target version xxxx does not match cluster version xxxx |
Versi upgrade kubelet yang ditentukan tidak sesuai dengan versi lapisan kontrol kluster. |
|
|
Parameter currentVersion cann't null |
Versi |
|
|
upgrade kubelet failed at phase install, recover to previous state. error run phase upgrade: xxxx |
Upgrade gagal dan secara otomatis dikembalikan ke kondisi sebelumnya. Status node tidak terpengaruh. |
Simpan log tersebut dan ajukan tiket. |
|
upgrade kubelet failed at phase install, recover to previous state recover kubelet failed, err: xxx error run phase upgrade: xxxx |
Upgrade gagal, dan proses rollback otomatis juga gagal. Status node terpengaruh. |
Simpan log tersebut dan ajukan tiket. |
Kumpulkan diagnostik node
Jika sebuah node dalam kluster ACK Edge mengalami anomali, ikuti langkah-langkah berikut untuk mengumpulkan informasi diagnostik node tersebut guna dianalisis.
-
Login ke node yang bermasalah dalam kluster ACK Edge.
-
Jalankan perintah berikut untuk mengunduh skrip diagnostik:
curl -o /usr/local/bin/diagnose_edge_node.sh https://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/diagnose/diagnose_k8s.sh -
Jalankan perintah berikut untuk memberikan izin eksekusi pada skrip diagnostik:
chmod u+x /usr/local/bin/diagnose_edge_node.sh -
Jalankan perintah berikut untuk berpindah ke direktori yang ditentukan:
cd /usr/local/bin/ -
Jalankan perintah berikut untuk menjalankan skrip diagnostik:
./diagnose_edge_node.shOutput-nya mirip seperti berikut. Skrip akan menghasilkan file diagnostik dengan nama unik, misalnya
diagnose_1578310147.tar.gz. Nama file aktualnya dapat berbeda....... + echo 'please get diagnose_1578310147.tar.gz for diagnostics' please get diagnose_1578310147.tar.gz for diagnostics + echo 'Submit diagnose_1578310147.tar.gz to technical support' Submit diagnose_1578310147.tar.gz to technical support -
Jalankan perintah
lluntuk memverifikasi bahwa file diagnostik, misalnyadiagnose_1578310147.tar.gz, telah dibuat.