Anda dapat memantau dan memeriksa akses memori jarak jauh elastis (eRDMA) untuk mengidentifikasi serta menyelesaikan masalah secara cepat, memastikan keamanan sistem, serta mengelola dan mengoptimalkan sumber daya dengan efisien. Topik ini menjelaskan metode dan alat yang dapat digunakan untuk memantau dan memeriksa eRDMA.
Prasyarat
Pastikan bahwa eRDMA telah diinstal dan dikonfigurasi pada Instance ECS. Untuk informasi lebih lanjut tentang cara mengonfigurasi eRDMA, lihat Mengaktifkan eRDMA pada Instance ECS.
Menggunakan CloudMonitor untuk memantau eRDMA
Gunakan Alibaba Cloud CloudMonitor untuk memantau status kerja eRDMA. Anda dapat menentukan metrik kustom CloudMonitor sesuai kebutuhan bisnis untuk memproses, melaporkan, dan memberi peringatan terhadap data pemantauan eRDMA. Untuk detail lebih lanjut, lihat Pemantauan Kustom.
Lihat metrik CloudMonitor yang didukung oleh eRDMA
Masuk ke Konsol Metrik CloudMonitor.
Pada halaman Elastic Compute Service (ECS), masukkan eri di kotak pencarian untuk mencari metrik CloudMonitor yang didukung oleh eRDMA.

Menggunakan eadm untuk mendiagnosis dan menyelesaikan masalah di eRDMA
Alat manajemen ruang pengguna internal, eadm, diinstal otomatis oleh driver eRDMA pada Instance ECS. Alat ini menyediakan kemampuan diagnostik dan pemantauan real-time serta membantu mengidentifikasi titik kegagalan. Fitur-fitur utama eadm meliputi:
Kemampuan untuk mengumpulkan statistik lalu lintas real-time di seluruh perangkat, termasuk pemantauan lalu lintas dan kemampuan diagnostik bantu.
Kemampuan untuk melakukan dan menanyakan konfigurasi, seperti fitur delay ack dan algoritma kontrol kemacetan (CC).
Berikut adalah beberapa perintah umum eadm. Untuk informasi lebih lengkap, jalankan perintah eadm -h untuk mendapatkan panduan perintah.
eadm hanya digunakan untuk diagnosis dan debugging serta dapat berubah sewaktu-waktu. Alat ini tidak cocok untuk semua skenario.
Lihat dokumentasi bantuan untuk perintah
eadm.eadm -h
Memantau lalu lintas real-time dari perangkat eRDMA
Perangkat eRDMA dengan versi driver
0.2.34atau lebih baru mendukung fitur statistik lalu lintas.eadm stat -d <ibdev_name> -l<ibdev_name>menentukan nama perangkat eRDMA. Jalankan perintahibv_devinfountuk menanyakan nama-nama perangkat eRDMA. Ganti <ibdev_name> dengan nama perangkat sebenarnya. Jika hanya satu perangkat eRDMA yang tersedia, parameter-d <ibdev_name>dapat dihilangkan.
Mengambil statistik tentang perangkat eRDMA, seperti jumlah pesan cm dan verebs serta volume lalu lintas.
eadm stat -d <ibdev_name><ibdev_name>menentukan nama perangkat eRDMA. Jalankan perintahibv_devinfountuk menanyakan nama-nama perangkat eRDMA. Ganti <ibdev_name> dengan nama perangkat sebenarnya. Jika hanya satu perangkat eRDMA yang tersedia, parameter-d <ibdev_name>dapat dihilangkan.
Mengambil informasi versi driver eRDMA saat ini.
eadm ver
Batasan berlaku saat menjalankan perintah eadm lainnya, seperti info, dump, dan conf. Kami menyarankan agar Anda tidak menggunakan perintah tersebut.
Menggunakan Iproute2 untuk memantau dan memeriksa eRDMA
Iproute2 adalah rangkaian alat untuk mengonfigurasi dan mengelola jaringan Linux. Iproute2 menyediakan utilitas baris perintah seperti ip dan ss, yang digunakan untuk mengelola antarmuka jaringan, tabel routing, dan fitur kontrol lalu lintas. Ini membantu administrator jaringan mengidentifikasi dan menyelesaikan masalah konektivitas jaringan dengan cepat. Iproute2 juga menyediakan perintah rdma untuk memantau dan memeriksa subsistem RDMA.
Iproute2 sudah diinstal sebelumnya di sebagian besar distribusi Linux, termasuk Alibaba Cloud Linux 3 dan Ubuntu 20.00 atau yang lebih baru. Untuk informasi lebih lanjut, lihat dokumentasi resmi setiap sistem operasi.
Menanyakan status perangkat eRDMA.
rdma link
Menanyakan penggunaan sumber daya perangkat eRDMA, seperti jumlah Antrian Penyelesaian (CQ), Queue Pair (QP), dan Wilayah Memori (MR).
CatatanDalam komunikasi jaringan RDMA, Queue Pair (QP), Antrian Penyelesaian (CQ), Wilayah Memori (MR), dan verbs Opcode adalah komponen inti. Mereka memainkan peran penting dalam memastikan efisiensi tinggi dan latensi rendah komunikasi jaringan RDMA.
Untuk informasi lebih lanjut, lihat Kemampuan dasar dan spesifikasi eRDMA.
rdma res
Menanyakan statistik kinerja tentang perangkat eRDMA, seperti jumlah koneksi, status koneksi, dan jumlah paket yang dikirim dan diterima.
rdma -p stat
Menggunakan alat diagnose untuk memeriksa masalah terkait RDMA dan mengevaluasi kinerja eRDMA
Gunakan alat diagnose untuk memeriksa fungsi dasar eRDMA, lingkungan komputasi kinerja tinggi (HPC) eRDMA, dan latensi dasar eRDMA. Hal ini membantu Anda memanfaatkan eRDMA secara efektif.
Alat diagnose dapat mengembalikan salah satu hasil berikut untuk item pemeriksaan:
PASS: Item pemeriksaan lulus pemeriksaan.SKIP: Item pemeriksaan tidak mendukung pemeriksaan dan dilewati.FAIL: Alat pemeriksaan tidak diinstal atau item pemeriksaan gagal pemeriksaan. Anda dapat menjalankan perintah yang tercantum di bagianfail infountuk memeriksa item FAIL dan menyelesaikan masalah.Informasi INFO lainnya: menunjukkan informasi konfigurasi terkait eRDMA, seperti mode instalasi, versi driver, dan algoritma CC.
Menginstal alat diagnose
Jalankan perintah berikut pada Instance ECS tempat eRDMA dikonfigurasi untuk mendapatkan alat diagnose.
Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:
wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.pyJalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:
wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
Memeriksa fungsi dasar eRDMA
Gunakan alat diagnose untuk memeriksa fungsi dasar eRDMA, termasuk apakah driver eRDMA diinstal dengan benar, konektivitas jaringan baik, dan driver mode-kernel eRDMA diinstal. Hal ini memastikan fungsi dasar eRDMA bekerja sesuai harapan dan memanfaatkan throughput tinggi serta latensi rendah dari eRDMA.
Lakukan langkah-langkah berikut:
Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.
Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.
Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.
Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:
wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.pyJalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:
wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
Jalankan perintah berikut untuk memeriksa fungsi dasar eRDMA:
python diagnose.py -dKeluaran perintah berikut akan dikembalikan, yang mencakup hasil dari item pemeriksaan. Untuk informasi tentang item pemeriksaan, lihat Item pemeriksaan yang digunakan dalam pemeriksaan fungsi dasar eRDMA.

Periksa Lingkungan HPC eRDMA
Jika Anda ingin menjalankan aplikasi HPC di lingkungan eRDMA Anda, Anda mungkin memerlukan dependensi tambahan dan konfigurasi. Gunakan alat diagnose untuk memeriksa dependensi yang diperlukan untuk lingkungan HPC eRDMA.
Lakukan langkah-langkah berikut:
Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.
Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.
Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.
Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:
wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.pyJalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:
wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
Jalankan perintah berikut untuk memeriksa dependensi yang diperlukan untuk lingkungan HPC eRDMA:
python diagnose.py --hpc-checkDalam kondisi normal, keluaran perintah berikut akan dikembalikan, yang mencakup hasil dari item pemeriksaan. Untuk informasi tentang item pemeriksaan, lihat Item pemeriksaan untuk dependensi yang digunakan dalam pemeriksaan lingkungan HPC eRDMA.

Uji Kinerja Jaringan eRDMA
Gunakan fitur perftest dari alat diagnose untuk menguji kinerja jaringan eRDMA antara instance ECS.
Prasyarat
Persyaratan berikut dipenuhi:
eRDMA telah diinstal dan diterapkan sesuai harapan pada semua node (instance ECS) yang ingin Anda uji. Untuk informasi tentang cara mengonfigurasi eRDMA, lihat Mengaktifkan eRDMA pada Instance ECS.
Akses SSH tanpa kata sandi diizinkan antara semua node yang ingin Anda uji. Untuk informasi lebih lanjut, lihat Langkah 4: Konfigurasikan logon SSH tanpa kata sandi.
Dependensi Python paramiko diinstal pada semua node yang ingin Anda uji.
CatatanAlat diagnose menggunakan paramiko untuk koneksi.
Untuk menginstal dependensi Python paramiko, gunakan salah satu set perintah berikut berdasarkan sistem operasi instance. Jika Anda tidak memiliki persyaratan khusus untuk versi Python, kami sarankan Anda menggunakan Python 3 untuk mengurangi beban konfigurasi.
Alibaba Cloud Linux atau CentOS
# python3 sudo python3 -m pip install --upgrade pip sudo python3 -m pip install paramiko # python2 # Jika versi Python adalah Python 2 dan python2-pip belum diinstal, instal python2-pip. sudo yum -y install python2-pip sudo python2 -m pip install --upgrade pip==20.3.4 sudo python2 -m pip install paramikoUbuntu
# python3 sudo python3 -m pip install --upgrade pip sudo python3 -m pip install paramiko # python2 # Jika python2-pip belum diinstal pada node saat ini, instal python2-pip. sudo apt install software-properties-common sudo add-apt-repository universe sudo apt update sudo apt install python2 sudo curl https://bootstrap.pypa.io/pip/2.7/get-pip.py --output get-pip.py sudo python2 get-pip.py sudo python2 -m pip install --upgrade pip==20.3.4 sudo python2 -m pip install paramiko
Prosedur
Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.
Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.
Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.
Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:
wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.pyJalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:
wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
Jalankan perintah berikut untuk memeriksa latensi eRDMA:
python diagnose.py --perftest --hosts <n1> <n2> --user <username> --key-file </path/to/private_key>Perhatikan parameter berikut:
--hosts <n1> <n2>: menentukan node (instance ECS) yang ingin Anda periksa. Pisahkan node dengan spasi. Ganti<n1> <n2>dengan alamat IP privat ERIs pada node.--user <username>: menentukan nama pengguna yang digunakan untuk logon SSH tanpa kata sandi. Ganti <username> dengan nama pengguna sebenarnya.--key-file </path/to/private_key>: menentukan jalur absolut file kunci privat yang digunakan untuk logon SSH tanpa kata sandi. Ganti </path/to/private_key> dengan jalur absolut sebenarnya dari file kunci privat.
Keluaran perintah berikut akan dikembalikan, yang menunjukkan latensi eRDMA antara dua instance ECS. Untuk informasi lebih lanjut, lihat Uji Kinerja Jaringan eRDMA.
Setiap tabel dalam keluaran perintah menampilkan latensi dari inisiator permintaan ke responder permintaan untuk sebuah operasi. Nilai di setiap sel kolom dan baris lainnya menunjukkan latensi rata-rata dalam mikrodetik, diikuti oleh latensi persentil ke-99,9 dalam tanda kurung.

