All Products
Search
Document Center

Elastic Compute Service:Memantau dan memeriksa eRDMA

Last Updated:Jul 02, 2025

Anda dapat memantau dan memeriksa akses memori jarak jauh elastis (eRDMA) untuk mengidentifikasi serta menyelesaikan masalah secara cepat, memastikan keamanan sistem, serta mengelola dan mengoptimalkan sumber daya dengan efisien. Topik ini menjelaskan metode dan alat yang dapat digunakan untuk memantau dan memeriksa eRDMA.

Prasyarat

Pastikan bahwa eRDMA telah diinstal dan dikonfigurasi pada Instance ECS. Untuk informasi lebih lanjut tentang cara mengonfigurasi eRDMA, lihat Mengaktifkan eRDMA pada Instance ECS.

Menggunakan CloudMonitor untuk memantau eRDMA

Gunakan Alibaba Cloud CloudMonitor untuk memantau status kerja eRDMA. Anda dapat menentukan metrik kustom CloudMonitor sesuai kebutuhan bisnis untuk memproses, melaporkan, dan memberi peringatan terhadap data pemantauan eRDMA. Untuk detail lebih lanjut, lihat Pemantauan Kustom.

Lihat metrik CloudMonitor yang didukung oleh eRDMA

  1. Masuk ke Konsol Metrik CloudMonitor.

  2. Pada halaman Elastic Compute Service (ECS), masukkan eri di kotak pencarian untuk mencari metrik CloudMonitor yang didukung oleh eRDMA.

    image

Menggunakan eadm untuk mendiagnosis dan menyelesaikan masalah di eRDMA

Alat manajemen ruang pengguna internal, eadm, diinstal otomatis oleh driver eRDMA pada Instance ECS. Alat ini menyediakan kemampuan diagnostik dan pemantauan real-time serta membantu mengidentifikasi titik kegagalan. Fitur-fitur utama eadm meliputi:

  • Kemampuan untuk mengumpulkan statistik lalu lintas real-time di seluruh perangkat, termasuk pemantauan lalu lintas dan kemampuan diagnostik bantu.

  • Kemampuan untuk melakukan dan menanyakan konfigurasi, seperti fitur delay ack dan algoritma kontrol kemacetan (CC).

Berikut adalah beberapa perintah umum eadm. Untuk informasi lebih lengkap, jalankan perintah eadm -h untuk mendapatkan panduan perintah.

Peringatan

eadm hanya digunakan untuk diagnosis dan debugging serta dapat berubah sewaktu-waktu. Alat ini tidak cocok untuk semua skenario.

  • Lihat dokumentasi bantuan untuk perintah eadm.

    eadm -h

    image

  • Memantau lalu lintas real-time dari perangkat eRDMA

    Perangkat eRDMA dengan versi driver 0.2.34 atau lebih baru mendukung fitur statistik lalu lintas.

    eadm stat -d <ibdev_name> -l

    <ibdev_name> menentukan nama perangkat eRDMA. Jalankan perintah ibv_devinfo untuk menanyakan nama-nama perangkat eRDMA. Ganti <ibdev_name> dengan nama perangkat sebenarnya. Jika hanya satu perangkat eRDMA yang tersedia, parameter -d <ibdev_name> dapat dihilangkan.

    image

  • Mengambil statistik tentang perangkat eRDMA, seperti jumlah pesan cm dan verebs serta volume lalu lintas.

    eadm stat -d <ibdev_name>

    <ibdev_name> menentukan nama perangkat eRDMA. Jalankan perintah ibv_devinfo untuk menanyakan nama-nama perangkat eRDMA. Ganti <ibdev_name> dengan nama perangkat sebenarnya. Jika hanya satu perangkat eRDMA yang tersedia, parameter -d <ibdev_name> dapat dihilangkan.

    image

  • Mengambil informasi versi driver eRDMA saat ini.

    eadm ver
Catatan

Batasan berlaku saat menjalankan perintah eadm lainnya, seperti info, dump, dan conf. Kami menyarankan agar Anda tidak menggunakan perintah tersebut.

Menggunakan Iproute2 untuk memantau dan memeriksa eRDMA

Iproute2 adalah rangkaian alat untuk mengonfigurasi dan mengelola jaringan Linux. Iproute2 menyediakan utilitas baris perintah seperti ip dan ss, yang digunakan untuk mengelola antarmuka jaringan, tabel routing, dan fitur kontrol lalu lintas. Ini membantu administrator jaringan mengidentifikasi dan menyelesaikan masalah konektivitas jaringan dengan cepat. Iproute2 juga menyediakan perintah rdma untuk memantau dan memeriksa subsistem RDMA.

Catatan

Iproute2 sudah diinstal sebelumnya di sebagian besar distribusi Linux, termasuk Alibaba Cloud Linux 3 dan Ubuntu 20.00 atau yang lebih baru. Untuk informasi lebih lanjut, lihat dokumentasi resmi setiap sistem operasi.

  • Menanyakan status perangkat eRDMA.

    rdma link

    image

  • Menanyakan penggunaan sumber daya perangkat eRDMA, seperti jumlah Antrian Penyelesaian (CQ), Queue Pair (QP), dan Wilayah Memori (MR).

    Catatan

    Dalam komunikasi jaringan RDMA, Queue Pair (QP), Antrian Penyelesaian (CQ), Wilayah Memori (MR), dan verbs Opcode adalah komponen inti. Mereka memainkan peran penting dalam memastikan efisiensi tinggi dan latensi rendah komunikasi jaringan RDMA.

    Untuk informasi lebih lanjut, lihat Kemampuan dasar dan spesifikasi eRDMA.

    rdma res

    image

  • Menanyakan statistik kinerja tentang perangkat eRDMA, seperti jumlah koneksi, status koneksi, dan jumlah paket yang dikirim dan diterima.

    rdma -p stat

    image

Menggunakan alat diagnose untuk memeriksa masalah terkait RDMA dan mengevaluasi kinerja eRDMA

Gunakan alat diagnose untuk memeriksa fungsi dasar eRDMA, lingkungan komputasi kinerja tinggi (HPC) eRDMA, dan latensi dasar eRDMA. Hal ini membantu Anda memanfaatkan eRDMA secara efektif.

Alat diagnose dapat mengembalikan salah satu hasil berikut untuk item pemeriksaan:

  • PASS: Item pemeriksaan lulus pemeriksaan.

  • SKIP: Item pemeriksaan tidak mendukung pemeriksaan dan dilewati.

  • FAIL: Alat pemeriksaan tidak diinstal atau item pemeriksaan gagal pemeriksaan. Anda dapat menjalankan perintah yang tercantum di bagian fail info untuk memeriksa item FAIL dan menyelesaikan masalah.

  • Informasi INFO lainnya: menunjukkan informasi konfigurasi terkait eRDMA, seperti mode instalasi, versi driver, dan algoritma CC.

Menginstal alat diagnose

Jalankan perintah berikut pada Instance ECS tempat eRDMA dikonfigurasi untuk mendapatkan alat diagnose.

  • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:

    wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
  • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:

    wget https://mirrors.aliyun.com/erdma/tools/diagnose.py

Lihat bantuan alat diagnose

python diagnose.py -h

image

Memeriksa fungsi dasar eRDMA

Gunakan alat diagnose untuk memeriksa fungsi dasar eRDMA, termasuk apakah driver eRDMA diinstal dengan benar, konektivitas jaringan baik, dan driver mode-kernel eRDMA diinstal. Hal ini memastikan fungsi dasar eRDMA bekerja sesuai harapan dan memanfaatkan throughput tinggi serta latensi rendah dari eRDMA.

Item pemeriksaan yang digunakan dalam pemeriksaan fungsi dasar eRDMA

Item Pemeriksaan

Deskripsi

Hasil yang Diharapkan

Hasil Kesalahan dan Solusi

erdma device

Apakah perangkat eRDMA ada.

PASS

FAIL: Saat membuat instance, Anda mungkin tidak mengaktifkan eRDMA untuk ENI utama instance atau mengikat ENI sekunder dengan eRDMA yang diaktifkan ke instance. Untuk detailnya, lihat Mengaktifkan eRDMA pada Instance ECS.

erdma installed

Apakah driver eRDMA diinstal sesuai harapan.

PASS

FAIL: Driver eRDMA tidak diinstal sesuai harapan. Periksa langkah-langkah yang Anda lakukan untuk menginstal driver eRDMA selama konfigurasi eRDMA atau instal ulang driver. Untuk informasi lebih lanjut, lihat Instal driver eRDMA pada Instance ECS.

erdma loaded

Apakah driver eRDMA dimuat sesuai harapan.

PASS

FAIL: Driver eRDMA tidak dimuat sesuai harapan. Masalah ini dapat terjadi ketika driver diinstal sebelum instance di-restart. Jalankan perintah modprobe erdma untuk menyelesaikan masalah.

ibverbs loaded

Apakah driver ib_verbs dimuat sesuai harapan.

PASS

FAIL: Driver ib_verbs tidak dimuat sesuai harapan. Jalankan perintah modprobe ib_uverbs untuk menyelesaikan masalah.

erdma tools

Periksa apakah alat terkait eRDMA diinstal.

PASS

GAGAL: Jalankan perintah eadm|rdma|ibv_devinfo untuk memeriksa alat yang hilang. Biasanya, alat terkait eRDMA diinstal bersama dengan driver eRDMA. Periksa kembali langkah-langkah instalasi driver eRDMA selama konfigurasi eRDMA atau instal ulang driver tersebut. Untuk informasi lebih lanjut, lihat Install eRDMA drivers on an ECS instance dari topik "Use eRDMA".

hca detected

Apakah perangkat eRDMA terdeteksi oleh driver ruang pengguna.

PASS

FAIL: Perangkat eRDMA tidak terdeteksi oleh driver ruang pengguna. Masalah ini terjadi ketika item pemeriksaan erdma device, erdma installed, erdma loaded, dan ibverbs loaded gagal pemeriksaan. Periksa apakah driver eRDMA diinstal dan dimuat sesuai harapan.

hca active

Apakah ENI yang sesuai dengan perangkat eRDMA dalam keadaan normal.

PASS

FAIL: Masalah ini terjadi jika ENI yang sesuai dengan perangkat eRDMA saat ini tidak dalam keadaan UP. Masalah ini dapat muncul pada versi kernel tertentu. Untuk mengaktifkan ENI, jalankan perintah dhclient -v ethx, lalu periksa apakah perangkat eRDMA berada dalam keadaan ACTIVE. Untuk informasi lebih lanjut, lihat Periksa apakah eRDMA dikonfigurasi sesuai harapan.

erdma stats

Apakah tidak ada statistik kesalahan tentang perangkat eRDMA.

PASS

  • SKIP: Sistem operasi mungkin tidak mendukung perintah rdma stat.

  • FAIL: Statistik kesalahan tentang perangkat eRDMA mungkin ada. Saat Anda meminta dukungan teknis, kami sarankan Anda menyertakan keluaran perintah rdma -p stat.

network config

Apakah konektivitas jaringan baik.

PASS

FAIL: Jika alamat IP dari beberapa ENI berada dalam subnet yang sama, eRDMA mungkin tidak bekerja sesuai harapan dalam skenario tertentu.

erdma dmesg

Apakah tidak ada peringatan terkait eRDMA di kernel.

PASS

FAIL: Peringatan terkait eRDMA ada di kernel. Periksa detail kesalahan dari peringatan dan muat ulang driver untuk menyelesaikan masalah.

atomic support

Apakah perangkat eRDMA mendukung Operasi Atomik RDMA.

PASS

FAIL: Perangkat eRDMA saat ini tidak mendukung Operasi Atomik RDMA. Jika Anda tidak memerlukan Operasi Atomik RDMA, abaikan kesalahan.

Catatan

Operasi Atomik RDMA adalah fitur yang melakukan operasi lengkap dan konsisten pada memori pada tingkat atomik dan hanya cocok untuk skenario tertentu. Jika Anda tidak memerlukan Operasi Atomik RDMA, abaikan kesalahan.

go-back-n support

Apakah perangkat eRDMA mendukung fitur Go-back-N.

PASS

  • SKIP: Perangkat eRDMA saat ini mungkin tidak mendukung kueri untuk konfigurasi Go-back-N.

  • FAIL: Alat eadm mungkin tidak diinstal sesuai harapan atau perangkat eRDMA mungkin tidak mendukung fitur Go-back-N.

Catatan

Go-back-N adalah ekstensi dari eRDMA yang hanya cocok untuk skenario tertentu. Jika Anda tidak memerlukan fitur Go-back-N, abaikan kesalahan.

erdma install mode

Mode di mana driver mode-kernel eRDMA diinstal.

  • Standard: Driver mode-kernel eRDMA diinstal dalam mode standar dan hanya mendukung koneksi RDMA Connection Manager (CM).

  • Compat: Driver mode-kernel eRDMA diinstal dalam mode kompatibel dan mendukung koneksi RDMA CM dan out-of-band (OOB).

    Penting

FAIL: Mode instalasi driver mode-kernel eRDMA tidak terdeteksi. Masalah ini dapat terjadi ketika item erdma loaded tidak memenuhi persyaratan dan gagal pemeriksaan. Instal ulang driver mode-kernel eRDMA. Untuk informasi lebih lanjut, lihat Instal driver eRDMA pada Instance ECS.

kernel driver version

Versi driver mode-kernel eRDMA.

Nomor versi driver mode-kernel eRDMA. Contoh: 0.2.37.

FAIL: Versi driver mode-kernel eRDMA tidak terdeteksi. Masalah ini dapat terjadi ketika item erdma loaded atau erdma tools tidak memenuhi persyaratan dan gagal pemeriksaan. Periksa apakah driver eRDMA diinstal dan dimuat sesuai harapan. Untuk informasi lebih lanjut, lihat Periksa apakah eRDMA dikonfigurasi sesuai harapan.

rdma-core version

Versi driver mode-pengguna eRDMA.

Nomor versi driver mode-pengguna eRDMA. Contoh: 44.1-2.

FAIL: Versi driver mode-pengguna eRDMA tidak terdeteksi. Masalah ini dapat terjadi ketika driver mode-pengguna eRDMA tidak diinstal sesuai harapan. Instal ulang driver. Untuk informasi lebih lanjut, lihat Instal driver eRDMA pada Instance ECS.

cc algorithm

Algoritma CC dari eRDMA.

Algoritma CC dari eRDMA. Contoh: hpcc_rtt.

FAIL: Algoritma CC dari eRDMA tidak terdeteksi. Masalah ini dapat terjadi ketika item erdma loaded atau erdma tools tidak memenuhi persyaratan dan gagal pemeriksaan. Periksa apakah driver eRDMA diinstal dan dimuat sesuai harapan.

Lakukan langkah-langkah berikut:

  1. Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.

    Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.

  2. Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.

    • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:

      wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
    • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:

      wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
  3. Jalankan perintah berikut untuk memeriksa fungsi dasar eRDMA:

    python diagnose.py -d

    Keluaran perintah berikut akan dikembalikan, yang mencakup hasil dari item pemeriksaan. Untuk informasi tentang item pemeriksaan, lihat Item pemeriksaan yang digunakan dalam pemeriksaan fungsi dasar eRDMA.

    image

Periksa Lingkungan HPC eRDMA

Jika Anda ingin menjalankan aplikasi HPC di lingkungan eRDMA Anda, Anda mungkin memerlukan dependensi tambahan dan konfigurasi. Gunakan alat diagnose untuk memeriksa dependensi yang diperlukan untuk lingkungan HPC eRDMA.

Item pemeriksaan untuk dependensi yang digunakan dalam pemeriksaan lingkungan HPC eRDMA

Pemeriksaan lingkungan HPC eRDMA melibatkan item pemeriksaan berikut terkait dependensi yang diperlukan: algoritma CC dari eRDMA, apakah fitur Go-back-N didukung, item terkait DAPL 1.0, dan item terkait DAPL 2.0. Jika Anda tidak memerlukan dependensi tersebut, abaikan kesalahan yang dilaporkan. Sebagai contoh, jika Anda hanya membutuhkan DAPL 2.0, abaikan kesalahan yang dilaporkan tentang DAPL 1.0.

Item Pemeriksaan

Deskripsi

Hasil yang Diharapkan

Hasil Kesalahan dan Solusi

cc algorithm

Algoritma CC dari eRDMA.

Algoritma CC dari eRDMA. Contoh: hpcc_rtt.

FAIL: Algoritma CC dari eRDMA tidak terdeteksi. Masalah ini dapat terjadi jika alat eadm tidak diinstal sesuai harapan atau tidak mendukung kueri untuk algoritma CC dari eRDMA.

go-back-n support

Apakah perangkat eRDMA mendukung fitur Go-back-N.

PASS

  • SKIP: Perangkat eRDMA saat ini mungkin tidak mendukung kueri untuk konfigurasi Go-back-N.

  • FAIL: Alat eadm mungkin tidak diinstal sesuai harapan atau perangkat eRDMA mungkin tidak mendukung fitur Go-back-N.

Jika fitur Go-back-N tidak didukung, aplikasi HPC mungkin terpengaruh. Jika Anda tidak memerlukan fitur tersebut, abaikan kesalahan.

dapl1 install

Apakah DAPL 1.0 diinstal sesuai harapan.

PASS

FAIL: Pustaka bersama untuk DAPL 1.0 atau file konfigurasi DAPL 1.0 tidak ada. Periksa apakah DAPL 1.0 diinstal sesuai harapan. Jika Anda tidak memerlukan DAPL 1.0, abaikan kesalahan.

dapl1 config

Apakah konfigurasi eRDMA termasuk dalam file konfigurasi DAPL 1.0.

PASS

FAIL: Tidak ada konfigurasi eRDMA dalam file konfigurasi DAPL 1.0. Periksa file konfigurasi DAPL 1.0 dan tambahkan konfigurasi eRDMA ke dalam file. Jika Anda tidak memerlukan DAPL 1.0, abaikan kesalahan.

dapl2 install

Apakah DAPL 2.0 diinstal sesuai harapan.

PASS

FAIL: Pustaka bersama untuk DAPL 2.0 atau file konfigurasi DAPL 2.0 tidak ada. Periksa apakah DAPL 2.0 diinstal sesuai harapan. Jika Anda tidak memerlukan DAPL 2.0, abaikan kesalahan.

dapl2 config

Apakah konfigurasi eRDMA termasuk dalam file konfigurasi DAPL 2.0.

PASS

FAIL: Tidak ada konfigurasi eRDMA dalam file konfigurasi DAPL 2.0. Periksa file konfigurasi DAPL 2.0 dan tambahkan konfigurasi eRDMA ke dalam file. Jika Anda tidak memerlukan DAPL 2.0, abaikan kesalahan.

dapl2 test

Apakah perintah dtest berjalan sesuai harapan untuk DAPL 2.0.

PASS

FAIL: Perintah dtest gagal berjalan. DAPL 2.0 mungkin tidak diinstal atau dikonfigurasi sesuai harapan.

Lakukan langkah-langkah berikut:

  1. Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.

    Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.

  2. Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.

    • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:

      wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
    • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:

      wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
  3. Jalankan perintah berikut untuk memeriksa dependensi yang diperlukan untuk lingkungan HPC eRDMA:

    python diagnose.py --hpc-check

    Dalam kondisi normal, keluaran perintah berikut akan dikembalikan, yang mencakup hasil dari item pemeriksaan. Untuk informasi tentang item pemeriksaan, lihat Item pemeriksaan untuk dependensi yang digunakan dalam pemeriksaan lingkungan HPC eRDMA.

    image.png

Uji Kinerja Jaringan eRDMA

Gunakan fitur perftest dari alat diagnose untuk menguji kinerja jaringan eRDMA antara instance ECS.

  • Prasyarat

    Persyaratan berikut dipenuhi:

    • eRDMA telah diinstal dan diterapkan sesuai harapan pada semua node (instance ECS) yang ingin Anda uji. Untuk informasi tentang cara mengonfigurasi eRDMA, lihat Mengaktifkan eRDMA pada Instance ECS.

    • Akses SSH tanpa kata sandi diizinkan antara semua node yang ingin Anda uji. Untuk informasi lebih lanjut, lihat Langkah 4: Konfigurasikan logon SSH tanpa kata sandi.

    • Dependensi Python paramiko diinstal pada semua node yang ingin Anda uji.

      Catatan
      • Alat diagnose menggunakan paramiko untuk koneksi.

      • Untuk menginstal dependensi Python paramiko, gunakan salah satu set perintah berikut berdasarkan sistem operasi instance. Jika Anda tidak memiliki persyaratan khusus untuk versi Python, kami sarankan Anda menggunakan Python 3 untuk mengurangi beban konfigurasi.

      Alibaba Cloud Linux atau CentOS

      # python3
      sudo python3 -m pip install --upgrade pip
      sudo python3 -m pip install paramiko 
      # python2
      # Jika versi Python adalah Python 2 dan python2-pip belum diinstal, instal python2-pip.
      sudo yum -y install python2-pip
      sudo python2 -m pip install --upgrade pip==20.3.4
      sudo python2 -m pip install paramiko 

      Ubuntu

      # python3
      sudo python3 -m pip install --upgrade pip
      sudo python3 -m pip install paramiko
      # python2
      # Jika python2-pip belum diinstal pada node saat ini, instal python2-pip.
      sudo apt install software-properties-common
      sudo add-apt-repository universe
      sudo apt update
      sudo apt install python2
      sudo curl https://bootstrap.pypa.io/pip/2.7/get-pip.py --output get-pip.py
      sudo python2 get-pip.py
      sudo python2 -m pip install --upgrade pip==20.3.4
      sudo python2 -m pip install paramiko
  • Prosedur

    1. Sambungkan ke Instance ECS tempat eRDMA dikonfigurasi.

      Untuk informasi lebih lanjut, lihat Gunakan Workbench untuk menyambung ke instance Linux melalui SSH.

    2. Jalankan salah satu perintah berikut untuk mendapatkan alat diagnose.

      • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL internal:

        wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
      • Jalankan perintah berikut untuk mendapatkan alat diagnose dari URL publik:

        wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
    3. Jalankan perintah berikut untuk memeriksa latensi eRDMA:

      python diagnose.py --perftest --hosts <n1> <n2> --user <username> --key-file </path/to/private_key>

      Perhatikan parameter berikut:

      • --hosts <n1> <n2>: menentukan node (instance ECS) yang ingin Anda periksa. Pisahkan node dengan spasi. Ganti <n1> <n2> dengan alamat IP privat ERIs pada node.

      • --user <username>: menentukan nama pengguna yang digunakan untuk logon SSH tanpa kata sandi. Ganti <username> dengan nama pengguna sebenarnya.

      • --key-file </path/to/private_key>: menentukan jalur absolut file kunci privat yang digunakan untuk logon SSH tanpa kata sandi. Ganti </path/to/private_key> dengan jalur absolut sebenarnya dari file kunci privat.

      Keluaran perintah berikut akan dikembalikan, yang menunjukkan latensi eRDMA antara dua instance ECS. Untuk informasi lebih lanjut, lihat Uji Kinerja Jaringan eRDMA.

      Setiap tabel dalam keluaran perintah menampilkan latensi dari inisiator permintaan ke responder permintaan untuk sebuah operasi. Nilai di setiap sel kolom dan baris lainnya menunjukkan latensi rata-rata dalam mikrodetik, diikuti oleh latensi persentil ke-99,9 dalam tanda kurung.

      image.png