全部产品
Search
文档中心

Elastic Compute Service:eRDMA

更新时间:Jul 02, 2025

Dibandingkan dengan Remote Direct Memory Access (RDMA) tradisional, Elastis RDMA (eRDMA) dapat digunakan dalam berbagai skenario seperti database cache berbasis Redis, analitik data besar berbasis Spark, Model Riset dan Peramalan Cuaca (WRF) dalam komputasi kinerja tinggi (HPC), serta pelatihan AI. Anda dapat menggunakan eRDMA untuk menerapkan aplikasi HPC di cloud guna membangun klaster aplikasi berkinerja tinggi yang elastis dengan biaya rendah. Selain itu, Anda dapat mengganti VPC dengan jaringan eRDMA untuk mempercepat aplikasi.

Apa itu eRDMA?

eRDMA adalah jaringan Remote Direct Memory Access (RDMA) elastis yang dikembangkan oleh Alibaba Cloud untuk cloud. eRDMA menggunakan Virtual Private Clouds (VPCs) sebagai tautan dasar dan algoritma kontrol kemacetan (CC) yang dikembangkan oleh Alibaba Cloud. eRDMA menawarkan throughput tinggi dan latensi rendah berdasarkan dukungan RDMA. Dibandingkan dengan RDMA tradisional, eRDMA dapat mengimplementasikan jaringan RDMA berskala besar dalam hitungan detik. eRDMA mendukung aplikasi HPC tradisional, aplikasi AI, serta aplikasi Protokol Kontrol Transmisi/Protokol Internet (TCP/IP).

Mengapa eRDMA?

Tumpukan protokol TCP/IP menyediakan protokol komunikasi jaringan arus utama yang menjadi dasar banyak aplikasi. Seiring dengan perkembangan bisnis terkait pusat data, persyaratan lebih tinggi diberlakukan pada kinerja jaringan, seperti latensi lebih rendah dan throughput lebih tinggi. TCP/IP telah menjadi hambatan yang membatasi kinerja jaringan komunikasi karena batasan seperti overhead salinan tinggi, pemrosesan lintas-tumpukan protokol yang kompleks, algoritma CC yang rumit, dan pergantian konteks yang sering.

RDMA membantu menyelesaikan titik-titik masalah tersebut. RDMA menyediakan fitur seperti zero-copy dan kernel bypass untuk mencegah overhead ketika data disalin dan konteks sering beralih. Dibandingkan dengan komunikasi TCP/IP, RDMA menampilkan latensi rendah, throughput tinggi, dan pemanfaatan CPU rendah. Namun, RDMA memiliki beberapa skenario penggunaan karena harga dan biaya O&M yang tinggi.

eRDMA dari Alibaba Cloud dirancang untuk memiliki kompatibilitas inklusif dengan berbagai lingkungan cloud. eRDMA memberikan latensi rendah dan menurunkan persyaratan untuk berbagai aplikasi agar sesuai dengan lingkungan cloud untuk meningkatkan kinerjanya.

Manfaat eRDMA

  • Kinerja Tinggi

    RDMA melewati tumpukan kernel untuk mentransfer data dari program mode-pengguna ke Host Channel Adapter (HCA) untuk transmisi jaringan. Hal ini sangat mengurangi beban CPU dan latensi. eRDMA memberikan keuntungan antarmuka RDMA tradisional dan menerapkan RDMA pada VPC. eRDMA menampilkan latensi ultra-rendah yang disediakan RDMA untuk jaringan cloud.

    Catatan

    HCA adalah kartu antarmuka jaringan perangkat keras (NIC) yang menghubungkan server ke jaringan dan menyediakan dukungan untuk RDMA.

  • Inklusivitas

    Anda dapat mengaktifkan eRDMA secara gratis. Untuk mengaktifkan eRDMA, Anda hanya perlu memilih opsi Elastic RDMA Interface saat membeli Instance ECS.

  • Penerapan Berskala Besar

    RDMA tradisional didasarkan pada jaringan tanpa kehilangan paket, membuat penerapan berskala besar menjadi mahal dan sulit. eRDMA menggunakan algoritma CC yang dikembangkan oleh Alibaba Cloud untuk mengontrol kualitas transmisi dalam VPC, seperti latensi dan loss. eRDMA memberikan performa yang baik dalam jaringan lossy.

  • Skalabilitas

    Dibandingkan dengan RDMA yang memerlukan NIC perangkat keras terpisah, eRDMA menggunakan kartu HCA RDMA yang memiliki atribut cloud berdasarkan arsitektur Shenlong. eRDMA dapat menambahkan perangkat secara dinamis saat Anda menggunakan ECS dan mendukung migrasi panas, yang memungkinkan penerapan fleksibel.

  • VPC Bersama

    eRDMA bergantung pada elastic network interfaces (ENIs) dan menggunakan kembali jaringan tempat ENI berada. Ini memungkinkan Anda mengaktifkan fitur RDMA di jaringan lama tanpa perlu memodifikasi jaringan layanan.

Implementasikan komunikasi eRDMA

  • Aktifkan eRDMA untuk Instance Elastic Compute Service (ECS): Alibaba Cloud menyediakan opsi konfigurasi yang fleksibel dan nyaman bagi Anda untuk dengan cepat mengonfigurasi eRDMA untuk instance ECS, mengaktifkan fitur RDMA dalam VPC, dan membangun koneksi RDMA untuk komunikasi. Untuk mengaktifkan eRDMA untuk instance ECS, Anda harus memilih tipe instance yang mendukung eRDMA untuk instance tersebut, menginstal driver eRDMA pada instance, dan mengikat antarmuka RDMA elastis (ERIs) ke instance. Untuk informasi lebih lanjut, lihat Aktifkan eRDMA pada Instance ECS.

  • Adaptasi Cepat Aplikasi ke eRDMA: Jika Anda ingin menerapkan dan mengonfigurasi logika terkait RDMA dalam aplikasi Anda untuk memenuhi persyaratan latensi rendah, bandwidth tinggi, dan pemanfaatan CPU rendah, Anda dapat menggunakan Network Accelerator (NetACC) atau Server Migration Center (SMC) untuk menyesuaikan aplikasi Anda. Untuk informasi lebih lanjut, lihat Ikhtisar Adaptasi eRDMA dan Aplikasi.

Kemampuan dasar dan spesifikasi eRDMA

Dalam komunikasi jaringan RDMA, Queue Pair (QP), Completion Queue (CQ), Memory Region (MR), dan Opcode verbs adalah komponen inti. Mereka memainkan peran penting dalam komunikasi RDMA dan memastikan efisiensi tinggi serta latensi rendah komunikasi jaringan RDMA.

Bagian ini menjelaskan spesifikasi eRDMA. Saat menggunakan eRDMA, pastikan bahwa persyaratan spesifikasi layanan dipenuhi. Jika tidak, aplikasi Anda mungkin tidak berfungsi sebagaimana mestinya.

QP

QP adalah entitas komunikasi dasar dalam RDMA. Terdiri dari Send Queue (SQ) dan Receive Queue (RQ). QP digunakan untuk mengelola data yang dikirim dan diterima.

  • Fitur: QP memungkinkan aplikasi mengirim dan menerima data. Ini adalah inti dari komunikasi RDMA. Mesin status QP mengelola status koneksi, dari inisialisasi hingga terminasi.

  • Spesifikasi QP eRDMA:

    Item

    Spesifikasi

    Deskripsi

    Metode pembentukan koneksi

    RDMA_CM

    • RDMA_CM digunakan untuk mengelola pembentukan, pemeliharaan, dan penutupan koneksi RDMA. Ini menyederhanakan proses manajemen koneksi RDMA dan memudahkan aplikasi untuk menggunakan fitur RDMA. Biasanya digunakan dalam skenario seperti Message Passing Interface (MPI), Shared Memory Communications over Remote Direct Memory Access (SMC-R), dan PolarDB SCC. Untuk informasi lebih lanjut, lihat Linux rdma_cm.

      Penting

      Secara default, keluarga instance berbasis CPU yang mendukung eRDMA menginstal driver mode-kernel eRDMA dalam mode Standar. Dalam mode ini, hanya metode pembentukan koneksi RDMA_CM yang didukung.

    • eRDMA menyediakan mode Compat untuk aplikasi dalam skenario out-of-band (OOB), seperti TensorFlow, NVIDIA Collective Communications Library (NCCL), dan better Remote Procedure Call (bRPC).

      Penting

    Jenis QP

    RC

    QP jenis RC menyediakan layanan koneksi andal. QP jenis RC mendukung operasi pengiriman, operasi tulis RDMA, operasi baca RDMA, dan operasi atomik.

    Antrian Penerimaan Bersama (SRQ)

    Tidak didukung.

    Tidak ada.

    Jumlah maksimum QP (max_qp_num)

    Parameter ini bervariasi berdasarkan keluarga instance. Hingga 131.071 QP dapat dibuat.

    • Jumlah maksimum QP yang dapat dibuat pada perangkat RDMA atau antarmuka jaringan.

    • Parameter ini menentukan jumlah maksimum koneksi bersamaan yang dapat dibuat dalam jaringan RDMA, yang mempengaruhi skalabilitas dan kemampuan pemrosesan bersamaan jaringan.

    Kedalaman maksimum Work Request (WR) pengiriman (max_send_wr)

    8.192

    • Jumlah maksimum permintaan kerja antrian pengiriman QP.

    • Parameter ini menentukan jumlah operasi transmisi yang dapat dimulai QP secara bersamaan, yang mempengaruhi kinerja transmisi dan throughput QP.

    Kedalaman maksimum WR penerimaan (max_recv_wr)

    32.768

    • Jumlah maksimum permintaan kerja dalam antrian penerimaan QP.

    • Parameter ini menentukan jumlah operasi penerimaan yang dapat ditangani QP secara bersamaan, yang mempengaruhi kinerja dan throughput penerimaan QP.

    Jumlah maksimum SGE dalam WR pengiriman (max_send_sge)

    Catatan

    6

    • Jumlah maksimum elemen scatter-gather (SGE) dalam WR pengiriman.

    • Parameter ini menentukan jumlah segmen memori maksimum yang dapat ditangani QP dalam satu operasi pengiriman, yang mempengaruhi efisiensi dan fleksibilitas transfer data.

    Jumlah maksimum SGE dalam WR penerimaan (max_recv_sge)

    1

    • Jumlah maksimum SGE dalam WR penerimaan.

    • Parameter ini menentukan jumlah segmen memori maksimum yang dapat diproses QP dalam satu operasi penerimaan, yang mempengaruhi efisiensi dan fleksibilitas penerimaan data.

CQ

CQ digunakan untuk memberi tahu aplikasi tentang penyelesaian WR. Ketika operasi RDMA, seperti pengiriman atau penerimaan data, selesai, informasi penyelesaian terkait dimasukkan ke dalam CQ.

  • Fitur: CQ adalah kunci untuk notifikasi penyelesaian operasi asinkron dalam RDMA. CQ membantu aplikasi mengelola peristiwa asinkron dan menangani kesalahan. CQ menyediakan mekanisme untuk memberi tahu aplikasi tentang operasi mana yang selesai, yang penting untuk manajemen operasi asinkron.

  • Spesifikasi CQ eRDMA:

    Item

    Spesifikasi

    Deskripsi

    CQ

    Jumlah CQ bervariasi berdasarkan tipe instance. Jumlah maksimum CQ adalah dua kali jumlah QP.

    Tidak ada.

    Vektor dalam CQ (vector_num)

    Jumlah vektor dalam CQ bervariasi berdasarkan tipe instance. Jumlah maksimum vektor dalam CQ adalah 31. Jumlah CPU terkait dengan jumlah QP.

    • Setiap vektor sesuai dengan interupsi perangkat keras. Dalam penggunaan aktual, setiap CPU dapat dikonfigurasi dengan hingga satu vektor untuk memenuhi persyaratan komunikasi.

    • Setiap vektor terkait dengan antrian peristiwa penyelesaian (CEQ) dalam eRDMA.

    Kedalaman CEQ maksimum

    4.096

    • Kedalaman CEQ maksimum adalah 256 dalam versi 0.2.34.

    • Dalam mode peristiwa, kami sarankan Anda tidak mengikat lebih dari 4.096 CQ ke setiap vektor. Jika tidak, overflow CEQ mungkin terjadi.

    Kedalaman CQ maksimum

    1.048.576

    Tidak ada.

Manajemen memori RDMA

MR dan Memory Window (MW) adalah konsep penting untuk manajemen memori dalam RDMA.

  • MR: Menentukan area memori yang dapat diakses oleh RDMA. Setelah Anda mendaftarkan MR, aplikasi dapat memberikan akses langsung perangkat keras RDMA ke area memori ini.

    • Fitur: MR memungkinkan RDMA melakukan operasi langsung, seperti operasi baca dan tulis, pada memori host jarak jauh. Ini adalah dasar dari fitur zero-copy RDMA.

    • Spesifikasi MR eRDMA:

      Item

      Spesifikasi

      MR

      Jumlah MR bervariasi berdasarkan tipe instance. Jumlah maksimum MR adalah dua kali jumlah QP.

      Ukuran MR maksimum

      Ukuran MR bervariasi berdasarkan perangkat keras dasar. Ukuran MR minimum yang didukung adalah 2 GB dan ukuran MR maksimum yang didukung adalah 64 GB.

  • MW: Alibaba Cloud tidak mendukung MW.

Antarmuka verbs

Verbs adalah dasar dari pemrograman RDMA, yang mendefinisikan serangkaian antarmuka untuk mengontrol perilaku perangkat RDMA. Opcode adalah kode yang digunakan dalam antarmuka ini untuk menentukan jenis operasi tertentu.

  • Fitur: Opcode mendefinisikan jenis operasi RDMA, seperti pengiriman (SEND), penerimaan (RECEIVE), baca (READ), dan tulis (WRITE). Opcode memberikan instruksi spesifik kepada perangkat keras RDMA untuk dilakukan, memungkinkan aplikasi berinteraksi langsung dengan perangkat keras RDMA untuk transfer data yang efisien.

  • Dukungan Opcode:

    Opcode

    Apakah operasi didukung

    RDMA Write

    Didukung

    RDMA Write with Immediate

    Didukung

    RDMA Read

    Didukung

    Send

    Didukung

    Send with Invalidate

    Didukung

    Send with Immediate

    Didukung

    Send with Solicited Event

    Didukung

    Local Invalidate

    Didukung

    Operasi Atomik

    Didukung