Spesifikasi node kueri dan perbandingan performa - Vector Retrieval Service for Milvus

Topik ini menjelaskan tipe Compute Unit (CU) dan jumlah node kueri untuk Vector Retrieval Service for Milvus. Gunakan informasi ini untuk memilih spesifikasi instans yang optimal sesuai dengan beban kerja Anda.

Pengenalan tipe CU

Node kueri dari Vector Retrieval Service for Milvus mendukung tipe CU berikut untuk berbagai skenario bisnis dan kebutuhan:

Dioptimalkan untuk Performa: Ideal untuk skenario yang memerlukan permintaan per detik (QPS) tinggi dan latensi kueri rendah. Instans ini cocok untuk aplikasi dengan konkurensi tinggi, lalu lintas besar, dan latensi rendah, seperti pencarian, sistem rekomendasi, AI generatif, dan chatbot.
Dioptimalkan untuk Kapasitas: Cocok untuk skenario dengan volume data besar tetapi persyaratan efisiensi pencarian lebih rendah. Instans ini menawarkan empat kali kapasitas penyimpanan dibandingkan instans yang dioptimalkan untuk performa dan dapat menyimpan serta mengelola lebih banyak data vektor. Instans ini juga memberikan spesifikasi teknis yang sangat baik untuk memenuhi kebutuhan sebagian besar skenario, seperti pengambilan data tidak terstruktur berskala besar, deteksi hak cipta, dan persiapan data model.
Penting
Tipe CU yang dioptimalkan untuk kapasitas saat ini memiliki batasan berikut:
- Hanya mendukung skalabilitas horizontal (memperluas kapasitas dan skala-masuk). Penskalaan vertikal (peningkatan atau penurunan spesifikasi node) tidak didukung. Oleh karena itu, pastikan spesifikasi CU dengan hati-hati sebelum melakukan pembelian.
- Indeks DiskANN direkomendasikan. Tipe indeks ini hanya mendukung data vektor bertipe Float. Untuk pengukuran jarak vektor, hanya Jarak Euclidean (L2), produk dalam (IP), atau kesamaan kosinus (COSINE) yang didukung.

Perbandingan kapasitas penyimpanan

Tipe CU	Tipe indeks	Spesifikasi CU	Kapasitas (SIFT, 128-dimensi)	Kapasitas (GIST, 960-dimensi)
Dioptimalkan untuk performa	HNSW M:30 efConstruction:360	4 vCPU 16 GiB (4 CUs)	16 juta	3 juta
		8 vCPU 32 GiB (8 CUs)	32 juta	6 juta
		16 vCPU 64 GiB (16 CUs)	64 juta	12 juta
		32 vCPU 128 GiB (32 CUs)	128 juta	24 juta
Dioptimalkan untuk kapasitas	DiskANN	8 vCPU 32 GiB (8 CUs)	120 juta	23 juta
		16 vCPU 64 GiB (16 CUs)	240 juta	46 juta
		32 vCPU 128 GiB (32 CUs)	480 juta	92 juta

Catatan

Data pada tabel di atas didasarkan pada pengujian aktual dan dapat digunakan sebagai referensi untuk evaluasi kapasitas.
Data yang digunakan untuk pengujian kapasitas hanya mencakup kunci utama dan data vektor, tanpa data skalar. Kunci utamanya adalah string yang dikonversi dari bilangan bulat positif auto-increment yang dimulai dari 0. Dalam sebagian besar skenario produksi, bidang skalar penting dan juga mengonsumsi ruang penyimpanan. Hal ini akan menyebabkan jumlah vektor yang tersimpan lebih rendah daripada nilai yang ditunjukkan dalam tabel.

Perbandingan performa pengambilan

Tipe CU	Spesifikasi CU	Tipe indeks	topk=50		topk=100		topk=250		topk=1000
Tipe CU	Spesifikasi CU	Tipe indeks	QPS	RT_p99	QPS	RT_p99	QPS	RT_p99	QPS	RT_p99
Dioptimalkan untuk performa	16 vCPU 64 GiB (16 CUs)	HNSW M:30 efConstruction:360	2000	< 10 ms	1200	< 10 ms	550	< 15 ms	150	< 30 ms
Dioptimalkan untuk kapasitas	16 vCPU 64 GiB (16 CUs)	DiskANN	700	< 15 ms	550	< 20 ms	200	< 30 ms	60	< 50 ms

Catatan

Data pada tabel di atas didasarkan pada hasil pengujian dataset Cohere (10 juta vektor 768-dimensi). Data ini hanya untuk referensi karena performa dipengaruhi oleh distribusi data dari dataset yang berbeda.
Metrik RT_p99 adalah waktu respons persentil ke-99, diukur dengan menjalankan 1.000 kueri secara berurutan.
Data yang digunakan untuk pengujian performa ini hanya mencakup kunci utama dan data vektor, tanpa data skalar. Kunci utamanya adalah bilangan bulat positif auto-increment yang dimulai dari 0. Tipe indeks HNSW digunakan untuk instans yang dioptimalkan untuk performa, dan tipe indeks DiskANN digunakan untuk instans yang dioptimalkan untuk kapasitas.
Vector Retrieval Service for Milvus secara berkala mengoptimalkan indeks vektor di latar belakang. Proses ini biasanya selesai dalam waktu 3 jam setelah data ditulis, pada titik mana performa sistem mencapai kondisi optimalnya.

Jumlah node kueri

Vector Retrieval Service for Milvus mendukung penyesuaian jumlah node kueri, mulai dari 1 hingga 50. Jumlah node yang lebih tinggi mendukung QPS yang lebih tinggi dalam hubungan linear. Lebih banyak node juga meningkatkan ketersediaan layanan. Oleh karena itu, untuk lingkungan produksi yang memerlukan ketersediaan tinggi, pilih setidaknya 2 node.

Analisis skenario

Jika Anda sedang membangun sistem pengambilan citra dengan 20 juta gambar, di mana setiap gambar direpresentasikan oleh vektor 768-dimensi, dan tujuan Anda adalah memproses 2.000 permintaan pencarian per detik serta mengembalikan 100 citra terkait teratas dalam waktu 10 milidetik, Anda dapat mengevaluasi opsi Anda sebagai berikut:

Penilaian Latensi: Pilih tipe CU yang sesuai berdasarkan persyaratan latensi Anda. Misalnya, jika Anda memerlukan latensi kurang dari 10 milidetik, CU yang dioptimalkan untuk performa adalah satu-satunya tipe yang dapat memenuhi persyaratan ini.
Pertimbangan Kapasitas: Hitung jumlah CU yang diperlukan berdasarkan volume data dan dimensinya. Satu CU yang dioptimalkan untuk performa dengan 16 vCPU dan 64 GiB (16 CUs) dapat menangani 12 juta vektor 960-dimensi. Untuk menampung 20 juta vektor 768-dimensi, Anda harus mengonfigurasi setidaknya dua CU ini untuk total 32 CUs.
Pemeriksaan Throughput: Verifikasi throughput setiap CU untuk pengaturan top-k tertentu. Misalnya, dengan pengaturan top-k 100, CU yang dioptimalkan untuk performa memberikan QPS sebesar 1.200. Untuk mencapai performa berkelanjutan sebesar 2.000 QPS, Anda harus menggandakan jumlah node.

Secara keseluruhan, untuk skenario aplikasi ini, pilih CU yang dioptimalkan untuk performa dan konfigurasikan 4 node, masing-masing dengan spesifikasi 16 vCPU dan 64 GiB (16 CUs), untuk memenuhi persyaratan performa.