Topik ini menjelaskan spesifikasi kluster DashVector dan cara memilih kluster berdasarkan kebutuhan bisnis Anda.
Jenis kluster
DashVector menyediakan tiga jenis kluster untuk memenuhi kebutuhan berbagai skenario bisnis:
Tipe dioptimalkan performa: Kluster ini cocok untuk skenario yang memerlukan QPS tinggi, latensi query rendah, atau efisiensi penulisan tinggi. Direkomendasikan untuk skenario dengan konkurensi tinggi, lalu lintas tinggi, atau latensi rendah.
Tipe Dioptimalkan Penyimpanan (Direkomendasikan): Kluster tipe ini memiliki kapasitas penyimpanan lima kali lebih besar dibandingkan kluster tipe dioptimalkan performa, memungkinkan penyimpanan dan pengelolaan data vektor dalam jumlah besar. Oleh karena itu, tipe ini sangat cocok untuk skenario dengan volume data yang signifikan. Kluster tipe dioptimalkan penyimpanan menawarkan metrik teknis yang unggul dan mampu memenuhi kebutuhan di sebagian besar skenario. Tipe ini direkomendasikan sebagai pilihan paling hemat biaya.
Uji coba gratis: Kluster ini dirancang untuk pengujian dan evaluasi, namun tidak dapat digunakan di lingkungan produksi online. Masa berlaku satu bulan, dengan kemungkinan pengajuan uji coba lain setelah periode tersebut berakhir. Beberapa batasan berlaku. Untuk informasi lebih lanjut, lihat Batasan.
Kluster tipe uji coba gratis berlaku selama satu bulan. Setelah periode uji coba gratis berakhir, kluster akan secara otomatis dilepaskan, dan semua data dalam kluster akan dihapus dan tidak dapat dipulihkan. Untuk menjaga kluster tetap valid lebih lama, tingkatkan kluster tipe uji coba gratis ke kluster berbayar dalam waktu 30 hari sejak kluster uji coba gratis dibuat. Alibaba Cloud tidak bertanggung jawab atas penghapusan data yang disebabkan oleh kedaluwarsa kluster uji coba gratis yang gagal ditingkatkan ke kluster berbayar.
Spesifikasi kluster
DashVector menyediakan kluster dengan spesifikasi berbeda, terutama bervariasi dalam kapasitas penyimpanan.
Referensi tentang kapasitas penyimpanan
Jenis kluster | Spesifikasi kluster | Jumlah dokumen (berdasarkan vektor FP32 dengan 768 dimensi) | Jumlah dokumen (berdasarkan vektor FP32 dengan 1.536 dimensi) |
Tipe dioptimalkan performa | P.small | 500.000 | 250.000 |
P.large | 1.000.000 | 500.000 | |
P.2xlarge | 2.000.000 | 1.000.000 | |
P.4xlarge | 4.000.000 | 2.000.000 | |
P.8xlarge | 8.000.000 | 4.000.000 | |
P.16xlarge | 16.000.000 | 8.000.000 | |
Tipe dioptimalkan penyimpanan | S.small | 2.500.000 | 1.250.000 |
S.large | 5.000.000 | 2.500.000 | |
S.2xlarge | 10.000.000 | 5.000.000 | |
S.4xlarge | 20.000.000 | 10.000.000 | |
S.8xlarge | 40.000.000 | 20.000.000 | |
S.16xlarge | 80.000.000 | 40.000.000 | |
Penting Jika Anda memerlukan kluster dengan spesifikasi lebih tinggi, memiliki umpan balik, atau ingin mendapatkan dukungan teknis lebih lanjut, jangan ragu untuk menghubungi kami melalui cara-cara berikut:
| |||
Data dalam tabel di atas diverifikasi melalui pengujian kapasitas dan hanya untuk referensi.
Dokumen dalam pengujian kapasitas tidak mengandung bidang apa pun, hanya kunci utama dan vektor. Kunci utama adalah string yang dikonversi dari bilangan bulat positif auto-increment berbasis nol. Dalam skenario produksi nyata, bidang tambahan biasanya diperlukan dan memengaruhi ruang penyimpanan, sehingga jumlah dokumen yang dapat disimpan mungkin lebih kecil daripada yang ditampilkan dalam tabel.
Referensi tentang performa pencarian
Jenis kluster | Spesifikasi kluster | topk=10 | topk=100 | topk=250 | topk=1000 | ||||
QPS | RT_p99 | QPS | RT_p99 | QPS | RT_p99 | QPS | RT_p99 | ||
Tipe dioptimalkan performa | P.large (berdasarkan satu juta vektor FP32 dengan 768 dimensi) | 962,6 | < 30 ms | 429,7 | < 30 ms | 387,5 | < 45 ms | 134,7 | < 250 ms |
Tipe dioptimalkan penyimpanan | S.large (berdasarkan lima juta vektor FP32 dengan 768 dimensi) | 297,6 | < 30 ms | 112,5 | < 30 ms | 107,4 | < 50 ms | 37,1 | < 300 ms |
Data dalam tabel di atas diperoleh dari pengujian performa aktual menggunakan dataset Cohere, namun hanya untuk referensi karena distribusi data dataset dapat memengaruhi hasil.
Dokumen dalam pengujian performa tidak mengandung bidang apa pun, hanya kunci utama dan vektor. Kunci utama adalah string yang dikonversi dari bilangan bulat positif auto-increment berbasis nol.
DashVector mengoptimalkan indeks vektor di backend sesuai jadwal. Optimasi biasanya selesai dalam 4 jam setelah data ditulis, dengan performa optimal pada saat itu.
Untuk semua spesifikasi kluster, QPS tetap konsisten atau lebih tinggi meskipun volume data meningkat. Sebagai contoh, QPS permintaan top 100 dapat mencapai 600 atau lebih tinggi meskipun dua juta vektor FP32 dengan 768 dimensi memenuhi kapasitas penyimpanan kluster P.2xlarge.
Jumlah replika
DashVector memungkinkan Anda menetapkan jumlah replika antara 1 hingga 5. Data di semua replika identik. QPS meningkat secara linear dengan jumlah replika, sementara lebih banyak replika meningkatkan ketersediaan layanan. Kami merekomendasikan minimal dua replika untuk lingkungan produksi dengan persyaratan ketersediaan tinggi.
Modifikasi jumlah replika hanya memengaruhi QPS dan ketersediaan layanan, tanpa memengaruhi kapasitas penyimpanan.