Ikhtisar
Text Embedding adalah model penyematan teks multibahasa yang dikembangkan oleh Tongyi Lab berdasarkan model bahasa besar (LLM). Model ini membantu pengembang mengonversi teks dalam beberapa bahasa utama menjadi vektor berkualitas tinggi.
Model | Nama | Dimensi vektor | Jumlah maksimum baris per permintaan | Panjang token maksimum per baris | Bahasa yang didukung |
Text Embedding | text-embedding-v1 | 1.536 | 25 | 2.048 | Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia |
text-embedding-async-v1 | 1.536 | 100.000 | 2.048 | Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia | |
text-embedding-v2 | 1.536 | 25 | 2.048 | Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia | |
text-embedding-async-v2 | 1.536 | 100.000 | 2.048 | Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia | |
text-embedding-v3 | 1.024, 768, atau 512 | 6 | 8.192 | Lebih dari 50 bahasa, termasuk Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia |
Saat ini, hanya text-embedding-v3 yang didukung.
Model text-embedding-v2 mencakup pembaruan berikut dibandingkan dengan text-embedding-v1:
Dukungan untuk lebih banyak bahasa: text-embedding-v2 mendukung Jepang, Korea, Jerman, dan Rusia.
Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v2 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi Fine-Tuning Spesifik (SFT).
Model text-embedding-v3 mencakup pembaruan berikut dibandingkan dengan text-embedding-v2:
Dukungan untuk lebih banyak bahasa: text-embedding-v3 mendukung lebih dari 50 bahasa, termasuk Italia, Polandia, Vietnam, dan Thailand.
Panjang token input: Panjang maksimum token meningkat dari 2.048 menjadi 8.192.
Dimensi vektor padat variabel: text-embedding-v3 memungkinkan Anda memilih dimensi vektor padat antara 512, 768, atau 1.024. Untuk mengurangi biaya tugas hilir sambil mempertahankan kinerja tinggi, dimensi vektor maksimum dikurangi menjadi 1.024.
Perlakuan seragam untuk jenis query dan dokumen: text-embedding-v3 tidak membedakan antara jenis teks input dan tetap mempertahankan kinerja tinggi. Anda tidak perlu menentukan query atau dokumen untuk parameter text_type.
Dukungan untuk vektor jarang: text-embedding-v3 mendukung vektor padat dan vektor jarang. Anda dapat menentukan parameter output_type untuk mengontrol output, apakah berupa vektor padat, vektor jarang, atau keduanya.
Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v3 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi SFT.
Model | MTEB | MTEB (tugas pengambilan) | CMTEB | CMTEB (tugas pengambilan) |
text-embedding-v1 | 58,30 | 45,47 | 59,84 | 56,59 |
text-embedding-v2 | 60,13 | 49,49 | 62,17 | 62,78 |
text-embedding-v3 | 63,39 | 55,41 | 68,92 | 73,23 |
Dimensi vektor berbeda pada text-embedding-v3.
Model | Dimensi vektor | MTEB | MTEB (tugas pengambilan) | CMTEB | CMTEB (tugas pengambilan) |
text-embedding-v3 | 1.024 | 63,39 | 55,41 | 68,92 | 73,23 |
text-embedding-v3 | 768 | 62,43 | 54,74 | 67,90 | 72,29 |
text-embedding-v3 | 512 | 62,11 | 54,30 | 66,81 | 71,88 |
Normalisasi: Secara default, text-embedding-v2 dan text-embedding-v3 menormalisasi vektor keluaran.