Ikhtisar Model - - 阿里云

Ikhtisar

Text Embedding adalah model penyematan teks multibahasa yang dikembangkan oleh Tongyi Lab berdasarkan model bahasa besar (LLM). Model ini membantu pengembang mengonversi teks dalam beberapa bahasa utama menjadi vektor berkualitas tinggi.

Model	Nama	Dimensi vektor	Jumlah maksimum baris per permintaan	Panjang token maksimum per baris	Bahasa yang didukung
Text Embedding	text-embedding-v1	1.536	25	2.048	Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia
	text-embedding-async-v1	1.536	100.000	2.048	Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia
	text-embedding-v2	1.536	25	2.048	Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia
	text-embedding-async-v2	1.536	100.000	2.048	Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia
	text-embedding-v3	1.024, 768, atau 512	6	8.192	Lebih dari 50 bahasa, termasuk Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia

Catatan

Saat ini, hanya text-embedding-v3 yang didukung.

Model text-embedding-v2 mencakup pembaruan berikut dibandingkan dengan text-embedding-v1:

Dukungan untuk lebih banyak bahasa: text-embedding-v2 mendukung Jepang, Korea, Jerman, dan Rusia.
Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v2 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi Fine-Tuning Spesifik (SFT).

Catatan

Model text-embedding-v3 mencakup pembaruan berikut dibandingkan dengan text-embedding-v2:

Dukungan untuk lebih banyak bahasa: text-embedding-v3 mendukung lebih dari 50 bahasa, termasuk Italia, Polandia, Vietnam, dan Thailand.
Panjang token input: Panjang maksimum token meningkat dari 2.048 menjadi 8.192.
Dimensi vektor padat variabel: text-embedding-v3 memungkinkan Anda memilih dimensi vektor padat antara 512, 768, atau 1.024. Untuk mengurangi biaya tugas hilir sambil mempertahankan kinerja tinggi, dimensi vektor maksimum dikurangi menjadi 1.024.
Perlakuan seragam untuk jenis query dan dokumen: text-embedding-v3 tidak membedakan antara jenis teks input dan tetap mempertahankan kinerja tinggi. Anda tidak perlu menentukan query atau dokumen untuk parameter text_type.
Dukungan untuk vektor jarang: text-embedding-v3 mendukung vektor padat dan vektor jarang. Anda dapat menentukan parameter output_type untuk mengontrol output, apakah berupa vektor padat, vektor jarang, atau keduanya.
Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v3 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi SFT.

Model	MTEB	MTEB (tugas pengambilan)	CMTEB	CMTEB (tugas pengambilan)
text-embedding-v1	58,30	45,47	59,84	56,59
text-embedding-v2	60,13	49,49	62,17	62,78
text-embedding-v3	63,39	55,41	68,92	73,23

Dimensi vektor berbeda pada text-embedding-v3.

Model	Dimensi vektor	MTEB	MTEB (tugas pengambilan)	CMTEB	CMTEB (tugas pengambilan)
text-embedding-v3	1.024	63,39	55,41	68,92	73,23
text-embedding-v3	768	62,43	54,74	67,90	72,29
text-embedding-v3	512	62,11	54,30	66,81	71,88

Normalisasi: Secara default, text-embedding-v2 dan text-embedding-v3 menormalisasi vektor keluaran.