全部产品
Search
文档中心

:Ikhtisar Model

更新时间:Nov 09, 2025

Ikhtisar

Text Embedding adalah model penyematan teks multibahasa yang dikembangkan oleh Tongyi Lab berdasarkan model bahasa besar (LLM). Model ini membantu pengembang mengonversi teks dalam beberapa bahasa utama menjadi vektor berkualitas tinggi.

Model

Nama

Dimensi vektor

Jumlah maksimum baris per permintaan

Panjang token maksimum per baris

Bahasa yang didukung

Text Embedding

text-embedding-v1

1.536

25

2.048

Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia

text-embedding-async-v1

1.536

100.000

2.048

Cina, Inggris, Spanyol, Prancis, Portugis, dan Indonesia

text-embedding-v2

1.536

25

2.048

Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia

text-embedding-async-v2

1.536

100.000

2.048

Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia

text-embedding-v3

1.024, 768, atau 512

6

8.192

Lebih dari 50 bahasa, termasuk Cina, Inggris, Spanyol, Prancis, Portugis, Indonesia, Jepang, Korea, Jerman, dan Rusia

Catatan

Saat ini, hanya text-embedding-v3 yang didukung.

Model text-embedding-v2 mencakup pembaruan berikut dibandingkan dengan text-embedding-v1:

  • Dukungan untuk lebih banyak bahasa: text-embedding-v2 mendukung Jepang, Korea, Jerman, dan Rusia.

  • Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v2 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi Fine-Tuning Spesifik (SFT).

Catatan

Model text-embedding-v3 mencakup pembaruan berikut dibandingkan dengan text-embedding-v2:

  • Dukungan untuk lebih banyak bahasa: text-embedding-v3 mendukung lebih dari 50 bahasa, termasuk Italia, Polandia, Vietnam, dan Thailand.

  • Panjang token input: Panjang maksimum token meningkat dari 2.048 menjadi 8.192.

  • Dimensi vektor padat variabel: text-embedding-v3 memungkinkan Anda memilih dimensi vektor padat antara 512, 768, atau 1.024. Untuk mengurangi biaya tugas hilir sambil mempertahankan kinerja tinggi, dimensi vektor maksimum dikurangi menjadi 1.024.

  • Perlakuan seragam untuk jenis query dan dokumen: text-embedding-v3 tidak membedakan antara jenis teks input dan tetap mempertahankan kinerja tinggi. Anda tidak perlu menentukan query atau dokumen untuk parameter text_type.

  • Dukungan untuk vektor jarang: text-embedding-v3 mendukung vektor padat dan vektor jarang. Anda dapat menentukan parameter output_type untuk mengontrol output, apakah berupa vektor padat, vektor jarang, atau keduanya.

  • Kinerja: Hasil evaluasi dataset publik menunjukkan peningkatan kinerja keseluruhan text-embedding-v3 melalui penggunaan model pra-latih sebagai dasar dan penerapan strategi SFT.

Model

MTEB

MTEB (tugas pengambilan)

CMTEB

CMTEB (tugas pengambilan)

text-embedding-v1

58,30

45,47

59,84

56,59

text-embedding-v2

60,13

49,49

62,17

62,78

text-embedding-v3

63,39

55,41

68,92

73,23

  • Dimensi vektor berbeda pada text-embedding-v3.

Model

Dimensi vektor

MTEB

MTEB (tugas pengambilan)

CMTEB

CMTEB (tugas pengambilan)

text-embedding-v3

1.024

63,39

55,41

68,92

73,23

text-embedding-v3

768

62,43

54,74

67,90

72,29

text-embedding-v3

512

62,11

54,30

66,81

71,88

  • Normalisasi: Secara default, text-embedding-v2 dan text-embedding-v3 menormalisasi vektor keluaran.