全部产品
Search
文档中心

Platform For AI:Doc2Vec

更新时间:Jul 02, 2025

Doc2Vec adalah algoritma pembelajaran mesin yang digunakan untuk menghasilkan vektor dokumen. Algoritma ini memperlakukan ID dokumen sebagai kata-kata khusus selama pelatihan, mempelajari vektor kalimat dan vektor kata yang sesuai dengan ID tersebut. Dengan demikian, artikel dapat ditransformasikan menjadi vektor, memungkinkan perbandingan hubungan semantik antara dokumen melalui jarak dalam ruang vektor. Input terdiri dari kosakata, sedangkan outputnya berupa tabel vektor dokumen, tabel vektor kata, atau tabel kosakata.

Batasan

Komponen Doc2Vec dapat digunakan berdasarkan sumber daya komputasi MaxCompute.

Konfigurasi Komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Doc2Vec:

Metode 1: Konfigurasikan komponen di Konsol PAI

Anda dapat mengonfigurasi parameter komponen Doc2Vec pada halaman pipeline Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Document ID Column

Nama kolom dokumen yang digunakan untuk pelatihan.

Document Content

Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi.

Parameters Setting

Dimensions of Word Features

Jumlah dimensi kata. Nilai valid: 0 hingga 1000. Nilai default: 100.

Language Model

Model bahasa yang digunakan untuk pelatihan. Nilai valid:

  • Skip-gram Model (default)

  • CBOW Model

Word Window Size

Ukuran jendela kata. Nilainya harus bilangan bulat positif. Nilai default: 5.

Minimum Frequency of Words

Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif. Nilai default: 5.

Hierarchical Softmax

Menentukan apakah akan menggunakan softmax hirarkis. Secara default, Softmax Hirarkis dipilih.

Negative Sampling

Ukuran jendela pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai default: 5. Nilai 0 menunjukkan bahwa fitur pengambilan sampel negatif tidak tersedia.

Downsampling Threshold

Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia.

Initial Learning Rate

Tingkat pembelajaran awal. Nilainya harus lebih besar dari 0. Nilai default: 0,025.

Training Iterations

Jumlah iterasi. Nilainya harus lebih besar dari atau sama dengan 1. Nilai default: 1.

Use Random Window

Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: A Random Value Between 1 to 5 dan Specified by the Window Parameter. Nilai default: Specified by the Window Parameter.

Tuning

Number of Computing Cores

Jumlah inti komputasi. Secara default, sistem menentukan nilainya.

Memory Size per Core (MB)

Ukuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Konfigurasikan komponen dengan menggunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Bagian berikut menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL.

PAI -name pai_doc2vec
    -project algo_public
    -DinputTableName="d2v_input"
    -DdocIdColName="docid"
    -DdocColName="text_seg"
    -DoutputWordTableName="d2v_word_output"
    -DoutputDocTableName="d2v_doc_output";

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel kosakata input.

Tidak Ada

inputTablePartitions

Tidak

Nama partisi yang digunakan untuk segmentasi kata dalam tabel kosakata input. Format: partition_name=value. Tentukan beberapa partisi dalam format berikut: name1=value1/name2=value2. Pisahkan beberapa partisi dengan koma (,).

Tidak Ada

docIdColName

Ya

Nama kolom dokumen yang digunakan untuk pelatihan.

Tidak Ada

docColName

Ya

Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi.

Tidak Ada

layerSize

Tidak

Jumlah dimensi kata. Nilai valid: 0 hingga 1000.

100

cbow

Tidak

Model bahasa yang digunakan untuk pelatihan. Nilai valid: 0 dan 1. Nilai 0 menunjukkan model skip-gram, dan nilai 1 menunjukkan model CBOW.

0

window

Tidak

Ukuran jendela kata. Nilainya harus bilangan bulat positif.

5

minCount

Tidak

Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif.

5

hs

Tidak

Menentukan apakah akan menggunakan softmax hirarkis. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa softmax hirarkis tidak digunakan, dan nilai 1 menunjukkan bahwa softmax hirarkis digunakan.

1

negative

Tidak

Ukuran jendela untuk pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai 0 menunjukkan bahwa fitur contoh negatif tidak tersedia.

5

sample

Tidak

Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia.

1e-3

alpha

Tidak

Nilainya harus lebih besar dari 0.

0,025

iterTrain

Tidak

Nilainya harus lebih besar dari atau sama dengan 1.

1

randomWindow

Tidak

Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa nilainya ditetapkan oleh parameter jendela, dan nilai 1 menunjukkan nilai acak dari 1 hingga 5.

1

outVocabularyTableName

Tidak

Nama tabel kosakata output.

Tidak Ada

outputWordTableName

Ya

Nama tabel vektor kata output.

Tidak Ada

outputDocTableName

Ya

Nama tabel vektor dokumen output.

Tidak Ada

lifecycle

Tidak

Siklus hidup tabel output. Nilainya harus bilangan bulat positif.

Tidak Ada

coreNum

Tidak

Jumlah inti. Parameter ini dan parameter memSizePerCore hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif.

Dialokasikan secara otomatis

memSizePerCore

Tidak

Ukuran memori setiap inti. Parameter ini dan parameter coreNum hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif.

Dialokasikan secara otomatis

Referensi

Untuk informasi tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.