Konfigurasi dan parameter komponen Doc2Vec - Platform For AI

Doc2Vec adalah algoritma pembelajaran mesin yang digunakan untuk menghasilkan vektor dokumen. Algoritma ini memperlakukan ID dokumen sebagai kata-kata khusus selama pelatihan, mempelajari vektor kalimat dan vektor kata yang sesuai dengan ID tersebut. Dengan demikian, artikel dapat ditransformasikan menjadi vektor, memungkinkan perbandingan hubungan semantik antara dokumen melalui jarak dalam ruang vektor. Input terdiri dari kosakata, sedangkan outputnya berupa tabel vektor dokumen, tabel vektor kata, atau tabel kosakata.

Batasan

Komponen Doc2Vec dapat digunakan berdasarkan sumber daya komputasi MaxCompute.

Konfigurasi Komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Doc2Vec:

Metode 1: Konfigurasikan komponen di Konsol PAI

Anda dapat mengonfigurasi parameter komponen Doc2Vec pada halaman pipeline Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

Tab	Parameter	Deskripsi
Fields Setting	Document ID Column	Nama kolom dokumen yang digunakan untuk pelatihan.
Fields Setting	Document Content	Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi.
Parameters Setting	Dimensions of Word Features	Jumlah dimensi kata. Nilai valid: 0 hingga 1000. Nilai default: 100.
	Language Model	Model bahasa yang digunakan untuk pelatihan. Nilai valid: Skip-gram Model (default) CBOW Model
	Word Window Size	Ukuran jendela kata. Nilainya harus bilangan bulat positif. Nilai default: 5.
	Minimum Frequency of Words	Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif. Nilai default: 5.
	Hierarchical Softmax	Menentukan apakah akan menggunakan softmax hirarkis. Secara default, Softmax Hirarkis dipilih.
	Negative Sampling	Ukuran jendela pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai default: 5. Nilai 0 menunjukkan bahwa fitur pengambilan sampel negatif tidak tersedia.
	Downsampling Threshold	Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia.
	Initial Learning Rate	Tingkat pembelajaran awal. Nilainya harus lebih besar dari 0. Nilai default: 0,025.
	Training Iterations	Jumlah iterasi. Nilainya harus lebih besar dari atau sama dengan 1. Nilai default: 1.
	Use Random Window	Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: A Random Value Between 1 to 5 dan Specified by the Window Parameter. Nilai default: Specified by the Window Parameter.
Tuning	Number of Computing Cores	Jumlah inti komputasi. Secara default, sistem menentukan nilainya.
Tuning	Memory Size per Core (MB)	Ukuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Konfigurasikan komponen dengan menggunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Bagian berikut menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL.

PAI -name pai_doc2vec
    -project algo_public
    -DinputTableName="d2v_input"
    -DdocIdColName="docid"
    -DdocColName="text_seg"
    -DoutputWordTableName="d2v_word_output"
    -DoutputDocTableName="d2v_doc_output";

Parameter	Diperlukan	Deskripsi	Nilai default
inputTableName	Ya	Nama tabel kosakata input.	Tidak Ada
inputTablePartitions	Tidak	Nama partisi yang digunakan untuk segmentasi kata dalam tabel kosakata input. Format: `partition_name=value`. Tentukan beberapa partisi dalam format berikut: `name1=value1/name2=value2`. Pisahkan beberapa partisi dengan koma (,).	Tidak Ada
docIdColName	Ya	Nama kolom dokumen yang digunakan untuk pelatihan.	Tidak Ada
docColName	Ya	Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi.	Tidak Ada
layerSize	Tidak	Jumlah dimensi kata. Nilai valid: 0 hingga 1000.	100
cbow	Tidak	Model bahasa yang digunakan untuk pelatihan. Nilai valid: 0 dan 1. Nilai 0 menunjukkan model skip-gram, dan nilai 1 menunjukkan model CBOW.	0
window	Tidak	Ukuran jendela kata. Nilainya harus bilangan bulat positif.	5
minCount	Tidak	Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif.	5
hs	Tidak	Menentukan apakah akan menggunakan softmax hirarkis. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa softmax hirarkis tidak digunakan, dan nilai 1 menunjukkan bahwa softmax hirarkis digunakan.	1
negative	Tidak	Ukuran jendela untuk pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai 0 menunjukkan bahwa fitur contoh negatif tidak tersedia.	5
sample	Tidak	Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia.	1e-3
alpha	Tidak	Nilainya harus lebih besar dari 0.	0,025
iterTrain	Tidak	Nilainya harus lebih besar dari atau sama dengan 1.	1
randomWindow	Tidak	Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa nilainya ditetapkan oleh parameter jendela, dan nilai 1 menunjukkan nilai acak dari 1 hingga 5.	1
outVocabularyTableName	Tidak	Nama tabel kosakata output.	Tidak Ada
outputWordTableName	Ya	Nama tabel vektor kata output.	Tidak Ada
outputDocTableName	Ya	Nama tabel vektor dokumen output.	Tidak Ada
lifecycle	Tidak	Siklus hidup tabel output. Nilainya harus bilangan bulat positif.	Tidak Ada
coreNum	Tidak	Jumlah inti. Parameter ini dan parameter memSizePerCore hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif.	Dialokasikan secara otomatis
memSizePerCore	Tidak	Ukuran memori setiap inti. Parameter ini dan parameter coreNum hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif.	Dialokasikan secara otomatis

Referensi

Untuk informasi tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.