Doc2Vec adalah algoritma pembelajaran mesin yang digunakan untuk menghasilkan vektor dokumen. Algoritma ini memperlakukan ID dokumen sebagai kata-kata khusus selama pelatihan, mempelajari vektor kalimat dan vektor kata yang sesuai dengan ID tersebut. Dengan demikian, artikel dapat ditransformasikan menjadi vektor, memungkinkan perbandingan hubungan semantik antara dokumen melalui jarak dalam ruang vektor. Input terdiri dari kosakata, sedangkan outputnya berupa tabel vektor dokumen, tabel vektor kata, atau tabel kosakata.
Batasan
Komponen Doc2Vec dapat digunakan berdasarkan sumber daya komputasi MaxCompute.
Konfigurasi Komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Doc2Vec:
Metode 1: Konfigurasikan komponen di Konsol PAI
Anda dapat mengonfigurasi parameter komponen Doc2Vec pada halaman pipeline Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Document ID Column | Nama kolom dokumen yang digunakan untuk pelatihan. |
Document Content | Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi. | |
Parameters Setting | Dimensions of Word Features | Jumlah dimensi kata. Nilai valid: 0 hingga 1000. Nilai default: 100. |
Language Model | Model bahasa yang digunakan untuk pelatihan. Nilai valid:
| |
Word Window Size | Ukuran jendela kata. Nilainya harus bilangan bulat positif. Nilai default: 5. | |
Minimum Frequency of Words | Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif. Nilai default: 5. | |
Hierarchical Softmax | Menentukan apakah akan menggunakan softmax hirarkis. Secara default, Softmax Hirarkis dipilih. | |
Negative Sampling | Ukuran jendela pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai default: 5. Nilai 0 menunjukkan bahwa fitur pengambilan sampel negatif tidak tersedia. | |
Downsampling Threshold | Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia. | |
Initial Learning Rate | Tingkat pembelajaran awal. Nilainya harus lebih besar dari 0. Nilai default: 0,025. | |
Training Iterations | Jumlah iterasi. Nilainya harus lebih besar dari atau sama dengan 1. Nilai default: 1. | |
Use Random Window | Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: A Random Value Between 1 to 5 dan Specified by the Window Parameter. Nilai default: Specified by the Window Parameter. | |
Tuning | Number of Computing Cores | Jumlah inti komputasi. Secara default, sistem menentukan nilainya. |
Memory Size per Core (MB) | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya. |
Metode 2: Konfigurasikan komponen dengan menggunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Bagian berikut menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL.
PAI -name pai_doc2vec
-project algo_public
-DinputTableName="d2v_input"
-DdocIdColName="docid"
-DdocColName="text_seg"
-DoutputWordTableName="d2v_word_output"
-DoutputDocTableName="d2v_doc_output";Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel kosakata input. | Tidak Ada |
inputTablePartitions | Tidak | Nama partisi yang digunakan untuk segmentasi kata dalam tabel kosakata input. Format: | Tidak Ada |
docIdColName | Ya | Nama kolom dokumen yang digunakan untuk pelatihan. | Tidak Ada |
docColName | Ya | Kata-kata yang digunakan untuk pelatihan. Pisahkan kata-kata ini dengan spasi. | Tidak Ada |
layerSize | Tidak | Jumlah dimensi kata. Nilai valid: 0 hingga 1000. | 100 |
cbow | Tidak | Model bahasa yang digunakan untuk pelatihan. Nilai valid: 0 dan 1. Nilai 0 menunjukkan model skip-gram, dan nilai 1 menunjukkan model CBOW. | 0 |
window | Tidak | Ukuran jendela kata. Nilainya harus bilangan bulat positif. | 5 |
minCount | Tidak | Frekuensi minimum kata untuk pemotongan. Nilainya harus bilangan bulat positif. | 5 |
hs | Tidak | Menentukan apakah akan menggunakan softmax hirarkis. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa softmax hirarkis tidak digunakan, dan nilai 1 menunjukkan bahwa softmax hirarkis digunakan. | 1 |
negative | Tidak | Ukuran jendela untuk pengambilan sampel negatif. Nilainya harus bilangan bulat positif. Nilai 0 menunjukkan bahwa fitur contoh negatif tidak tersedia. | 5 |
sample | Tidak | Ambang batas untuk downsampling. Nilai valid: 1e-3 hingga 1e-5. Nilai default: 1e-3. Nilai 0 menunjukkan bahwa fitur downsampling tidak tersedia. | 1e-3 |
alpha | Tidak | Nilainya harus lebih besar dari 0. | 0,025 |
iterTrain | Tidak | Nilainya harus lebih besar dari atau sama dengan 1. | 1 |
randomWindow | Tidak | Mode yang digunakan untuk menampilkan jendela kata. Nilai valid: 0 dan 1. Nilai 0 menunjukkan bahwa nilainya ditetapkan oleh parameter jendela, dan nilai 1 menunjukkan nilai acak dari 1 hingga 5. | 1 |
outVocabularyTableName | Tidak | Nama tabel kosakata output. | Tidak Ada |
outputWordTableName | Ya | Nama tabel vektor kata output. | Tidak Ada |
outputDocTableName | Ya | Nama tabel vektor dokumen output. | Tidak Ada |
lifecycle | Tidak | Siklus hidup tabel output. Nilainya harus bilangan bulat positif. | Tidak Ada |
coreNum | Tidak | Jumlah inti. Parameter ini dan parameter memSizePerCore hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif. | Dialokasikan secara otomatis |
memSizePerCore | Tidak | Ukuran memori setiap inti. Parameter ini dan parameter coreNum hanya berlaku jika Anda mengonfigurasi kedua parameter tersebut. Nilainya harus bilangan bulat positif. | Dialokasikan secara otomatis |
Referensi
Untuk informasi tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.