Komponen Kesamaan String - top N digunakan untuk menghitung kesamaan string dan mendapatkan N data rekaman teratas yang paling cocok dengan tabel pemetaan. Topik ini menjelaskan cara mengonfigurasi komponen Kesamaan String - top N di Platform for AI (PAI).
Mengonfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Kesamaan String - top N:
Metode 1: Mengonfigurasi komponen di konsol PAI
Anda dapat mengonfigurasi parameter komponen Kesamaan String - top N di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Columns from the Input Table Appended to the Output Table | Nama kolom yang ingin ditambahkan ke tabel output dari tabel input. |
Columns from the Mapping Table Appended to the Output Table | Nama kolom yang ingin ditambahkan ke tabel output dari tabel pemetaan. | |
Columns from Left Table for Similarity Calculation | Nama kolom tabel kiri yang digunakan untuk perhitungan kesamaan. | |
Columns from the Mapping Table for Similarity Calculation | Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan. Kesamaan antara baris di tabel kiri dan semua string di tabel pemetaan dihitung, dan hasil N teratas dikembalikan. | |
Similarity Column in Output Table | Nama kolom kesamaan di tabel output. Nama dapat memiliki panjang hingga 128 karakter dan hanya dapat berisi huruf, angka, serta garis bawah (_). Nama harus dimulai dengan huruf. Nilai default: output. | |
Parameters Setting | Number of Similarity Maximums in the End | Jumlah nilai kesamaan N teratas. Nilai harus berupa bilangan bulat positif. Nilai default: 10. |
Similarity Calculation Methods | Metode yang digunakan untuk perhitungan kesamaan. Nilai valid:
| |
Length of Substring | Parameter ini diperlukan hanya jika Anda menetapkan parameter Similarity Calculation Methods ke ssk, cosine, atau simhash_hamming_sim. Nilai valid: (0,100). Nilai default: 2. | |
Weight of Matching String | Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Rentang nilai: (0,1). Nilai default: 0,5. | |
Tuning | Number of Computing Cores | Jumlah inti komputasi. Secara default, sistem menentukan nilainya. |
Memory Size per Core (MB) | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya. |
Metode 2: Mengonfigurasi komponen dengan menggunakan perintah PAI
Tabel berikut menjelaskan parameter yang digunakan dalam perintah PAI. Anda dapat menggunakan komponen skrip SQL untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name string_similarity_topn
-project algo_public
-DinputTableName="pai_test_string_similarity_topn"
-DoutputTableName="pai_test_string_similarity_topn_output"
-DmapTableName="pai_test_string_similarity_map_topn"
-DinputSelectedColName="col0"
-DmapSelectedColName="col1";Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel input. | N/A |
mapTableName | Ya | Nama tabel pemetaan. | N/A |
Ya | Nama tabel output. | N/A | |
inputSelectedColName1 | Tidak | Nama kolom tabel kiri yang digunakan untuk perhitungan kesamaan. | Nama kolom STRING pertama di tabel kiri |
inputSelectedColName2 | Tidak | Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan. | Nama kolom STRING pertama di tabel pemetaan |
inputAppendColNames | Tidak | Nama kolom yang ingin Anda tambahkan ke tabel output dari tabel input. | N/A |
inputAppendRenameColNames | Tidak | Alias kolom yang ingin Anda tambahkan ke tabel output dari tabel input. | N/A |
mapSelectedColName | Ya | Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan. | N/A |
mapAppendColNames | Tidak | Nama kolom yang ingin Anda tambahkan ke tabel output dari tabel pemetaan. | N/A |
mapAppendRenameColNames | Tidak | Alias kolom yang ingin Anda tambahkan ke tabel output dari tabel pemetaan. | N/A |
inputTablePartitions | Tidak | Nama partisi di tabel input. | Semua partisi |
mapTablePartitions | Tidak | Nama partisi di tabel pemetaan. | Semua partisi |
outputColName | Tidak | Nama kolom kesamaan di tabel output. Nama dapat memiliki panjang hingga 128 karakter dan hanya dapat berisi huruf, angka, dan garis bawah (_). Nama harus dimulai dengan huruf. | output |
method | Tidak | Metode yang digunakan untuk perhitungan kesamaan. Nilai valid:
| levenshtein_sim |
lambda | Tidak | Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Rentang nilai: (0,1). | 0,5 |
k | Tidak | Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Nilai valid: (0,100). | 2 |
lifecycle | Tidak | Lifecycle tabel output. Nilai harus berupa bilangan bulat positif. | N/A |
coreNum | Tidak | Jumlah inti yang digunakan. | Ditetapkan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap inti. | Ditetapkan oleh sistem |
Penggunaan sumber daya dan estimasi biaya
Komponen Kesamaan String - top N menggunakan algoritma kompleks dengan kompleksitas waktu O(M × N), di mana M adalah jumlah total data rekaman dan N adalah jumlah data rekaman yang ingin Anda temukan string terbaiknya. Kesamaan sampel diukur dengan menghitung jarak antara data sampel sebanyak M × N kali. Jumlah sumber daya yang dikonsumsi oleh algoritma ini sebanding dengan produk dari M dan N.
Untuk menggunakan komponen Kesamaan String - top N, Anda dapat mengajukan hingga 1.000 node pekerja dengan memori individu 4 GB hingga 64 GB. Jumlah node pekerja yang diperlukan dihitung menggunakan rumus berikut: M × N/(1024 × 1024 × 32). Memori setiap node pekerja dihitung menggunakan rumus berikut: N/8 MB. Contoh: Jika 1 CU menyediakan 4 GB memori, komponen ini dapat mengonsumsi hingga 16.000 CUs, yang dihitung menggunakan rumus berikut: 1000 × 64/4. Untuk informasi lebih lanjut, lihat Contoh Penagihan Designer (sebelumnya dikenal sebagai Machine Learning Studio).
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.
Anda dapat menggunakan komponen Kesamaan String untuk menghitung kesamaan string di industri seperti pengambilan informasi, pemrosesan bahasa alami, dan bioinformatika. Untuk informasi lebih lanjut tentang cara menggunakan komponen ini, lihat Kesamaan String.