Konfigurasi komponen String Similarity - top N - Platform For AI

Komponen String Similarity-Top N menghitung kemiripan antar string dan mengembalikan N catatan data paling mirip. Topik ini menjelaskan cara mengonfigurasi komponen ini.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen String Similarity-Top N dengan salah satu metode berikut.

Metode 1: Gunakan GUI

Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja Designer.

Tab	Parameter	Deskripsi
Field settings	Columns to append from input table	Kolom dari tabel input yang akan ditambahkan ke tabel output.
	Columns to append from mapping table	Kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.
	Left table column for similarity calculation	Kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan.
	Mapping table column for similarity calculation	Kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan. Komponen ini menghitung kemiripan antara setiap baris di tabel kiri dan semua string di Tabel pemetaan, lalu mengembalikan hasil top N.
	Similarity column name in output table	Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a–z, A–Z), angka, dan garis bawah (_). Nama harus dimulai dengan huruf dan memiliki panjang maksimum 128 byte. Nilai default adalah output.
Parameter settings	Number of top similarity values	Jumlah nilai kemiripan tertinggi yang dikembalikan. Nilai ini harus berupa bilangan bulat positif. Nilai default adalah 10.
	Similarity calculation method	Metode yang digunakan untuk perhitungan kemiripan. Nilai yang valid adalah: levenshtein_sim (default) lcs_sim ssk cosine simhash_hamming_sim
	Substring length	Parameter ini diperlukan hanya jika Anda mengatur parameter Similarity Calculation Methods ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100). Nilai default adalah 2.
	Matching string weight	Parameter ini diperlukan hanya ketika Similarity Calculation Method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1). Nilai default adalah 0,5.
Execution tuning	Number of cores	Dialokasikan secara default.
Execution tuning	Memory per core (MB)	Secara default, dialokasikan secara otomatis.

Metode 2: Gunakan perintah PAI

Anda dapat mengonfigurasi parameter komponen menggunakan perintah PAI. Untuk menjalankan perintah tersebut, gunakan komponen SQL script. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name string_similarity_topn
    -project algo_public
    -DinputTableName="pai_test_string_similarity_topn"
    -DoutputTableName="pai_test_string_similarity_topn_output"
    -DmapTableName="pai_test_string_similarity_map_topn"
    -DinputSelectedColName="col0"
    -DmapSelectedColName="col1"

Nama parameter	Wajib	Deskripsi	Nilai default
inputTableName	Ya	Nama tabel input.	Tidak ada
mapTableName	Ya	Nama Tabel pemetaan.	Tidak ada
	Ya	Nama tabel output.	Tidak ada
inputSelectedColName1	Tidak	Nama kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan.	Nama kolom STRING pertama dalam tabel
inputSelectedColName2	Tidak	Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan.	Nama kolom STRING pertama dalam tabel
inputAppendColNames	Tidak	Nama kolom dari tabel input yang akan ditambahkan ke tabel output.	Tidak ada
inputAppendRenameColNames	Tidak	Alias kolom dari tabel input yang akan ditambahkan ke tabel output.	Tidak ada
mapSelectedColName	Ya	Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan.	Tidak ada
mapAppendColNames	Tidak	Nama kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.	Tidak ada
mapAppendRenameColNames	Tidak	Alias kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.	Tidak ada
inputTablePartitions	Tidak	Nama partisi dalam tabel input.	Semua partisi
mapTablePartitions	Tidak	Nama partisi dalam Tabel pemetaan.	Semua partisi
outputColName	Tidak	Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a-z, A-Z), angka, atau garis bawah (_). Nama harus dimulai dengan huruf dan panjangnya tidak lebih dari 128 byte.	output
method	Tidak	Metode perhitungan kemiripan. Nilai yang valid: levenshtein_sim lcs_sim ssk cosine simhash_hamming_sim	levenshtein_sim
lambda	Tidak	Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1).	0.5
k	Tidak	Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100).	2
lifecycle	Tidak	siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif.	Tidak ada
coreNum	Tidak	Jumlah core untuk perhitungan.	Ditentukan sistem
memSizePerCore	Tidak	Ukuran memori per core.	Ini dialokasikan secara otomatis oleh sistem.

Penggunaan resource dan estimasi biaya

Komponen string_similarity_topn menggunakan algoritma dengan kompleksitas komputasi sebesar M × N. Untuk menemukan string terdekat bagi N catatan dalam himpunan M catatan, jarak antara setiap pasangan sampel dihitung, menghasilkan M × N perhitungan. Oleh karena itu, sumber daya yang dibutuhkan untuk menjalankan algoritma ini berbanding lurus dengan M × N.

Untuk menemukan catatan terdekat bagi N catatan dalam himpunan M catatan, jumlah worker yang dibutuhkan adalah (M × N) / (1.024 × 1.024 × 32), hingga maksimum 1.000. Memori untuk setiap worker adalah N/8 MB, dengan rentang 4 GB hingga 64 GB. Menurut model penagihan, satu unit komputasi (CU) menyediakan memori 4 GB. Dengan demikian, permintaan CU maksimum untuk algoritma ini adalah 1.000 × 64 / 4 = 16.000 CU.

Referensi

Untuk informasi lebih lanjut tentang Designer, lihat Designer overview.
Komponen String Similarity menghitung kemiripan string untuk berbagai aplikasi, seperti Pengambilan informasi, Pemrosesan bahasa alami, dan bioinformatika. Untuk informasi lebih lanjut tentang komponen ini, lihat String Similarity.