Komponen String Similarity-Top N menghitung kemiripan antar string dan mengembalikan N catatan data paling mirip. Topik ini menjelaskan cara mengonfigurasi komponen ini.
Konfigurasi komponen
Anda dapat mengonfigurasi komponen String Similarity-Top N dengan salah satu metode berikut.
Metode 1: Gunakan GUI
Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja Designer.
|
Tab |
Parameter |
Deskripsi |
|
Field settings |
Columns to append from input table |
Kolom dari tabel input yang akan ditambahkan ke tabel output. |
|
Columns to append from mapping table |
Kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output. |
|
|
Left table column for similarity calculation |
Kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan. |
|
|
Mapping table column for similarity calculation |
Kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan. Komponen ini menghitung kemiripan antara setiap baris di tabel kiri dan semua string di Tabel pemetaan, lalu mengembalikan hasil top N. |
|
|
Similarity column name in output table |
Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a–z, A–Z), angka, dan garis bawah (_). Nama harus dimulai dengan huruf dan memiliki panjang maksimum 128 byte. Nilai default adalah output. |
|
|
Parameter settings |
Number of top similarity values |
Jumlah nilai kemiripan tertinggi yang dikembalikan. Nilai ini harus berupa bilangan bulat positif. Nilai default adalah 10. |
|
Similarity calculation method |
Metode yang digunakan untuk perhitungan kemiripan. Nilai yang valid adalah:
|
|
|
Substring length |
Parameter ini diperlukan hanya jika Anda mengatur parameter Similarity Calculation Methods ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100). Nilai default adalah 2. |
|
|
Matching string weight |
Parameter ini diperlukan hanya ketika Similarity Calculation Method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1). Nilai default adalah 0,5. |
|
|
Execution tuning |
Number of cores |
Dialokasikan secara default. |
|
Memory per core (MB) |
Secara default, dialokasikan secara otomatis. |
Metode 2: Gunakan perintah PAI
Anda dapat mengonfigurasi parameter komponen menggunakan perintah PAI. Untuk menjalankan perintah tersebut, gunakan komponen SQL script. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name string_similarity_topn
-project algo_public
-DinputTableName="pai_test_string_similarity_topn"
-DoutputTableName="pai_test_string_similarity_topn_output"
-DmapTableName="pai_test_string_similarity_map_topn"
-DinputSelectedColName="col0"
-DmapSelectedColName="col1"
|
Nama parameter |
Wajib |
Deskripsi |
Nilai default |
|
inputTableName |
Ya |
Nama tabel input. |
Tidak ada |
|
mapTableName |
Ya |
Nama Tabel pemetaan. |
Tidak ada |
|
Ya |
Nama tabel output. |
Tidak ada |
|
|
inputSelectedColName1 |
Tidak |
Nama kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan. |
Nama kolom STRING pertama dalam tabel |
|
inputSelectedColName2 |
Tidak |
Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan. |
Nama kolom STRING pertama dalam tabel |
|
inputAppendColNames |
Tidak |
Nama kolom dari tabel input yang akan ditambahkan ke tabel output. |
Tidak ada |
|
inputAppendRenameColNames |
Tidak |
Alias kolom dari tabel input yang akan ditambahkan ke tabel output. |
Tidak ada |
|
mapSelectedColName |
Ya |
Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan. |
Tidak ada |
|
mapAppendColNames |
Tidak |
Nama kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output. |
Tidak ada |
|
mapAppendRenameColNames |
Tidak |
Alias kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output. |
Tidak ada |
|
inputTablePartitions |
Tidak |
Nama partisi dalam tabel input. |
Semua partisi |
|
mapTablePartitions |
Tidak |
Nama partisi dalam Tabel pemetaan. |
Semua partisi |
|
outputColName |
Tidak |
Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a-z, A-Z), angka, atau garis bawah (_). Nama harus dimulai dengan huruf dan panjangnya tidak lebih dari 128 byte. |
output |
|
method |
Tidak |
Metode perhitungan kemiripan. Nilai yang valid:
|
levenshtein_sim |
|
lambda |
Tidak |
Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1). |
0.5 |
|
k |
Tidak |
Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100). |
2 |
|
lifecycle |
Tidak |
siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif. |
Tidak ada |
|
coreNum |
Tidak |
Jumlah core untuk perhitungan. |
Ditentukan sistem |
|
memSizePerCore |
Tidak |
Ukuran memori per core. |
Ini dialokasikan secara otomatis oleh sistem. |
Penggunaan resource dan estimasi biaya
Komponen string_similarity_topn menggunakan algoritma dengan kompleksitas komputasi sebesar M × N. Untuk menemukan string terdekat bagi N catatan dalam himpunan M catatan, jarak antara setiap pasangan sampel dihitung, menghasilkan M × N perhitungan. Oleh karena itu, sumber daya yang dibutuhkan untuk menjalankan algoritma ini berbanding lurus dengan M × N.
Untuk menemukan catatan terdekat bagi N catatan dalam himpunan M catatan, jumlah worker yang dibutuhkan adalah (M × N) / (1.024 × 1.024 × 32), hingga maksimum 1.000. Memori untuk setiap worker adalah N/8 MB, dengan rentang 4 GB hingga 64 GB. Menurut model penagihan, satu unit komputasi (CU) menyediakan memori 4 GB. Dengan demikian, permintaan CU maksimum untuk algoritma ini adalah 1.000 × 64 / 4 = 16.000 CU.
Referensi
-
Untuk informasi lebih lanjut tentang Designer, lihat Designer overview.
-
Komponen String Similarity menghitung kemiripan string untuk berbagai aplikasi, seperti Pengambilan informasi, Pemrosesan bahasa alami, dan bioinformatika. Untuk informasi lebih lanjut tentang komponen ini, lihat String Similarity.