All Products
Search
Document Center

Platform For AI:String similarity - Top N

Last Updated:Mar 06, 2026

Komponen String Similarity-Top N menghitung kemiripan antar string dan mengembalikan N catatan data paling mirip. Topik ini menjelaskan cara mengonfigurasi komponen ini.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen String Similarity-Top N dengan salah satu metode berikut.

Metode 1: Gunakan GUI

Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja Designer.

Tab

Parameter

Deskripsi

Field settings

Columns to append from input table

Kolom dari tabel input yang akan ditambahkan ke tabel output.

Columns to append from mapping table

Kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.

Left table column for similarity calculation

Kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan.

Mapping table column for similarity calculation

Kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan. Komponen ini menghitung kemiripan antara setiap baris di tabel kiri dan semua string di Tabel pemetaan, lalu mengembalikan hasil top N.

Similarity column name in output table

Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a–z, A–Z), angka, dan garis bawah (_). Nama harus dimulai dengan huruf dan memiliki panjang maksimum 128 byte. Nilai default adalah output.

Parameter settings

Number of top similarity values

Jumlah nilai kemiripan tertinggi yang dikembalikan. Nilai ini harus berupa bilangan bulat positif. Nilai default adalah 10.

Similarity calculation method

Metode yang digunakan untuk perhitungan kemiripan. Nilai yang valid adalah:

  • levenshtein_sim (default)

  • lcs_sim

  • ssk

  • cosine

  • simhash_hamming_sim

Substring length

Parameter ini diperlukan hanya jika Anda mengatur parameter Similarity Calculation Methods ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100). Nilai default adalah 2.

Matching string weight

Parameter ini diperlukan hanya ketika Similarity Calculation Method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1). Nilai default adalah 0,5.

Execution tuning

Number of cores

Dialokasikan secara default.

Memory per core (MB)

Secara default, dialokasikan secara otomatis.

Metode 2: Gunakan perintah PAI

Anda dapat mengonfigurasi parameter komponen menggunakan perintah PAI. Untuk menjalankan perintah tersebut, gunakan komponen SQL script. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name string_similarity_topn
    -project algo_public
    -DinputTableName="pai_test_string_similarity_topn"
    -DoutputTableName="pai_test_string_similarity_topn_output"
    -DmapTableName="pai_test_string_similarity_map_topn"
    -DinputSelectedColName="col0"
    -DmapSelectedColName="col1"

Nama parameter

Wajib

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel input.

Tidak ada

mapTableName

Ya

Nama Tabel pemetaan.

Tidak ada

Ya

Nama tabel output.

Tidak ada

inputSelectedColName1

Tidak

Nama kolom dari tabel kiri yang digunakan untuk perhitungan kemiripan.

Nama kolom STRING pertama dalam tabel

inputSelectedColName2

Tidak

Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan.

Nama kolom STRING pertama dalam tabel

inputAppendColNames

Tidak

Nama kolom dari tabel input yang akan ditambahkan ke tabel output.

Tidak ada

inputAppendRenameColNames

Tidak

Alias kolom dari tabel input yang akan ditambahkan ke tabel output.

Tidak ada

mapSelectedColName

Ya

Nama kolom dari Tabel pemetaan yang digunakan untuk perhitungan kemiripan.

Tidak ada

mapAppendColNames

Tidak

Nama kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.

Tidak ada

mapAppendRenameColNames

Tidak

Alias kolom dari Tabel pemetaan yang akan ditambahkan ke tabel output.

Tidak ada

inputTablePartitions

Tidak

Nama partisi dalam tabel input.

Semua partisi

mapTablePartitions

Tidak

Nama partisi dalam Tabel pemetaan.

Semua partisi

outputColName

Tidak

Nama kolom kemiripan dalam tabel output. Nama tidak boleh mengandung karakter khusus. Nama hanya boleh terdiri dari huruf (a-z, A-Z), angka, atau garis bawah (_). Nama harus dimulai dengan huruf dan panjangnya tidak lebih dari 128 byte.

output

method

Tidak

Metode perhitungan kemiripan. Nilai yang valid:

  • levenshtein_sim

  • lcs_sim

  • ssk

  • cosine

  • simhash_hamming_sim

levenshtein_sim

lambda

Tidak

Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 1).

0.5

k

Tidak

Parameter ini diperlukan hanya ketika Similarity calculation method diatur ke ssk, cosine, atau simhash_hamming_sim. Nilainya harus berada dalam rentang (0, 100).

2

lifecycle

Tidak

siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif.

Tidak ada

coreNum

Tidak

Jumlah core untuk perhitungan.

Ditentukan sistem

memSizePerCore

Tidak

Ukuran memori per core.

Ini dialokasikan secara otomatis oleh sistem.

Penggunaan resource dan estimasi biaya

Komponen string_similarity_topn menggunakan algoritma dengan kompleksitas komputasi sebesar M × N. Untuk menemukan string terdekat bagi N catatan dalam himpunan M catatan, jarak antara setiap pasangan sampel dihitung, menghasilkan M × N perhitungan. Oleh karena itu, sumber daya yang dibutuhkan untuk menjalankan algoritma ini berbanding lurus dengan M × N.

Untuk menemukan catatan terdekat bagi N catatan dalam himpunan M catatan, jumlah worker yang dibutuhkan adalah (M × N) / (1.024 × 1.024 × 32), hingga maksimum 1.000. Memori untuk setiap worker adalah N/8 MB, dengan rentang 4 GB hingga 64 GB. Menurut model penagihan, satu unit komputasi (CU) menyediakan memori 4 GB. Dengan demikian, permintaan CU maksimum untuk algoritma ini adalah 1.000 × 64 / 4 = 16.000 CU.

Referensi

  • Untuk informasi lebih lanjut tentang Designer, lihat Designer overview.

  • Komponen String Similarity menghitung kemiripan string untuk berbagai aplikasi, seperti Pengambilan informasi, Pemrosesan bahasa alami, dan bioinformatika. Untuk informasi lebih lanjut tentang komponen ini, lihat String Similarity.