全部产品
Search
文档中心

Platform For AI:Kesamaan String - top N

更新时间:Jul 06, 2025

Komponen Kesamaan String - top N digunakan untuk menghitung kesamaan string dan mendapatkan N data rekaman teratas yang paling cocok dengan tabel pemetaan. Topik ini menjelaskan cara mengonfigurasi komponen Kesamaan String - top N di Platform for AI (PAI).

Mengonfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Kesamaan String - top N:

Metode 1: Mengonfigurasi komponen di konsol PAI

Anda dapat mengonfigurasi parameter komponen Kesamaan String - top N di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Columns from the Input Table Appended to the Output Table

Nama kolom yang ingin ditambahkan ke tabel output dari tabel input.

Columns from the Mapping Table Appended to the Output Table

Nama kolom yang ingin ditambahkan ke tabel output dari tabel pemetaan.

Columns from Left Table for Similarity Calculation

Nama kolom tabel kiri yang digunakan untuk perhitungan kesamaan.

Columns from the Mapping Table for Similarity Calculation

Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan. Kesamaan antara baris di tabel kiri dan semua string di tabel pemetaan dihitung, dan hasil N teratas dikembalikan.

Similarity Column in Output Table

Nama kolom kesamaan di tabel output. Nama dapat memiliki panjang hingga 128 karakter dan hanya dapat berisi huruf, angka, serta garis bawah (_). Nama harus dimulai dengan huruf. Nilai default: output.

Parameters Setting

Number of Similarity Maximums in the End

Jumlah nilai kesamaan N teratas. Nilai harus berupa bilangan bulat positif. Nilai default: 10.

Similarity Calculation Methods

Metode yang digunakan untuk perhitungan kesamaan. Nilai valid:

  • levenshtein_sim (default)

  • lcs_sim

  • ssk

  • cosine

  • simhash_hamming_sim

Length of Substring

Parameter ini diperlukan hanya jika Anda menetapkan parameter Similarity Calculation Methods ke ssk, cosine, atau simhash_hamming_sim. Nilai valid: (0,100). Nilai default: 2.

Weight of Matching String

Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Rentang nilai: (0,1). Nilai default: 0,5.

Tuning

Number of Computing Cores

Jumlah inti komputasi. Secara default, sistem menentukan nilainya.

Memory Size per Core (MB)

Ukuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Mengonfigurasi komponen dengan menggunakan perintah PAI

Tabel berikut menjelaskan parameter yang digunakan dalam perintah PAI. Anda dapat menggunakan komponen skrip SQL untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name string_similarity_topn
    -project algo_public
    -DinputTableName="pai_test_string_similarity_topn"
    -DoutputTableName="pai_test_string_similarity_topn_output"
    -DmapTableName="pai_test_string_similarity_map_topn"
    -DinputSelectedColName="col0"
    -DmapSelectedColName="col1";

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel input.

N/A

mapTableName

Ya

Nama tabel pemetaan.

N/A

Ya

Nama tabel output.

N/A

inputSelectedColName1

Tidak

Nama kolom tabel kiri yang digunakan untuk perhitungan kesamaan.

Nama kolom STRING pertama di tabel kiri

inputSelectedColName2

Tidak

Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan.

Nama kolom STRING pertama di tabel pemetaan

inputAppendColNames

Tidak

Nama kolom yang ingin Anda tambahkan ke tabel output dari tabel input.

N/A

inputAppendRenameColNames

Tidak

Alias kolom yang ingin Anda tambahkan ke tabel output dari tabel input.

N/A

mapSelectedColName

Ya

Nama kolom tabel pemetaan yang digunakan untuk perhitungan kesamaan.

N/A

mapAppendColNames

Tidak

Nama kolom yang ingin Anda tambahkan ke tabel output dari tabel pemetaan.

N/A

mapAppendRenameColNames

Tidak

Alias kolom yang ingin Anda tambahkan ke tabel output dari tabel pemetaan.

N/A

inputTablePartitions

Tidak

Nama partisi di tabel input.

Semua partisi

mapTablePartitions

Tidak

Nama partisi di tabel pemetaan.

Semua partisi

outputColName

Tidak

Nama kolom kesamaan di tabel output. Nama dapat memiliki panjang hingga 128 karakter dan hanya dapat berisi huruf, angka, dan garis bawah (_). Nama harus dimulai dengan huruf.

output

method

Tidak

Metode yang digunakan untuk perhitungan kesamaan. Nilai valid:

  • levenshtein_sim

  • lcs_sim

  • ssk

  • cosine

  • simhash_hamming_sim

levenshtein_sim

lambda

Tidak

Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Rentang nilai: (0,1).

0,5

k

Tidak

Parameter ini diperlukan hanya jika Anda menetapkan parameter method ke ssk, cosine, atau simhash_hamming_sim. Nilai valid: (0,100).

2

lifecycle

Tidak

Lifecycle tabel output. Nilai harus berupa bilangan bulat positif.

N/A

coreNum

Tidak

Jumlah inti yang digunakan.

Ditetapkan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap inti.

Ditetapkan oleh sistem

Penggunaan sumber daya dan estimasi biaya

Komponen Kesamaan String - top N menggunakan algoritma kompleks dengan kompleksitas waktu O(M × N), di mana M adalah jumlah total data rekaman dan N adalah jumlah data rekaman yang ingin Anda temukan string terbaiknya. Kesamaan sampel diukur dengan menghitung jarak antara data sampel sebanyak M × N kali. Jumlah sumber daya yang dikonsumsi oleh algoritma ini sebanding dengan produk dari M dan N.

Untuk menggunakan komponen Kesamaan String - top N, Anda dapat mengajukan hingga 1.000 node pekerja dengan memori individu 4 GB hingga 64 GB. Jumlah node pekerja yang diperlukan dihitung menggunakan rumus berikut: M × N/(1024 × 1024 × 32). Memori setiap node pekerja dihitung menggunakan rumus berikut: N/8 MB. Contoh: Jika 1 CU menyediakan 4 GB memori, komponen ini dapat mengonsumsi hingga 16.000 CUs, yang dihitung menggunakan rumus berikut: 1000 × 64/4. Untuk informasi lebih lanjut, lihat Contoh Penagihan Designer (sebelumnya dikenal sebagai Machine Learning Studio).

Referensi

  • Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.

  • Anda dapat menggunakan komponen Kesamaan String untuk menghitung kesamaan string di industri seperti pengambilan informasi, pemrosesan bahasa alami, dan bioinformatika. Untuk informasi lebih lanjut tentang cara menggunakan komponen ini, lihat Kesamaan String.