全部产品
Search
文档中心

Platform For AI:Ekstraksi Kata Kunci

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Ekstraksi Kata Kunci yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).

Ekstraksi kata kunci merupakan salah satu teknologi penting dalam pemrosesan bahasa alami. Teknologi ini digunakan untuk mengekstrak kata kunci dari dokumen. Algoritma ekstraksi kata kunci didasarkan pada TextRank, variasi dari algoritma PageRank. Algoritma ini memanfaatkan hubungan antara kata-kata tertentu untuk membangun jaringan, menghitung kepentingan setiap kata, dan menentukan kata dengan bobot lebih besar sebagai kata kunci.

Proses ekstraksi kata kunci mencakup langkah-langkah berikut:
  1. Persiapan korpus mentah
  2. Tokenisasi
  3. Penyaringan berbasis kata
  4. Ekstraksi kata kunci

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Ekstraksi Kata Kunci.

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Ekstraksi Kata Kunci di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
TabParameterDeskripsi
Fields SettingColumn of Marked Document IDsNama kolom ID dokumen.
Word Splitting Result of Marked DocumentsHasil pemisahan kata dokumen yang ditandai.
Parameters SettingOutput First N KeywordsJumlah N kata kunci teratas yang akan disediakan. Nilainya harus berupa bilangan bulat. Nilai default: 5.
Window SizeUkuran jendela. Nilainya harus berupa bilangan bulat. Nilai default: 2.
Damping CoefficientKoefisien redaman. Nilai default: 0,85.
Maximum IterationsJumlah maksimum iterasi. Nilai default: 100.
Convergence CoefficientKoefisien konvergensi. Nilai default: 0,000001.
TuningCores. Auto-assigned by default.Jumlah core. Secara default, sistem menentukan nilainya.
Memory size per core. Auto-assigned by default.Ukuran memori setiap core. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name KeywordsExtraction      
    -DinputTableName=maple_test_keywords_basic_input    
    -DdocIdCol=docid -DdocContent=word    
    -DoutputTableName=maple_test_keywords_basic_output    
    -DtopN=19;
ParameterDiperlukanDeskripsiNilai default
inputTableNameYaNama tabel input. Tidak ada nilai default
inputTablePartitionsTidakPartisi yang dipilih dari tabel input untuk pelatihan, dalam format Partition_name=value. Untuk menentukan beberapa partisi, gunakan format berikut: name1=value1/name2=value2. Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Semua partisi
outputTableNameYaNama tabel output. Tidak ada nilai default
docIdColYaNama kolom ID dokumen. Anda hanya dapat menentukan satu kolom. Tidak ada nilai default
docContentYaNama kolom kata. Anda hanya dapat menentukan satu kolom. Tidak ada nilai default
topNTidakJumlah N kata kunci teratas yang akan disediakan. Jika nilai parameter lebih besar dari jumlah total kata kunci, semua kata kunci akan disediakan. 5
windowSizeTidakUkuran jendela algoritma TextRank. 2
dumpingFactorTidakKoefisien redaman algoritma TextRank. 0,85
maxIterTidakJumlah maksimum iterasi algoritma TextRank. 100
epsilonTidakAmbang batas residu konvergensi algoritma TextRank. 0,000001
lifecycleTidakSiklus hidup tabel output. Tidak ada nilai default
coreNumTidakJumlah core. Ditentukan oleh sistem
memSizePerCoreTidakUkuran memori setiap core. Unit: MB. Ditentukan oleh sistem

Contoh

  1. Data Masukan
    Pisahkan kata-kata dalam tabel input dengan spasi, dan saring kata-kata penghenti seperti "of" serta semua tanda baca.
    docid:stringword:string
    doc0The blended-wing-body aircraft is a new direction for the future development in the aviation field Many research institutions inside and outside China have carried out research on the blended-wing-body aircraft while its fully automated shape optimization algorithm has become a new hot topic Based on the existing research achievements inside and outside China common modeling and flow solver tools have been analyzed and compared The geometric modeling grid flow field solver and shape optimization modules have been designed The pros and cons between different algorithms have been compared to achieve the optimized shape of the blended-wing-body aircraft in the conceptual design stage Geometric modeling and grid generation module are achieved based on the transfinite interpolation algorithm and spline based grid generation method The flow solver module includes the finite difference solver the finite element solver and the panel method solver The finite difference solver includes mathematical modeling of the potential flow the derivation of the Cartesian grid based variable step length difference scheme Cartesian grid generation and indexing algorithm the Cartesian grid based Neumann boundary conditions expression form derivation are achieved based on finite element difference solver The aerodynamic parameters of a two-dimensional airfoil are calculated based on the finite difference solver The finite element solver includes potential flow modeling based on the variational principle of the finite element theory the derivation of the two-dimensional finite element Kutta conditional least squares based speed solving algorithm Gmsh based two-dimensional field grid generator of airfoil with wakes design The aerodynamic parameters of a two-dimensional airfoil are calculated based on the finite element solver The panel method solver includes modeling and automatic wake generation the design of the three-dimensional flow solver of the blended-wing-body drag estimation based on the Blasius solution solver implemented in the Fortran language a mixed compilation of Python and Fortran OpenMP and CUDA based acceleration algorithm The aerodynamic parameters of a three-dimensional wing body are calculated based on the panel method solver The shape optimization module includes free form deformation algorithm genetic algorithms differential evolution algorithm Aircraft surface area calculation algorithm is based on the moments integration algorithm The volume of an aircraft calculation algorithm is based on VKT data visualization format tool
  2. Perintah PAI
    PAI -name KeywordsExtraction      
        -DinputTableName=maple_test_keywords_basic_input    
        -DdocIdCol=docid -DdocContent=word    
        -DoutputTableName=maple_test_keywords_basic_output    
        -DtopN=19;
  3. Deskripsi Keluaran
    docidkeywordsweight
    doc0based on0,041306752223538405
    doc0algorithm0,03089845626854151
    doc0modeling0,021782865850562882
    doc0grid0,020669749212693957
    doc0solver0,020245609506360847
    doc0aircraft0,019850761705313365
    doc0research0,014193732541852615
    doc0finite element0,013831122054200538
    doc0solving0,012924593244133104
    doc0module0,01280216562287212
    doc0derivation0,011907588923852495
    doc0shape0,011505456605632607
    doc0difference0,011477831662367547
    doc0flow0,010969269350293957
    doc0design0,010830986516637251
    doc0implementation0,010747536556701583
    doc0two-dimensional0,010695570768457084
    doc0development0,010527342662670088
    doc0new0,010096978306668461