Topik ini menjelaskan komponen Ekstraksi Kata Kunci yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).
Ekstraksi kata kunci merupakan salah satu teknologi penting dalam pemrosesan bahasa alami. Teknologi ini digunakan untuk mengekstrak kata kunci dari dokumen. Algoritma ekstraksi kata kunci didasarkan pada TextRank, variasi dari algoritma PageRank. Algoritma ini memanfaatkan hubungan antara kata-kata tertentu untuk membangun jaringan, menghitung kepentingan setiap kata, dan menentukan kata dengan bobot lebih besar sebagai kata kunci.
Proses ekstraksi kata kunci mencakup langkah-langkah berikut:
- Persiapan korpus mentah
- Tokenisasi
- Penyaringan berbasis kata
- Ekstraksi kata kunci
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Ekstraksi Kata Kunci.
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Ekstraksi Kata Kunci di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
| Tab | Parameter | Deskripsi |
| Fields Setting | Column of Marked Document IDs | Nama kolom ID dokumen. |
| Word Splitting Result of Marked Documents | Hasil pemisahan kata dokumen yang ditandai. | |
| Parameters Setting | Output First N Keywords | Jumlah N kata kunci teratas yang akan disediakan. Nilainya harus berupa bilangan bulat. Nilai default: 5. |
| Window Size | Ukuran jendela. Nilainya harus berupa bilangan bulat. Nilai default: 2. | |
| Damping Coefficient | Koefisien redaman. Nilai default: 0,85. | |
| Maximum Iterations | Jumlah maksimum iterasi. Nilai default: 100. | |
| Convergence Coefficient | Koefisien konvergensi. Nilai default: 0,000001. | |
| Tuning | Cores. Auto-assigned by default. | Jumlah core. Secara default, sistem menentukan nilainya. |
| Memory size per core. Auto-assigned by default. | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name KeywordsExtraction
-DinputTableName=maple_test_keywords_basic_input
-DdocIdCol=docid -DdocContent=word
-DoutputTableName=maple_test_keywords_basic_output
-DtopN=19;| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTableName | Ya | Nama tabel input. | Tidak ada nilai default |
| inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan, dalam format Partition_name=value. Untuk menentukan beberapa partisi, gunakan format berikut: name1=value1/name2=value2. Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Semua partisi |
| outputTableName | Ya | Nama tabel output. | Tidak ada nilai default |
| docIdCol | Ya | Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom. | Tidak ada nilai default |
| docContent | Ya | Nama kolom kata. Anda hanya dapat menentukan satu kolom. | Tidak ada nilai default |
| topN | Tidak | Jumlah N kata kunci teratas yang akan disediakan. Jika nilai parameter lebih besar dari jumlah total kata kunci, semua kata kunci akan disediakan. | 5 |
| windowSize | Tidak | Ukuran jendela algoritma TextRank. | 2 |
| dumpingFactor | Tidak | Koefisien redaman algoritma TextRank. | 0,85 |
| maxIter | Tidak | Jumlah maksimum iterasi algoritma TextRank. | 100 |
| epsilon | Tidak | Ambang batas residu konvergensi algoritma TextRank. | 0,000001 |
| lifecycle | Tidak | Siklus hidup tabel output. | Tidak ada nilai default |
| coreNum | Tidak | Jumlah core. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. | Ditentukan oleh sistem |
Contoh
- Data MasukanPisahkan kata-kata dalam tabel input dengan spasi, dan saring kata-kata penghenti seperti "of" serta semua tanda baca.
docid:string word:string doc0 The blended-wing-body aircraft is a new direction for the future development in the aviation field Many research institutions inside and outside China have carried out research on the blended-wing-body aircraft while its fully automated shape optimization algorithm has become a new hot topic Based on the existing research achievements inside and outside China common modeling and flow solver tools have been analyzed and compared The geometric modeling grid flow field solver and shape optimization modules have been designed The pros and cons between different algorithms have been compared to achieve the optimized shape of the blended-wing-body aircraft in the conceptual design stage Geometric modeling and grid generation module are achieved based on the transfinite interpolation algorithm and spline based grid generation method The flow solver module includes the finite difference solver the finite element solver and the panel method solver The finite difference solver includes mathematical modeling of the potential flow the derivation of the Cartesian grid based variable step length difference scheme Cartesian grid generation and indexing algorithm the Cartesian grid based Neumann boundary conditions expression form derivation are achieved based on finite element difference solver The aerodynamic parameters of a two-dimensional airfoil are calculated based on the finite difference solver The finite element solver includes potential flow modeling based on the variational principle of the finite element theory the derivation of the two-dimensional finite element Kutta conditional least squares based speed solving algorithm Gmsh based two-dimensional field grid generator of airfoil with wakes design The aerodynamic parameters of a two-dimensional airfoil are calculated based on the finite element solver The panel method solver includes modeling and automatic wake generation the design of the three-dimensional flow solver of the blended-wing-body drag estimation based on the Blasius solution solver implemented in the Fortran language a mixed compilation of Python and Fortran OpenMP and CUDA based acceleration algorithm The aerodynamic parameters of a three-dimensional wing body are calculated based on the panel method solver The shape optimization module includes free form deformation algorithm genetic algorithms differential evolution algorithm Aircraft surface area calculation algorithm is based on the moments integration algorithm The volume of an aircraft calculation algorithm is based on VKT data visualization format tool - Perintah PAI
PAI -name KeywordsExtraction -DinputTableName=maple_test_keywords_basic_input -DdocIdCol=docid -DdocContent=word -DoutputTableName=maple_test_keywords_basic_output -DtopN=19; - Deskripsi Keluaran
docid keywords weight doc0 based on 0,041306752223538405 doc0 algorithm 0,03089845626854151 doc0 modeling 0,021782865850562882 doc0 grid 0,020669749212693957 doc0 solver 0,020245609506360847 doc0 aircraft 0,019850761705313365 doc0 research 0,014193732541852615 doc0 finite element 0,013831122054200538 doc0 solving 0,012924593244133104 doc0 module 0,01280216562287212 doc0 derivation 0,011907588923852495 doc0 shape 0,011505456605632607 doc0 difference 0,011477831662367547 doc0 flow 0,010969269350293957 doc0 design 0,010830986516637251 doc0 implementation 0,010747536556701583 doc0 two-dimensional 0,010695570768457084 doc0 development 0,010527342662670088 doc0 new 0,010096978306668461