All Products
Search
Document Center

Platform For AI:Ekstraksi kata kunci

Last Updated:Mar 06, 2026

Ekstraksi kata kunci adalah teknik pemrosesan bahasa alami (NLP) yang mengidentifikasi dan mengekstraksi kata-kata dari teks yang paling relevan dengan topik utama. Teknik ini umumnya menggunakan algoritma TextRank, yang membangun jaringan ko-okurensi kata dan menerapkan metode perhitungan serupa PageRank untuk menilai tingkat kepentingan setiap kata. Kata-kata dengan bobot tertinggi dipilih sebagai kata kunci, sehingga membantu memahami dan meringkas teks dalam jumlah besar.

Alur kerja umum adalah sebagai berikut:

  1. Data sumber

  2. Lakukan tokenisasi terhadap teks.

  3. Filter kata-kata tersebut.

  4. Ekstraksi kata kunci.

Konfigurasi komponen

Metode 1: Menggunakan GUI

Pada halaman alur kerja Designer, tambahkan komponen Keyword Extraction dan konfigurasikan parameternya di panel sebelah kanan.

Jenis parameter

Parameter

Deskripsi

Pengaturan bidang

Document ID column

Nama kolom yang berisi ID dokumen.

Hasil segmentasi kata untuk konten artikel.

Nama kolom yang berisi konten dokumen yang telah ditokenisasi.

Pengaturan parameter

Number of keywords to output

Bilangan bulat. Nilai default: 5.

Window size

Bilangan bulat. Nilai default: 2.

Damping coefficient

Nilai default: 0,85.

Maximum iterations

Nilai default: 100.

Convergence coefficient

Nilai default: 0,000001.

Penyesuaian eksekusi

Number of cores. Auto-assigned by default.

Dipilih secara default.

Memory per core. Auto-assigned by default.

Dipilih secara default.

Metode 2: Menggunakan perintah PAI

Anda dapat mengonfigurasi parameter komponen Keyword Extraction menggunakan perintah PAI. Gunakan komponen SQL Script untuk memanggil perintah tersebut. Untuk informasi selengkapnya, lihat SQL Script.

PAI -name KeywordsExtraction      
    -DinputTableName=maple_test_keywords_basic_input    
    -DdocIdCol=docid -DdocContent=word    
    -DoutputTableName=maple_test_keywords_basic_output    
    -DtopN=19;

Parameter

Wajib

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Tabel input.

inputTablePartitions

Tidak

Semua partisi

Partisi dalam tabel input yang digunakan untuk pelatihan. Gunakan format Partition_name=value. Untuk partisi multi-level, gunakan name1=value1/name2=value2. Pisahkan beberapa partisi dengan koma (,).

outputTableName

Ya

Tidak ada

Nama tabel output.

docIdCol

Ya

Tidak ada

Nama kolom yang berisi ID dokumen. Anda hanya dapat menentukan satu kolom.

docContent

Ya

Tidak ada

Kolom Word. Anda hanya dapat menentukan satu kolom.

topN

Tidak

5

Jumlah kata kunci teratas yang akan dikembalikan. Jika jumlah total kata kunci kurang dari nilai ini, semua kata kunci akan dikembalikan.

windowSize

Tidak

2

Ukuran jendela untuk algoritma TextRank.

dumpingFactor

Tidak

0,85

Koefisien redaman untuk algoritma TextRank.

maxIter

Tidak

100

Jumlah maksimum iterasi untuk algoritma TextRank.

epsilon

Tidak

0,000001

Ambang batas residual konvergensi untuk algoritma TextRank.

lifecycle

Tidak

Tidak ada

Siklus hidup tabel output.

coreNum

Tidak

Dihitung secara otomatis

Jumlah pekerja.

memSizePerCore

Tidak

Dihitung secara otomatis

Ukuran memori per worker, dalam MB.

Contoh

  1. Buat data

    Dalam tabel input, pisahkan kata-kata dengan spasi. Filter kata-kata stop seperti 'the' dan 'a', serta semua tanda baca.

    docid:string

    word:string

    doc0

    blended-wing-body aircraft is future aviation field development a new direction many research institutions have started on blended-wing-body aircraft research and its fully-automatic shape optimization algorithm has become a new research hot-spot existing achievements basis on top of analyze compare common modeling solving platform usage methods and features design write blended-wing-body aircraft shape optimization geometric modeling grid division flow-field solving shape optimization module compare different algorithms between pros and cons implement blended-wing-body aircraft conceptual-design in shape optimization geometric modeling and grid generation module implement based-on transfinite interpolation grid generation algorithm based-on spline curve modeling method flow-field solving module includes finite difference solver finite element solver and panel method solver among them finite difference solver mainly includes based-on finite difference method potential-flow mathematical modeling based-on Cartesian grid variable step-size difference format derivation Cartesian grid generation index algorithm based-on Cartesian grid Neumann boundary-condition expression form derivation implement based-on finite difference solver two-dimensional airfoil aerodynamic parameters calculation example finite element solver mainly includes based-on variational principle potential-flow finite element theory modeling two-dimensional finite element Kutta condition expression derivation based-on least squares velocity solving algorithm design based-on Gmsh two-dimensional with-wake airfoil spatial grid generator development implement based-on finite element solver two-dimensional airfoil aerodynamic parameters calculation example panel method solver mainly includes based-on panel method potential-flow theory modeling automatic wake generation algorithm design based-on panel method three-dimensional blended-wing-body body flow-field solver development based-on Blasius flat-plate solution drag estimation algorithm design solver Fortran language on port Python and Fortran code mixed-compilation based-on OpenMP and CUDA parallel acceleration algorithm design and development implement based-on panel method solver three-dimensional blended-wing-body body aerodynamic parameters calculation example shape optimization module implemented based-on free form deformation grid deformation algorithm genetic-algorithm differential evolution algorithm aircraft surface-area calculation algorithm based-on moment integration aircraft volume calculation algorithm development based-on VTK data visualization format tool

  2. Perintah PAI

    PAI -name KeywordsExtraction      
        -DinputTableName=maple_test_keywords_basic_input    
        -DdocIdCol=docid -DdocContent=word    
        -DoutputTableName=maple_test_keywords_basic_output    
        -DtopN=19;
  3. Deskripsi output

    docid

    keywords

    weight

    doc0

    based-on

    0,041306752223538405

    doc0

    algorithm

    0,03089845626854151

    doc0

    modeling

    0,021782865850562882

    doc0

    grid

    0,020669749212693957

    doc0

    solver

    0,020245609506360847

    doc0

    aircraft

    0,019850761705313365

    doc0

    research

    0,014193732541852615

    doc0

    finite element

    0,013831122054200538

    doc0

    solving

    0,012924593244133104

    doc0

    module

    0,01280216562287212

    doc0

    derivation

    0,011907588923852495

    doc0

    shape

    0,011505456605632607

    doc0

    difference

    0,011477831662367547

    doc0

    potential-flow

    0,010969269350293957

    doc0

    design

    0,010830986516637251

    doc0

    implement

    0,010747536556701583

    doc0

    two-dimensional

    0,010695570768457084

    doc0

    development

    0,010527342662670088

    doc0

    new

    0,010096978306668461