全部产品
Search
文档中心

Platform For AI:PMI

更新时间:Jul 02, 2025

Komponen algoritma PMI dari Platform for AI (PAI) digunakan untuk menghitung kemunculan bersama semua kata dalam beberapa dokumen serta informasi mutual pointwise (PMI). Topik ini menjelaskan cara mengonfigurasi komponen algoritma PMI.

Informasi latar belakang

Dalam teori informasi, informasi mutual (MI) dapat dianggap sebagai jumlah informasi yang terkandung dalam variabel acak dari variabel lain, atau pengurangan ketidakpastian variabel acak karena variabel acak yang diketahui.

PMI digunakan untuk mengukur relevansi antara dua kata. Definisi: PMI(x,y)=ln(p(x,y)/(p(x)p(y)))=ln(#(x,y)D/(#x#y)). Dalam definisi tersebut, #(x,y) menunjukkan jumlah pasangan (x,y). D menunjukkan jumlah total pasangan. Jika x dan y muncul di jendela yang sama, keluarannya adalah #x+=1, #y+=1, dan #(x,y)+=1. Untuk informasi lebih lanjut tentang PMI, lihat PMI.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen PMI:

Metode 1: Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter komponen PMI pada halaman pipeline Machine Learning Designer.

Tab

Parameter

Deskripsi

Fields Setting

Columns of Documents with Words Separated with Spaces

Tidak tersedia

Parameters Setting

Minimum Frequency of Words

Kata-kata yang muncul kurang dari nilai ini akan disaring. Nilai default: 5.

Window Size

Ukuran jendela. Sebagai contoh, nilai 5 menunjukkan lima kata berdekatan di sebelah kanan kata saat ini. Kata-kata yang muncul di jendela dianggap terkait dengan kata saat ini.

Tuning

Computing Cores

Jumlah inti yang digunakan untuk perhitungan. Secara default, sistem menentukan nilainya.

Memory Size per Core (Unit: MB)

Ukuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Konfigurasikan parameter menggunakan perintah PAI

Berikut ini menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL.

PAI -name PointwiseMutualInformation    
    -project algo_public    
    -DinputTableName=maple_test_pmi_basic_input    
    -DdocColName=doc    
    -DoutputTableName=maple_test_pmi_basic_output    
    -DminCount=0    
    -DwindowSize=2    
    -DcoreNum=1    
    -DmemSizePerCore=110;

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Tabel input

Tidak tersedia

outputTableName

Ya

Tabel output

Tidak tersedia

docColName

Ya

Nama kolom dokumen setelah segmentasi kata, di mana kata dipisahkan dengan spasi.

Tidak tersedia

windowSize

Tidak

Ukuran jendela. Sebagai contoh, nilai 5 menunjukkan lima kata berdekatan di sebelah kanan kata saat ini. Kata-kata yang muncul di jendela dianggap terkait dengan kata saat ini.

Semua konten dalam satu baris

minCount

Tidak

Frekuensi minimum kata untuk pemotongan. Kata-kata yang muncul kurang dari nilai ini akan disaring.

5

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan, yang berada dalam format Partition_name=value. Untuk menentukan beberapa partisi, gunakan format berikut: name1=value1/name2=value2. Pisahkan beberapa partisi dengan koma (,).

Semua partisi

lifecycle

Tidak

Lifecycle tabel output.

Tidak tersedia

coreNum

Tidak

Jumlah inti yang digunakan untuk perhitungan. Nilai valid: [1,9999].

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap inti. Unit: MB. Nilai valid: [1024,65536].

Ditentukan oleh sistem

Contoh perintah

  • Input

    Buat tabel bernama maple_test_pmi_basic_input menggunakan node ODPS SQL. Untuk informasi lebih lanjut, lihat Mengembangkan Tugas MaxCompute SQL. Contoh perintah:

    create table maple_test_pmi_basic_input as
    select * from
    (  
        select "w1 w2 w3 w4 w5 w6 w7 w8 w8 w9" as doc
        union all  
        select "w1 w3 w5 w6 w9" as doc
        union all  select "w0" as doc
        union all  
        select "w0 w0" as doc
        union all  
        select "w9 w1 w9 w1 w9" as doc
    )tmp;

    Data sampel dalam tabel maple_test_pmi_basic_input setelah Anda menjalankan perintah:

    doc

    w1 w2 w3 w4 w5 w6 w7 w8 w8 w9

    w1 w3 w5 w6 w9

    w0

    w0 w0

    w9 w1 w9 w1 w9

  • Jalankan Perintah PAI

    Anda dapat menggunakan komponen skrip SQL atau node ODPS SQL untuk menjalankan perintah PAI berikut.

    PAI -name PointwiseMutualInformation    
        -project algo_public    
        -DinputTableName=maple_test_pmi_basic_input    
        -DdocColName=doc    
        -DoutputTableName=maple_test_pmi_basic_output    
        -DminCount=0    
        -DwindowSize=2    
        -DcoreNum=1    
        -DmemSizePerCore=110;
  • Output

    Tabel output sampel maple_test_pmi_basic_output:

    word1

    kata2

    word1_count

    word2_count

    co_occurrences_count

    pmi

    w0

    w0

    2

    2

    1

    2.0794415416798357

    w1

    w1

    10

    10

    1

    -1.1394342831883648

    w1

    w2

    10

    3

    1

    0.06453852113757116

    w1

    w3

    10

    7

    2

    -0.08961215868968704

    w1

    w5

    10

    8

    1

    -0.916290731874155

    w1

    w9

    10

    12

    4

    0.06453852113757116

    w2

    w3

    3

    7

    1

    0.4212134650763035

    w2

    w4

    3

    4

    1

    0.9808292530117262

    w3

    w4

    7

    4

    1

    0.13353139262452257

    w3

    w5

    7

    8

    2

    0.13353139262452257

    w3

    w6

    7

    7

    1

    -0.42608439531090014

    w4

    w5

    4

    8

    1

    0.0

    w4

    w6

    4

    7

    1

    0.13353139262452257

    w5

    w6

    8

    7

    2

    0.13353139262452257

    w5

    w7

    8

    4

    1

    0.0

    w5

    w9

    8

    12

    1

    -1.0986122886681098

    w6

    w7

    7

    4

    1

    0.13353139262452257

    w6

    w8

    7

    7

    1

    -0.42608439531090014

    w6

    w9

    7

    12

    1

    -0.9650808960435872

    w7

    w8

    4

    7

    2

    0.8266785731844679

    w8

    w8

    7

    7

    1

    -0.42608439531090014

    w8

    w9

    7

    12

    2

    -0.2719337154836418

    w9

    w9

    12

    12

    2

    -0.8109302162163288

Referensi