Komponen algoritma PMI dari Platform for AI (PAI) digunakan untuk menghitung kemunculan bersama semua kata dalam beberapa dokumen serta informasi mutual pointwise (PMI). Topik ini menjelaskan cara mengonfigurasi komponen algoritma PMI.
Informasi latar belakang
Dalam teori informasi, informasi mutual (MI) dapat dianggap sebagai jumlah informasi yang terkandung dalam variabel acak dari variabel lain, atau pengurangan ketidakpastian variabel acak karena variabel acak yang diketahui.
PMI digunakan untuk mengukur relevansi antara dua kata. Definisi: PMI(x,y)=ln(p(x,y)/(p(x)p(y)))=ln(#(x,y)D/(#x#y)). Dalam definisi tersebut, #(x,y) menunjukkan jumlah pasangan (x,y). D menunjukkan jumlah total pasangan. Jika x dan y muncul di jendela yang sama, keluarannya adalah #x+=1, #y+=1, dan #(x,y)+=1. Untuk informasi lebih lanjut tentang PMI, lihat PMI.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen PMI:
Metode 1: Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter komponen PMI pada halaman pipeline Machine Learning Designer.
Tab | Parameter | Deskripsi |
Fields Setting | Columns of Documents with Words Separated with Spaces | Tidak tersedia |
Parameters Setting | Minimum Frequency of Words | Kata-kata yang muncul kurang dari nilai ini akan disaring. Nilai default: 5. |
Window Size | Ukuran jendela. Sebagai contoh, nilai 5 menunjukkan lima kata berdekatan di sebelah kanan kata saat ini. Kata-kata yang muncul di jendela dianggap terkait dengan kata saat ini. | |
Tuning | Computing Cores | Jumlah inti yang digunakan untuk perhitungan. Secara default, sistem menentukan nilainya. |
Memory Size per Core (Unit: MB) | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya. |
Metode 2: Konfigurasikan parameter menggunakan perintah PAI
Berikut ini menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL.
PAI -name PointwiseMutualInformation
-project algo_public
-DinputTableName=maple_test_pmi_basic_input
-DdocColName=doc
-DoutputTableName=maple_test_pmi_basic_output
-DminCount=0
-DwindowSize=2
-DcoreNum=1
-DmemSizePerCore=110;Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Tabel input | Tidak tersedia |
outputTableName | Ya | Tabel output | Tidak tersedia |
docColName | Ya | Nama kolom dokumen setelah segmentasi kata, di mana kata dipisahkan dengan spasi. | Tidak tersedia |
windowSize | Tidak | Ukuran jendela. Sebagai contoh, nilai 5 menunjukkan lima kata berdekatan di sebelah kanan kata saat ini. Kata-kata yang muncul di jendela dianggap terkait dengan kata saat ini. | Semua konten dalam satu baris |
minCount | Tidak | Frekuensi minimum kata untuk pemotongan. Kata-kata yang muncul kurang dari nilai ini akan disaring. | 5 |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan, yang berada dalam format Partition_name=value. Untuk menentukan beberapa partisi, gunakan format berikut: name1=value1/name2=value2. Pisahkan beberapa partisi dengan koma (,). | Semua partisi |
lifecycle | Tidak | Lifecycle tabel output. | Tidak tersedia |
coreNum | Tidak | Jumlah inti yang digunakan untuk perhitungan. Nilai valid: [1,9999]. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap inti. Unit: MB. Nilai valid: [1024,65536]. | Ditentukan oleh sistem |
Contoh perintah
Input
Buat tabel bernama maple_test_pmi_basic_input menggunakan node ODPS SQL. Untuk informasi lebih lanjut, lihat Mengembangkan Tugas MaxCompute SQL. Contoh perintah:
create table maple_test_pmi_basic_input as select * from ( select "w1 w2 w3 w4 w5 w6 w7 w8 w8 w9" as doc union all select "w1 w3 w5 w6 w9" as doc union all select "w0" as doc union all select "w0 w0" as doc union all select "w9 w1 w9 w1 w9" as doc )tmp;Data sampel dalam tabel maple_test_pmi_basic_input setelah Anda menjalankan perintah:
doc
w1 w2 w3 w4 w5 w6 w7 w8 w8 w9
w1 w3 w5 w6 w9
w0
w0 w0
w9 w1 w9 w1 w9
Jalankan Perintah PAI
Anda dapat menggunakan komponen skrip SQL atau node ODPS SQL untuk menjalankan perintah PAI berikut.
PAI -name PointwiseMutualInformation -project algo_public -DinputTableName=maple_test_pmi_basic_input -DdocColName=doc -DoutputTableName=maple_test_pmi_basic_output -DminCount=0 -DwindowSize=2 -DcoreNum=1 -DmemSizePerCore=110;Output
Tabel output sampel maple_test_pmi_basic_output:
word1
kata2
word1_count
word2_count
co_occurrences_count
pmi
w0
w0
2
2
1
2.0794415416798357
w1
w1
10
10
1
-1.1394342831883648
w1
w2
10
3
1
0.06453852113757116
w1
w3
10
7
2
-0.08961215868968704
w1
w5
10
8
1
-0.916290731874155
w1
w9
10
12
4
0.06453852113757116
w2
w3
3
7
1
0.4212134650763035
w2
w4
3
4
1
0.9808292530117262
w3
w4
7
4
1
0.13353139262452257
w3
w5
7
8
2
0.13353139262452257
w3
w6
7
7
1
-0.42608439531090014
w4
w5
4
8
1
0.0
w4
w6
4
7
1
0.13353139262452257
w5
w6
8
7
2
0.13353139262452257
w5
w7
8
4
1
0.0
w5
w9
8
12
1
-1.0986122886681098
w6
w7
7
4
1
0.13353139262452257
w6
w8
7
7
1
-0.42608439531090014
w6
w9
7
12
1
-0.9650808960435872
w7
w8
4
7
2
0.8266785731844679
w8
w8
7
7
1
-0.42608439531090014
w8
w9
7
12
2
-0.2719337154836418
w9
w9
12
12
2
-0.8109302162163288
Referensi
Untuk informasi lebih lanjut tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.
Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen untuk pemrosesan data berdasarkan skenario bisnis Anda. Untuk informasi lebih lanjut, lihat Referensi Komponen: Ikhtisar Semua Komponen.