Koefisien Pengelompokan Tepi adalah metrik yang digunakan untuk mengukur tingkat partisipasi sebuah tepi dalam penutupan segitiga di lingkungan sekitarnya. Metrik ini dihitung dengan menentukan proporsi segitiga yang terbentuk di antara tetangga umum dari dua simpul yang dihubungkan oleh tepi tersebut. Koefisien ini membantu memahami pola pengelompokan lokal dan struktur komunitas dalam jaringan, serta banyak digunakan dalam bidang seperti analisis jaringan sosial dan deteksi komunitas.
Konfigurasikan Komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Pada halaman detail pipeline di Machine Learning Designer, tambahkan komponen Edge Clustering Coefficient ke pipeline dan konfigurasikan parameter sesuai tabel berikut.
Tab | Parameter | Deskripsi |
Fields Setting | Start Vertex | Kolom simpul awal dalam tabel tepi. |
End Vertex | Kolom simpul akhir dalam tabel tepi. | |
Tuning | Workers | Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini. |
Memory Size per Worker (MB) | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan | |
Data Split Size (MB) | Ukuran pembagian data. Satuan: MB. Nilai default: 64. |
Metode 2: Konfigurasikan komponen menggunakan perintah PAI
Gunakan perintah PAI untuk mengonfigurasi parameter komponen. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen skrip SQL.
PAI -name EdgeDensity
-project algo_public
-DinputEdgeTableName=EdgeDensity_func_test_edge
-DfromVertexCol=flow_out_id
-DtoVertexCol=flow_in_id
-DoutputTableName=EdgeDensity_func_test_result;Parameter | Diperlukan | Nilai Default | Deskripsi |
inputEdgeTableName | Ya | Tidak ada nilai default | Nama tabel tepi input. |
inputEdgeTablePartitions | Tidak | Tabel penuh | Partisi dalam tabel tepi input. |
fromVertexCol | Ya | Tidak ada nilai default | Kolom simpul awal dalam tabel tepi input. |
toVertexCol | Ya | Tidak ada nilai default | Kolom simpul akhir dalam tabel tepi input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
outputTablePartitions | Tidak | Tidak ada nilai default | Partisi dalam tabel output. |
lifecycle | Tidak | Tidak ada nilai default | Siklus hidup tabel output. |
workerNum | Tidak | Tidak ada nilai default | Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini. |
workerMem | Tidak | 4096 | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan |
splitSize | Tidak | 64 | Ukuran pembagian data. Satuan: MB. |
Contoh
Pada halaman detail pipeline, tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Pada tab Parameters Setting, hapus centang pada opsi Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script:
drop table if exists EdgeDensity_func_test_edge; create table EdgeDensity_func_test_edge as select * from ( select '1' as flow_out_id,'2' as flow_in_id union all select '1' as flow_out_id,'3' as flow_in_id union all select '1' as flow_out_id,'5' as flow_in_id union all select '1' as flow_out_id,'7' as flow_in_id union all select '2' as flow_out_id,'5' as flow_in_id union all select '2' as flow_out_id,'4' as flow_in_id union all select '2' as flow_out_id,'3' as flow_in_id union all select '3' as flow_out_id,'5' as flow_in_id union all select '3' as flow_out_id,'4' as flow_in_id union all select '4' as flow_out_id,'5' as flow_in_id union all select '4' as flow_out_id,'8' as flow_in_id union all select '5' as flow_out_id,'6' as flow_in_id union all select '5' as flow_out_id,'7' as flow_in_id union all select '5' as flow_out_id,'8' as flow_in_id union all select '7' as flow_out_id,'6' as flow_in_id union all select '6' as flow_out_id,'8' as flow_in_id )tmp; drop table if exists EdgeDensity_func_test_result; create table EdgeDensity_func_test_result ( node1 string, node2 string, node1_edge_cnt bigint, node2_edge_cnt bigint, triangle_cnt bigint, density double );Struktur data

Tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Pada tab Parameters Setting, hapus centang pada opsi Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script. Hubungkan komponen ini dengan komponen yang ditambahkan pada Langkah 1.
drop table if exists ${o1}; PAI -name EdgeDensity -project algo_public -DinputEdgeTableName=EdgeDensity_func_test_edge -DfromVertexCol=flow_out_id -DtoVertexCol=flow_in_id -DoutputTableName=${o1};Di sudut kiri atas kanvas, klik
untuk menjalankan pipeline.Setelah pipeline dijalankan, klik komponen SQL Script yang ditambahkan pada Langkah 2, dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.
| node1 | node2 | node1_edge_cnt | node2_edge_cnt | triangle_cnt | density | | ----- | ----- | -------------- | -------------- | ------------ | ------- | | 3 | 1 | 4 | 4 | 2 | 0.5 | | 5 | 1 | 7 | 4 | 3 | 0.75 | | 7 | 1 | 3 | 4 | 1 | 0.33333 | | 1 | 2 | 4 | 4 | 2 | 0.5 | | 4 | 2 | 4 | 4 | 2 | 0.5 | | 2 | 3 | 4 | 4 | 3 | 0.75 | | 5 | 3 | 7 | 4 | 3 | 0.75 | | 3 | 4 | 4 | 4 | 2 | 0.5 | | 8 | 4 | 3 | 4 | 1 | 0.33333 | | 2 | 5 | 4 | 7 | 3 | 0.75 | | 4 | 5 | 4 | 7 | 3 | 0.75 | | 7 | 5 | 3 | 7 | 2 | 0.66667 | | 5 | 6 | 7 | 3 | 2 | 0.66667 | | 8 | 6 | 3 | 3 | 1 | 0.33333 | | 6 | 7 | 3 | 3 | 1 | 0.33333 | | 5 | 8 | 7 | 3 | 2 | 0.66667 |