Vertex Clustering Coefficient adalah data deret waktu dalam analisis jaringan yang digunakan untuk mengukur tingkat pengelompokan di antara tetangga sebuah node. Secara spesifik, ini mewakili rasio jumlah sebenarnya dari sisi yang ada di antara tetangga sebuah node terhadap jumlah total kemungkinan sisi yang dapat ada di antara mereka. Nilai koefisien ini berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan koneksi yang lebih erat di antara tetangga node tersebut, mencerminkan karakteristik pengelompokan lokal dalam jaringan.
Deskripsi Algoritma
Dalam grafik tak berarah, koefisien pengelompokan sebuah node mewakili kepadatan koneksi di sekitar node tersebut. Jaringan bintang memiliki kepadatan 0, sedangkan jaringan yang sepenuhnya terhubung memiliki kepadatan 1.
Dalam analisis jaringan, jaringan bintang dan jaringan yang sepenuhnya terhubung merupakan dua topologi jaringan tipikal:
Jaringan bintang: Struktur ini terdiri dari satu node pusat dan beberapa node periferal, di mana semua node periferal hanya terhubung ke node pusat. Karakteristik jaringan bintang adalah koefisien pengelompokan node pusat bernilai 0 karena tetangganya (node periferal) tidak memiliki koneksi langsung antara satu sama lain.
Jaringan yang sepenuhnya terhubung: Pada struktur ini, setiap node terhubung langsung ke semua node lainnya. Karakteristik jaringan ini adalah bahwa semua node memiliki koefisien pengelompokan sebesar 1, karena semua koneksi potensial antara setiap node dan tetangganya telah tersedia.
Kedua struktur ini mewakili kasus ekstrem dalam topologi jaringan: jaringan bintang memiliki tingkat pengelompokan lokal terendah, sedangkan jaringan yang sepenuhnya terhubung memiliki tingkat pengelompokan lokal tertinggi.
Konfigurasikan Komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Tambahkan komponen Vertex Clustering Coefficient pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Fields Setting | Start Vertex | Kolom vertex awal dalam tabel edge. |
End Vertex | Kolom vertex akhir dalam tabel edge. | |
Parameters Setting | Largest Vertex Degree | Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel. Nilai default: 500. |
Tuning | Workers | Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini. |
Memory Size per Worker (MB) | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan | |
Data Split Size (MB) | Ukuran pemisahan data. Satuan: MB. Nilai default: 64. |
Metode 2: Konfigurasikan komponen menggunakan perintah PAI
Anda dapat mengonfigurasi komponen Vertex Clustering Coefficient menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen SQL script dalam topik "SQL Script".
PAI -name NodeDensity
-project algo_public
-DinputEdgeTableName=NodeDensity_func_test_edge
-DfromVertexCol=flow_out_id
-DtoVertexCol=flow_in_id
-DoutputTableName=NodeDensity_func_test_result
-DmaxEdgeCnt=500;Parameter | Diperlukan | Nilai Default | Deskripsi |
inputEdgeTableName | Ya | Tidak ada nilai default | Nama tabel edge input. |
inputEdgeTablePartitions | Tidak | Tabel penuh | Partisi dalam tabel edge input. |
fromVertexCol | Ya | Tidak ada nilai default | Kolom vertex awal dalam tabel edge input. |
toVertexCol | Ya | Tidak ada nilai default | Kolom vertex akhir dalam tabel edge input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
outputTablePartitions | Tidak | Tidak ada nilai default | Partisi dalam tabel output. |
lifecycle | Tidak | Tidak ada nilai default | Lifecycle tabel output. |
maxEdgeCnt | Tidak | 500 | Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel. |
workerNum | Tidak | Tidak ada nilai default | Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini. |
workerMem | Tidak | 4096 | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan |
splitSize | Tidak | 64 | Ukuran pemisahan data. Satuan: MB. |
Contoh
Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan pernyataan SQL berikut.
drop table if exists NodeDensity_func_test_edge; create table NodeDensity_func_test_edge as select * from ( select '1' as flow_out_id, '2' as flow_in_id union all select '1' as flow_out_id, '3' as flow_in_id union all select '1' as flow_out_id, '4' as flow_in_id union all select '1' as flow_out_id, '5' as flow_in_id union all select '1' as flow_out_id, '6' as flow_in_id union all select '2' as flow_out_id, '3' as flow_in_id union all select '3' as flow_out_id, '4' as flow_in_id union all select '4' as flow_out_id, '5' as flow_in_id union all select '5' as flow_out_id, '6' as flow_in_id union all select '5' as flow_out_id, '7' as flow_in_id union all select '6' as flow_out_id, '7' as flow_in_id )tmp; drop table if exists NodeDensity_func_test_result; create table NodeDensity_func_test_result ( node string, node_cnt bigint, edge_cnt bigint, density double, log_density double );Struktur data

Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan perintah PAI berikut dan hubungkan kedua komponen SQL Script.
drop table if exists ${o1}; PAI -name NodeDensity -project algo_public -DinputEdgeTableName=NodeDensity_func_test_edge -DfromVertexCol=flow_out_id -DtoVertexCol=flow_in_id -DoutputTableName=${o1} -DmaxEdgeCnt=500;Klik
di sudut kiri atas untuk menjalankan pipeline.Klik kanan komponen SQL Script yang dibuat pada Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.
| node | node_cnt | edge_cnt | density | log_density | | ---- | -------- | -------- | ------- | ----------- | | 1 | 5 | 4 | 0.4 | 1.45657 | | 2 | 2 | 1 | 1.0 | 1.24696 | | 3 | 3 | 2 | 0.66667 | 1.35204 | | 4 | 3 | 2 | 0.66667 | 1.35204 | | 5 | 4 | 3 | 0.5 | 1.41189 | | 6 | 3 | 2 | 0.66667 | 1.35204 | | 7 | 2 | 1 | 1.0 | 1.24696 |