Konfigurasi komponen Vertex Clustering Coefficient - Platform For AI

Vertex Clustering Coefficient adalah data deret waktu dalam analisis jaringan yang digunakan untuk mengukur tingkat pengelompokan di antara tetangga sebuah node. Secara spesifik, ini mewakili rasio jumlah sebenarnya dari sisi yang ada di antara tetangga sebuah node terhadap jumlah total kemungkinan sisi yang dapat ada di antara mereka. Nilai koefisien ini berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan koneksi yang lebih erat di antara tetangga node tersebut, mencerminkan karakteristik pengelompokan lokal dalam jaringan.

Deskripsi Algoritma

Dalam grafik tak berarah, koefisien pengelompokan sebuah node mewakili kepadatan koneksi di sekitar node tersebut. Jaringan bintang memiliki kepadatan 0, sedangkan jaringan yang sepenuhnya terhubung memiliki kepadatan 1.

Dalam analisis jaringan, jaringan bintang dan jaringan yang sepenuhnya terhubung merupakan dua topologi jaringan tipikal:

Jaringan bintang: Struktur ini terdiri dari satu node pusat dan beberapa node periferal, di mana semua node periferal hanya terhubung ke node pusat. Karakteristik jaringan bintang adalah koefisien pengelompokan node pusat bernilai 0 karena tetangganya (node periferal) tidak memiliki koneksi langsung antara satu sama lain.
Jaringan yang sepenuhnya terhubung: Pada struktur ini, setiap node terhubung langsung ke semua node lainnya. Karakteristik jaringan ini adalah bahwa semua node memiliki koefisien pengelompokan sebesar 1, karena semua koneksi potensial antara setiap node dan tetangganya telah tersedia.

Kedua struktur ini mewakili kasus ekstrem dalam topologi jaringan: jaringan bintang memiliki tingkat pengelompokan lokal terendah, sedangkan jaringan yang sepenuhnya terhubung memiliki tingkat pengelompokan lokal tertinggi.

Konfigurasikan Komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Tambahkan komponen Vertex Clustering Coefficient pada halaman pipeline dan konfigurasikan parameter berikut:

Kategori	Parameter	Deskripsi
Fields Setting	Start Vertex	Kolom vertex awal dalam tabel edge.
Fields Setting	End Vertex	Kolom vertex akhir dalam tabel edge.
Parameters Setting	Largest Vertex Degree	Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel. Nilai default: 500.
Tuning	Workers	Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini.
	Memory Size per Worker (MB)	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
	Data Split Size (MB)	Ukuran pemisahan data. Satuan: MB. Nilai default: 64.

Metode 2: Konfigurasikan komponen menggunakan perintah PAI

Anda dapat mengonfigurasi komponen Vertex Clustering Coefficient menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen SQL script dalam topik "SQL Script".

PAI -name NodeDensity
    -project algo_public
    -DinputEdgeTableName=NodeDensity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=NodeDensity_func_test_result
    -DmaxEdgeCnt=500;

Parameter	Diperlukan	Nilai Default	Deskripsi
inputEdgeTableName	Ya	Tidak ada nilai default	Nama tabel edge input.
inputEdgeTablePartitions	Tidak	Tabel penuh	Partisi dalam tabel edge input.
fromVertexCol	Ya	Tidak ada nilai default	Kolom vertex awal dalam tabel edge input.
toVertexCol	Ya	Tidak ada nilai default	Kolom vertex akhir dalam tabel edge input.
outputTableName	Ya	Tidak ada nilai default	Nama tabel output.
outputTablePartitions	Tidak	Tidak ada nilai default	Partisi dalam tabel output.
lifecycle	Tidak	Tidak ada nilai default	Lifecycle tabel output.
maxEdgeCnt	Tidak	500	Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel.
workerNum	Tidak	Tidak ada nilai default	Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini.
workerMem	Tidak	4096	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
splitSize	Tidak	64	Ukuran pemisahan data. Satuan: MB.

Contoh

Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan pernyataan SQL berikut.

drop table if exists NodeDensity_func_test_edge;
create table NodeDensity_func_test_edge as
select * from
(
  select '1' as flow_out_id, '2' as flow_in_id
  union all
  select '1' as flow_out_id, '3' as flow_in_id
  union all
  select '1' as flow_out_id, '4' as flow_in_id
  union all
  select '1' as flow_out_id, '5' as flow_in_id
  union all
  select '1' as flow_out_id, '6' as flow_in_id
  union all
  select '2' as flow_out_id, '3' as flow_in_id
  union all
  select '3' as flow_out_id, '4' as flow_in_id
  union all
  select '4' as flow_out_id, '5' as flow_in_id
  union all
  select '5' as flow_out_id, '6' as flow_in_id
  union all
  select '5' as flow_out_id, '7' as flow_in_id
  union all
  select '6' as flow_out_id, '7' as flow_in_id
)tmp;
drop table if exists NodeDensity_func_test_result;
create table NodeDensity_func_test_result
(
  node string,
  node_cnt bigint,
  edge_cnt bigint,
  density double,
  log_density double
);

Struktur data

Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan perintah PAI berikut dan hubungkan kedua komponen SQL Script.

drop table if exists ${o1};
PAI -name NodeDensity
    -project algo_public
    -DinputEdgeTableName=NodeDensity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=${o1}
    -DmaxEdgeCnt=500;

Klik di sudut kiri atas untuk menjalankan pipeline.

Klik kanan komponen SQL Script yang dibuat pada Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

| node | node_cnt | edge_cnt | density | log_density |
| ---- | -------- | -------- | ------- | ----------- |
| 1    | 5        | 4        | 0.4     | 1.45657     |
| 2    | 2        | 1        | 1.0     | 1.24696     |
| 3    | 3        | 2        | 0.66667 | 1.35204     |
| 4    | 3        | 2        | 0.66667 | 1.35204     |
| 5    | 4        | 3        | 0.5     | 1.41189     |
| 6    | 3        | 2        | 0.66667 | 1.35204     |
| 7    | 2        | 1        | 1.0     | 1.24696     |