全部产品
Search
文档中心

Platform For AI:Vertex Clustering Coefficient

更新时间:Jul 02, 2025

Vertex Clustering Coefficient adalah data deret waktu dalam analisis jaringan yang digunakan untuk mengukur tingkat pengelompokan di antara tetangga sebuah node. Secara spesifik, ini mewakili rasio jumlah sebenarnya dari sisi yang ada di antara tetangga sebuah node terhadap jumlah total kemungkinan sisi yang dapat ada di antara mereka. Nilai koefisien ini berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan koneksi yang lebih erat di antara tetangga node tersebut, mencerminkan karakteristik pengelompokan lokal dalam jaringan.

Deskripsi Algoritma

Dalam grafik tak berarah, koefisien pengelompokan sebuah node mewakili kepadatan koneksi di sekitar node tersebut. Jaringan bintang memiliki kepadatan 0, sedangkan jaringan yang sepenuhnya terhubung memiliki kepadatan 1.

Dalam analisis jaringan, jaringan bintang dan jaringan yang sepenuhnya terhubung merupakan dua topologi jaringan tipikal:

  • Jaringan bintang: Struktur ini terdiri dari satu node pusat dan beberapa node periferal, di mana semua node periferal hanya terhubung ke node pusat. Karakteristik jaringan bintang adalah koefisien pengelompokan node pusat bernilai 0 karena tetangganya (node periferal) tidak memiliki koneksi langsung antara satu sama lain.

  • Jaringan yang sepenuhnya terhubung: Pada struktur ini, setiap node terhubung langsung ke semua node lainnya. Karakteristik jaringan ini adalah bahwa semua node memiliki koefisien pengelompokan sebesar 1, karena semua koneksi potensial antara setiap node dan tetangganya telah tersedia.

Kedua struktur ini mewakili kasus ekstrem dalam topologi jaringan: jaringan bintang memiliki tingkat pengelompokan lokal terendah, sedangkan jaringan yang sepenuhnya terhubung memiliki tingkat pengelompokan lokal tertinggi.

Konfigurasikan Komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Tambahkan komponen Vertex Clustering Coefficient pada halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Fields Setting

Start Vertex

Kolom vertex awal dalam tabel edge.

End Vertex

Kolom vertex akhir dalam tabel edge.

Parameters Setting

Largest Vertex Degree

Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel. Nilai default: 500.

Tuning

Workers

Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini.

Memory Size per Worker (MB)

Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

Data Split Size (MB)

Ukuran pemisahan data. Satuan: MB. Nilai default: 64.

Metode 2: Konfigurasikan komponen menggunakan perintah PAI

Anda dapat mengonfigurasi komponen Vertex Clustering Coefficient menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen SQL script dalam topik "SQL Script".

PAI -name NodeDensity
    -project algo_public
    -DinputEdgeTableName=NodeDensity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=NodeDensity_func_test_result
    -DmaxEdgeCnt=500;

Parameter

Diperlukan

Nilai Default

Deskripsi

inputEdgeTableName

Ya

Tidak ada nilai default

Nama tabel edge input.

inputEdgeTablePartitions

Tidak

Tabel penuh

Partisi dalam tabel edge input.

fromVertexCol

Ya

Tidak ada nilai default

Kolom vertex awal dalam tabel edge input.

toVertexCol

Ya

Tidak ada nilai default

Kolom vertex akhir dalam tabel edge input.

outputTableName

Ya

Tidak ada nilai default

Nama tabel output.

outputTablePartitions

Tidak

Tidak ada nilai default

Partisi dalam tabel output.

lifecycle

Tidak

Tidak ada nilai default

Lifecycle tabel output.

maxEdgeCnt

Tidak

500

Jika derajat vertex lebih besar dari nilai parameter ini, diperlukan pengambilan sampel.

workerNum

Tidak

Tidak ada nilai default

Jumlah vertex untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat dengan nilai parameter ini.

workerMem

Tidak

4096

Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

splitSize

Tidak

64

Ukuran pemisahan data. Satuan: MB.

Contoh

  1. Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan pernyataan SQL berikut.

    drop table if exists NodeDensity_func_test_edge;
    create table NodeDensity_func_test_edge as
    select * from
    (
      select '1' as flow_out_id, '2' as flow_in_id
      union all
      select '1' as flow_out_id, '3' as flow_in_id
      union all
      select '1' as flow_out_id, '4' as flow_in_id
      union all
      select '1' as flow_out_id, '5' as flow_in_id
      union all
      select '1' as flow_out_id, '6' as flow_in_id
      union all
      select '2' as flow_out_id, '3' as flow_in_id
      union all
      select '3' as flow_out_id, '4' as flow_in_id
      union all
      select '4' as flow_out_id, '5' as flow_in_id
      union all
      select '5' as flow_out_id, '6' as flow_in_id
      union all
      select '5' as flow_out_id, '7' as flow_in_id
      union all
      select '6' as flow_out_id, '7' as flow_in_id
    )tmp;
    drop table if exists NodeDensity_func_test_result;
    create table NodeDensity_func_test_result
    (
      node string,
      node_cnt bigint,
      edge_cnt bigint,
      density double,
      log_density double
    );

    Struktur data

    image

  2. Tambahkan komponen SQL Script. Hilangkan centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan perintah PAI berikut dan hubungkan kedua komponen SQL Script.

    drop table if exists ${o1};
    PAI -name NodeDensity
        -project algo_public
        -DinputEdgeTableName=NodeDensity_func_test_edge
        -DfromVertexCol=flow_out_id
        -DtoVertexCol=flow_in_id
        -DoutputTableName=${o1}
        -DmaxEdgeCnt=500;
  3. Klik image di sudut kiri atas untuk menjalankan pipeline.

  4. Klik kanan komponen SQL Script yang dibuat pada Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

    | node | node_cnt | edge_cnt | density | log_density |
    | ---- | -------- | -------- | ------- | ----------- |
    | 1    | 5        | 4        | 0.4     | 1.45657     |
    | 2    | 2        | 1        | 1.0     | 1.24696     |
    | 3    | 3        | 2        | 0.66667 | 1.35204     |
    | 4    | 3        | 2        | 0.66667 | 1.35204     |
    | 5    | 4        | 3        | 0.5     | 1.41189     |
    | 6    | 3        | 2        | 0.66667 | 1.35204     |
    | 7    | 2        | 1        | 1.0     | 1.24696     |