Konfigurasi komponen Edge Clustering Coefficient - Platform For AI

Koefisien Pengelompokan Tepi adalah metrik yang digunakan untuk mengukur tingkat partisipasi sebuah tepi dalam penutupan segitiga di lingkungan sekitarnya. Metrik ini dihitung dengan menentukan proporsi segitiga yang terbentuk di antara tetangga umum dari dua simpul yang dihubungkan oleh tepi tersebut. Koefisien ini membantu memahami pola pengelompokan lokal dan struktur komunitas dalam jaringan, serta banyak digunakan dalam bidang seperti analisis jaringan sosial dan deteksi komunitas.

Konfigurasikan Komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Pada halaman detail pipeline di Machine Learning Designer, tambahkan komponen Edge Clustering Coefficient ke pipeline dan konfigurasikan parameter sesuai tabel berikut.

Tab	Parameter	Deskripsi
Fields Setting	Start Vertex	Kolom simpul awal dalam tabel tepi.
Fields Setting	End Vertex	Kolom simpul akhir dalam tabel tepi.
Tuning	Workers	Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.
	Memory Size per Worker (MB)	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
	Data Split Size (MB)	Ukuran pembagian data. Satuan: MB. Nilai default: 64.

Metode 2: Konfigurasikan komponen menggunakan perintah PAI

Gunakan perintah PAI untuk mengonfigurasi parameter komponen. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen skrip SQL.

PAI -name EdgeDensity
    -project algo_public
    -DinputEdgeTableName=EdgeDensity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=EdgeDensity_func_test_result;

Parameter	Diperlukan	Nilai Default	Deskripsi
inputEdgeTableName	Ya	Tidak ada nilai default	Nama tabel tepi input.
inputEdgeTablePartitions	Tidak	Tabel penuh	Partisi dalam tabel tepi input.
fromVertexCol	Ya	Tidak ada nilai default	Kolom simpul awal dalam tabel tepi input.
toVertexCol	Ya	Tidak ada nilai default	Kolom simpul akhir dalam tabel tepi input.
outputTableName	Ya	Tidak ada nilai default	Nama tabel output.
outputTablePartitions	Tidak	Tidak ada nilai default	Partisi dalam tabel output.
lifecycle	Tidak	Tidak ada nilai default	Siklus hidup tabel output.
workerNum	Tidak	Tidak ada nilai default	Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.
workerMem	Tidak	4096	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Satuan: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
splitSize	Tidak	64	Ukuran pembagian data. Satuan: MB.

Contoh

Pada halaman detail pipeline, tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Pada tab Parameters Setting, hapus centang pada opsi Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script:

drop table if exists EdgeDensity_func_test_edge;
create table EdgeDensity_func_test_edge as
select * from
(
  select '1' as flow_out_id,'2' as flow_in_id
  union all
  select '1' as flow_out_id,'3' as flow_in_id
  union all
  select '1' as flow_out_id,'5' as flow_in_id
  union all
  select '1' as flow_out_id,'7' as flow_in_id
  union all
  select '2' as flow_out_id,'5' as flow_in_id
  union all
  select '2' as flow_out_id,'4' as flow_in_id
  union all
  select '2' as flow_out_id,'3' as flow_in_id
  union all
  select '3' as flow_out_id,'5' as flow_in_id
  union all
  select '3' as flow_out_id,'4' as flow_in_id
  union all
  select '4' as flow_out_id,'5' as flow_in_id
  union all
  select '4' as flow_out_id,'8' as flow_in_id
  union all
  select '5' as flow_out_id,'6' as flow_in_id
  union all
  select '5' as flow_out_id,'7' as flow_in_id
  union all
  select '5' as flow_out_id,'8' as flow_in_id
  union all
  select '7' as flow_out_id,'6' as flow_in_id
  union all
  select '6' as flow_out_id,'8' as flow_in_id
)tmp;
drop table if exists EdgeDensity_func_test_result;
create table EdgeDensity_func_test_result
(
  node1 string,
  node2 string,
  node1_edge_cnt bigint,
  node2_edge_cnt bigint,
  triangle_cnt bigint,
  density double
);

Struktur data

Tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Pada tab Parameters Setting, hapus centang pada opsi Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script. Hubungkan komponen ini dengan komponen yang ditambahkan pada Langkah 1.
```
drop table if exists ${o1};
PAI -name EdgeDensity
    -project algo_public
    -DinputEdgeTableName=EdgeDensity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=${o1};
```
Di sudut kiri atas kanvas, klik untuk menjalankan pipeline.

Setelah pipeline dijalankan, klik komponen SQL Script yang ditambahkan pada Langkah 2, dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

| node1 | node2 | node1_edge_cnt | node2_edge_cnt | triangle_cnt | density |
| ----- | ----- | -------------- | -------------- | ------------ | ------- |
| 3     | 1     | 4              | 4              | 2            | 0.5     |
| 5     | 1     | 7              | 4              | 3            | 0.75    |
| 7     | 1     | 3              | 4              | 1            | 0.33333 |
| 1     | 2     | 4              | 4              | 2            | 0.5     |
| 4     | 2     | 4              | 4              | 2            | 0.5     |
| 2     | 3     | 4              | 4              | 3            | 0.75    |
| 5     | 3     | 7              | 4              | 3            | 0.75    |
| 3     | 4     | 4              | 4              | 2            | 0.5     |
| 8     | 4     | 3              | 4              | 1            | 0.33333 |
| 2     | 5     | 4              | 7              | 3            | 0.75    |
| 4     | 5     | 4              | 7              | 3            | 0.75    |
| 7     | 5     | 3              | 7              | 2            | 0.66667 |
| 5     | 6     | 7              | 3              | 2            | 0.66667 |
| 8     | 6     | 3              | 3              | 1            | 0.33333 |
| 6     | 7     | 3              | 3              | 1            | 0.33333 |
| 5     | 8     | 7              | 3              | 2            | 0.66667 |