全部产品
Search
文档中心

Platform For AI:Subgraf Terhubung Maksimum

更新时间:Jul 02, 2025

Algoritma Subgraf Terhubung Maksimum digunakan untuk mengidentifikasi bagian terbesar yang terhubung dalam graf tak berarah, yaitu himpunan simpul terbesar dalam graf. Dalam graf tak berarah, jalur dapat digunakan untuk menghubungkan dua simpul. Algoritma ini sering digunakan dalam skenario seperti analisis jaringan dan pemrosesan gambar. Algoritma Subgraf Terhubung Maksimum menggunakan pencarian mendalam (DFS) atau pencarian melebar (BFS) untuk menjelajahi graf, mengidentifikasi semua komponen yang terhubung, lalu menemukan subgraf dengan jumlah simpul terbanyak.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Konfigurasikan parameter dari komponen Maximum Connected Subgraph di halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Start Vertex

Kolom simpul awal dalam tabel tepi.

End Node

Kolom simpul akhir dalam tabel tepi.

Tuning

Workers

Jumlah node untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.

Memory Size per Worker (MB)

Ukuran maksimum memori yang dapat digunakan oleh pekerjaan. Satuan: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

Data Split Size (MB)

Ukuran pemisahan data. Satuan: MB. Nilai default: 64.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter dari komponen Maximum Connected Subgraph dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen SQL Script.

PAI -name MaximalConnectedComponent
    -project algo_public
    -DinputEdgeTableName=MaximalConnectedComponent_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=MaximalConnectedComponent_func_test_result;

Parameter

Diperlukan

Nilai default

Deskripsi

inputEdgeTableName

Ya

Tidak ada nilai default

Nama tabel tepi input.

inputEdgeTablePartitions

Tidak

Tabel penuh

Partisi dalam tabel tepi input.

fromVertexCol

Ya

Tidak ada nilai default

Kolom simpul awal dalam tabel tepi input.

toVertexCol

Ya

Tidak ada nilai default

Kolom simpul akhir dalam tabel tepi input.

outputTableName

Ya

Tidak ada nilai default

Nama tabel output.

outputTablePartitions

Tidak

Tidak ada nilai default

Partisi dalam tabel output.

lifecycle

Tidak

Tidak ada nilai default

Siklus hidup tabel output.

workerNum

Tidak

Tidak ada nilai default

Jumlah node untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.

workerMem

Tidak

4096

Ukuran maksimum memori yang dapat digunakan oleh pekerjaan. Satuan: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

splitSize

Tidak

64

Ukuran pemisahan data. Satuan: MB.

Contoh

  1. Tambahkan komponen SQL Script sebagai node ke kanvas dan jalankan pernyataan SQL berikut untuk menghasilkan data pelatihan.

    drop table if exists MaximalConnectedComponent_func_test_edge;
    create table MaximalConnectedComponent_func_test_edge as
    select * from
    (
      select '1' as flow_out_id,'2' as flow_in_id
      union all
      select '2' as flow_out_id,'3' as flow_in_id
      union all
      select '3' as flow_out_id,'4' as flow_in_id
      union all
      select '1' as flow_out_id,'4' as flow_in_id
      union all
      select 'a' as flow_out_id,'b' as flow_in_id
      union all
      select 'b' as flow_out_id,'c' as flow_in_id
    )tmp;
    drop table if exists MaximalConnectedComponent_func_test_result;
    create table MaximalConnectedComponent_func_test_result
    (
      node string,
      grp_id string
    );

    Struktur data

    image

  2. Tambahkan komponen SQL Script sebagai node ke kanvas dan jalankan perintah PAI berikut untuk melatih model.

    drop table if exists ${o1};
    PAI -name MaximalConnectedComponent
        -project algo_public
        -DinputEdgeTableName=MaximalConnectedComponent_func_test_edge
        -DfromVertexCol=flow_out_id
        -DtoVertexCol=flow_in_id
        -DoutputTableName=${o1};
  3. Klik kanan komponen SQL Script dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

    | node1 | grp_id |
    | ----- | ------ |
    | a     | c      |
    | b     | c      |
    | c     | c      |
    | 1     | 4      |
    | 2     | 4      |
    | 3     | 4      |
    | 4     | 4      |