Hitung kedalaman tree - Platform For AI

Kedalaman pohon merujuk pada jumlah simpul daun pada jalur dari simpul akar ke simpul daun terjauh dalam model pohon keputusan. Parameter Kedalaman Pohon adalah elemen penting yang memengaruhi kompleksitas dan kemampuan penyesuaian model. Pohon yang lebih dalam dapat menangkap pola data dengan lebih baik, tetapi berisiko menyebabkan overfitting. Sebaliknya, pohon yang lebih dangkal dapat menyebabkan underfitting. Oleh karena itu, pemilihan kedalaman pohon yang tepat sangat penting untuk memastikan performa dan kemampuan generalisasi model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat menambahkan komponen Tree Depth di halaman pipeline Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab	Parameter	Deskripsi
Fields Setting	Edge Table: Start Vertex Column	Kolom simpul awal dalam tabel sisi.
Fields Setting	Edge Table: End Vertex Column	Kolom simpul akhir dalam tabel sisi.
Tuning	Workers	Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.
	Memory Size per Worker	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
	Data Split Size (MB)	Ukuran pembagian data. Unit: MB. Nilai default: 64.

Metode 2: Konfigurasikan komponen menggunakan perintah PAI

Anda dapat mengonfigurasi komponen Tree Depth menggunakan perintah PAI. Gunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen skrip SQL dalam topik "SQL Script".

PAI -name TreeDepth
    -project algo_public
    -DinputEdgeTableName=TreeDepth_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=TreeDepth_func_test_result;

Parameter	Diperlukan	Nilai default	Deskripsi
inputEdgeTableName	Ya	Tidak ada nilai default	Nama tabel sisi input.
inputEdgeTablePartitions	Tidak	Tabel lengkap	Partisi dalam tabel sisi input.
fromVertexCol	Ya	Tidak ada nilai default	Kolom simpul awal dalam tabel sisi input.
toVertexCol	Ya	Tidak ada nilai default	Kolom simpul akhir dalam tabel sisi input.
outputTableName	Ya	Tidak ada nilai default	Nama tabel output.
outputTablePartitions	Tidak	Tidak ada nilai default	Partisi dalam tabel output.
lifecycle	Tidak	Tidak ada nilai default	Siklus hidup tabel output.
workerNum	Tidak	Tidak ditentukan	Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.
workerMem	Tidak	4096	Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan `OutOfMemory` akan dilaporkan.
splitSize	Tidak	64	Ukuran pembagian data.

Contoh

Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script.

drop table if exists TreeDepth_func_test_edge;
create table TreeDepth_func_test_edge as
select * from
(
    select '0' as flow_out_id, '1' as flow_in_id
    union all
    select '0' as flow_out_id, '2' as flow_in_id
    union all
    select '1' as flow_out_id, '3' as flow_in_id
    union all
    select '1' as flow_out_id, '4' as flow_in_id
    union all
    select '2' as flow_out_id, '4' as flow_in_id
    union all
    select '2' as flow_out_id, '5' as flow_in_id
    union all
    select '4' as flow_out_id, '6' as flow_in_id
    union all
    select 'a' as flow_out_id, 'b' as flow_in_id
    union all
    select 'a' as flow_out_id, 'c' as flow_in_id
    union all
    select 'c' as flow_out_id, 'd' as flow_in_id
    union all
    select 'c' as flow_out_id, 'e' as flow_in_id
)tmp;
drop table if exists TreeDepth_func_test_result;
create table TreeDepth_func_test_result
(
  node string,
  root string,
  depth bigint
);

Struktur data

图结构

Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, masukkan perintah PAI berikut di editor SQL Script, lalu hubungkan dua komponen yang telah ditambahkan.
```
drop table if exists ${o1};
PAI -name TreeDepth
    -project algo_public
    -DinputEdgeTableName=TreeDepth_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=${o1};
```
Klik di sudut kiri atas kanvas untuk menjalankan pipeline.

Klik kanan komponen SQL Script di Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

| node | root | depth |
| ---- | ---- | ----- |
| a    | a    | 0     |
| b    | a    | 1     |
| c    | a    | 1     |
| d    | a    | 2     |
| e    | a    | 2     |
| 0    | 0    | 0     |
| 1    | 0    | 1     |
| 2    | 0    | 1     |
| 3    | 0    | 2     |
| 4    | 0    | 2     |
| 5    | 0    | 2     |
| 6    | 0    | 3     |