Kedalaman pohon merujuk pada jumlah simpul daun pada jalur dari simpul akar ke simpul daun terjauh dalam model pohon keputusan. Parameter Kedalaman Pohon adalah elemen penting yang memengaruhi kompleksitas dan kemampuan penyesuaian model. Pohon yang lebih dalam dapat menangkap pola data dengan lebih baik, tetapi berisiko menyebabkan overfitting. Sebaliknya, pohon yang lebih dangkal dapat menyebabkan underfitting. Oleh karena itu, pemilihan kedalaman pohon yang tepat sangat penting untuk memastikan performa dan kemampuan generalisasi model.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat menambahkan komponen Tree Depth di halaman pipeline Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Edge Table: Start Vertex Column | Kolom simpul awal dalam tabel sisi. |
Edge Table: End Vertex Column | Kolom simpul akhir dalam tabel sisi. | |
Tuning | Workers | Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini. |
Memory Size per Worker | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan | |
Data Split Size (MB) | Ukuran pembagian data. Unit: MB. Nilai default: 64. |
Metode 2: Konfigurasikan komponen menggunakan perintah PAI
Anda dapat mengonfigurasi komponen Tree Depth menggunakan perintah PAI. Gunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen skrip SQL dalam topik "SQL Script".
PAI -name TreeDepth
-project algo_public
-DinputEdgeTableName=TreeDepth_func_test_edge
-DfromVertexCol=flow_out_id
-DtoVertexCol=flow_in_id
-DoutputTableName=TreeDepth_func_test_result;Parameter | Diperlukan | Nilai default | Deskripsi |
inputEdgeTableName | Ya | Tidak ada nilai default | Nama tabel sisi input. |
inputEdgeTablePartitions | Tidak | Tabel lengkap | Partisi dalam tabel sisi input. |
fromVertexCol | Ya | Tidak ada nilai default | Kolom simpul awal dalam tabel sisi input. |
toVertexCol | Ya | Tidak ada nilai default | Kolom simpul akhir dalam tabel sisi input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
outputTablePartitions | Tidak | Tidak ada nilai default | Partisi dalam tabel output. |
lifecycle | Tidak | Tidak ada nilai default | Siklus hidup tabel output. |
workerNum | Tidak | Tidak ditentukan | Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini. |
workerMem | Tidak | 4096 | Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096. Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan |
splitSize | Tidak | 64 | Ukuran pembagian data. |
Contoh
Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script.
drop table if exists TreeDepth_func_test_edge; create table TreeDepth_func_test_edge as select * from ( select '0' as flow_out_id, '1' as flow_in_id union all select '0' as flow_out_id, '2' as flow_in_id union all select '1' as flow_out_id, '3' as flow_in_id union all select '1' as flow_out_id, '4' as flow_in_id union all select '2' as flow_out_id, '4' as flow_in_id union all select '2' as flow_out_id, '5' as flow_in_id union all select '4' as flow_out_id, '6' as flow_in_id union all select 'a' as flow_out_id, 'b' as flow_in_id union all select 'a' as flow_out_id, 'c' as flow_in_id union all select 'c' as flow_out_id, 'd' as flow_in_id union all select 'c' as flow_out_id, 'e' as flow_in_id )tmp; drop table if exists TreeDepth_func_test_result; create table TreeDepth_func_test_result ( node string, root string, depth bigint );Struktur data

Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, masukkan perintah PAI berikut di editor SQL Script, lalu hubungkan dua komponen yang telah ditambahkan.
drop table if exists ${o1}; PAI -name TreeDepth -project algo_public -DinputEdgeTableName=TreeDepth_func_test_edge -DfromVertexCol=flow_out_id -DtoVertexCol=flow_in_id -DoutputTableName=${o1};Klik
di sudut kiri atas kanvas untuk menjalankan pipeline.Klik kanan komponen SQL Script di Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.
| node | root | depth | | ---- | ---- | ----- | | a | a | 0 | | b | a | 1 | | c | a | 1 | | d | a | 2 | | e | a | 2 | | 0 | 0 | 0 | | 1 | 0 | 1 | | 2 | 0 | 1 | | 3 | 0 | 2 | | 4 | 0 | 2 | | 5 | 0 | 2 | | 6 | 0 | 3 |