全部产品
Search
文档中心

Platform For AI:Kedalaman Pohon

更新时间:Jun 22, 2025

Kedalaman pohon merujuk pada jumlah simpul daun pada jalur dari simpul akar ke simpul daun terjauh dalam model pohon keputusan. Parameter Kedalaman Pohon adalah elemen penting yang memengaruhi kompleksitas dan kemampuan penyesuaian model. Pohon yang lebih dalam dapat menangkap pola data dengan lebih baik, tetapi berisiko menyebabkan overfitting. Sebaliknya, pohon yang lebih dangkal dapat menyebabkan underfitting. Oleh karena itu, pemilihan kedalaman pohon yang tepat sangat penting untuk memastikan performa dan kemampuan generalisasi model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat menambahkan komponen Tree Depth di halaman pipeline Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Edge Table: Start Vertex Column

Kolom simpul awal dalam tabel sisi.

Edge Table: End Vertex Column

Kolom simpul akhir dalam tabel sisi.

Tuning

Workers

Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.

Memory Size per Worker

Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

Data Split Size (MB)

Ukuran pembagian data. Unit: MB. Nilai default: 64.

Metode 2: Konfigurasikan komponen menggunakan perintah PAI

Anda dapat mengonfigurasi komponen Tree Depth menggunakan perintah PAI. Gunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan perintah PAI dalam komponen skrip SQL dalam topik "SQL Script".

PAI -name TreeDepth
    -project algo_public
    -DinputEdgeTableName=TreeDepth_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=TreeDepth_func_test_result;

Parameter

Diperlukan

Nilai default

Deskripsi

inputEdgeTableName

Ya

Tidak ada nilai default

Nama tabel sisi input.

inputEdgeTablePartitions

Tidak

Tabel lengkap

Partisi dalam tabel sisi input.

fromVertexCol

Ya

Tidak ada nilai default

Kolom simpul awal dalam tabel sisi input.

toVertexCol

Ya

Tidak ada nilai default

Kolom simpul akhir dalam tabel sisi input.

outputTableName

Ya

Tidak ada nilai default

Nama tabel output.

outputTablePartitions

Tidak

Tidak ada nilai default

Partisi dalam tabel output.

lifecycle

Tidak

Tidak ada nilai default

Siklus hidup tabel output.

workerNum

Tidak

Tidak ditentukan

Jumlah simpul untuk eksekusi pekerjaan paralel. Tingkat paralelisme dan biaya komunikasi kerangka meningkat seiring dengan nilai parameter ini.

workerMem

Tidak

4096

Ukuran maksimum memori yang dapat digunakan oleh satu pekerjaan. Unit: MB. Nilai default: 4096.

Jika ukuran memori yang digunakan melebihi nilai parameter ini, kesalahan OutOfMemory akan dilaporkan.

splitSize

Tidak

64

Ukuran pembagian data.

Contoh

  1. Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script.

    drop table if exists TreeDepth_func_test_edge;
    create table TreeDepth_func_test_edge as
    select * from
    (
        select '0' as flow_out_id, '1' as flow_in_id
        union all
        select '0' as flow_out_id, '2' as flow_in_id
        union all
        select '1' as flow_out_id, '3' as flow_in_id
        union all
        select '1' as flow_out_id, '4' as flow_in_id
        union all
        select '2' as flow_out_id, '4' as flow_in_id
        union all
        select '2' as flow_out_id, '5' as flow_in_id
        union all
        select '4' as flow_out_id, '6' as flow_in_id
        union all
        select 'a' as flow_out_id, 'b' as flow_in_id
        union all
        select 'a' as flow_out_id, 'c' as flow_in_id
        union all
        select 'c' as flow_out_id, 'd' as flow_in_id
        union all
        select 'c' as flow_out_id, 'e' as flow_in_id
    )tmp;
    drop table if exists TreeDepth_func_test_result;
    create table TreeDepth_func_test_result
    (
      node string,
      root string,
      depth bigint
    );

    Struktur data

    图结构

  2. Tambahkan komponen SQL Script sebagai simpul ke kanvas. Hilangkan centang pada kotak centang Use Script Mode dan Whether the system adds a create table statement, masukkan perintah PAI berikut di editor SQL Script, lalu hubungkan dua komponen yang telah ditambahkan.

    drop table if exists ${o1};
    PAI -name TreeDepth
        -project algo_public
        -DinputEdgeTableName=TreeDepth_func_test_edge
        -DfromVertexCol=flow_out_id
        -DtoVertexCol=flow_in_id
        -DoutputTableName=${o1};
  3. Klik image di sudut kiri atas kanvas untuk menjalankan pipeline.

  4. Klik kanan komponen SQL Script di Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.

    | node | root | depth |
    | ---- | ---- | ----- |
    | a    | a    | 0     |
    | b    | a    | 1     |
    | c    | a    | 1     |
    | d    | a    | 2     |
    | e    | a    | 2     |
    | 0    | 0    | 0     |
    | 1    | 0    | 1     |
    | 2    | 0    | 1     |
    | 3    | 0    | 2     |
    | 4    | 0    | 2     |
    | 5    | 0    | 2     |
    | 6    | 0    | 3     |