全部产品
Search
文档中心

Platform For AI:Klasifikasi Video

更新时间:Jul 06, 2025

Gunakan komponen klasifikasi video untuk melatih model klasifikasi video guna melakukan inferensi berdasarkan data video mentah. Topik ini menjelaskan cara mengonfigurasi komponen tersebut dan memberikan contoh penggunaannya di Platform for AI (PAI).

Prasyarat

OSS telah diaktifkan, dan Machine Learning Studio diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Aktifkan OSS dan Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.

Batasan

  • Komponen klasifikasi video hanya tersedia di Machine Learning Designer dari PAI.

  • Anda dapat menggunakan komponen klasifikasi video dengan sumber daya komputasi Deep Learning Container (DLC).

Ikhtisar

Modul klasifikasi video menyediakan model Convolutional Neural Network (CNN) 3D arus utama dan model transformer yang dapat digunakan untuk tugas pelatihan klasifikasi video. Model X3D yang didukung meliputi X3D-XS, X3D-M, dan X3D-L, serta model transformer seperti swin-t, swin-s, swin-b, dan swin-t-bert. Model swin-t-bert mendukung input dual-modal berdasarkan data video dan teks.

Komponen klasifikasi video dapat ditemukan di subfolder Offline Training dalam folder Video Algorithm di pustaka komponen.

Konfigurasikan komponen di konsol PAI

  • Port Masukan

    Port masukan (dari kiri ke kanan)

    Tipe data

    Komponen hulu yang direkomendasikan

    Diperlukan

    data latih

    OSS

    Baca Data File

    Tidak. Jika Anda tidak menggunakan port masukan ini untuk meneruskan data latih ke komponen klasifikasi video, Anda perlu pergi ke tab Fields Setting dari komponen dan mengonfigurasi parameter oss path to train file. Untuk informasi lebih lanjut, lihat tabel Parameter Komponen dalam topik ini.

    data evaluasi

    OSS

    Baca Data File

    Tidak. Jika Anda tidak menggunakan port masukan ini untuk meneruskan data evaluasi ke komponen klasifikasi video, Anda perlu pergi ke tab Fields Setting dari komponen dan mengonfigurasi parameter oss path to evaluation file. Untuk informasi lebih lanjut, lihat tabel Parameter Komponen dalam topik ini.

  • Parameter Komponen

    Tab

    Parameter

    Diperlukan

    Deskripsi

    Nilai default

    Fields Setting

    oss path to save checkpoint

    Ya

    Path Object Storage Service (OSS) tempat model disimpan. Contoh: oss://pai-online-shanghai.oss-cn-shanghai-internal.aliyuncs.com/test/test_video_cls.

    N/A

    oss path to data

    Tidak

    Direktori OSS tempat file video disimpan. Jika direktori ditentukan, path file video mencakup direktori dan nama file video dalam file label. Sebagai contoh, jika direktori OSS adalah oss://pai-vision-data-hz/EasyMM/DataSet/kinetics400/ dan nama file video dalam file label adalah video/1.mp4, maka path file video adalah oss://pai-vision-data-hz/EasyMM/DataSet/kinetics400/video/1.mp4.

    N/A

    oss path to train file

    Tidak

    Path OSS tempat data latih disimpan. Parameter ini diperlukan jika Anda tidak menggunakan port masukan untuk meneruskan data latih ke komponen klasifikasi video. Contoh: oss://pai-vision-data-hz/EasyMM/DataSet/kinetics400/train_pai.txt.

    Jika Anda menggunakan port masukan dan parameter ini untuk meneruskan data latih ke komponen klasifikasi video, data latih yang diteruskan melalui port masukan yang digunakan.

    Jika file label tidak berisi teks, pisahkan nama file video dan label di setiap baris file label dengan spasi. Contoh: Nama File Video Label. Jika file label berisi teks, pisahkan nama file video, teks, dan label di setiap baris dengan \t. Contoh: Nama File Video\tTeks\tLabel.

    N/A

    oss path to evaluation file

    Tidak

    Path OSS tempat data evaluasi disimpan. Parameter ini diperlukan jika Anda tidak menggunakan port masukan untuk meneruskan data evaluasi ke komponen klasifikasi video. Contoh: oss://pai-vision-data-hz/EasyMM/DataSet/kinetics400/train_pai.txt.

    Jika Anda menggunakan port masukan dan parameter ini untuk meneruskan data evaluasi ke komponen klasifikasi video, data evaluasi yang diteruskan melalui port masukan yang digunakan.

    N/A

    oss path to pretrained model

    Tidak

    Path OSS tempat model pre-trained disimpan. Kami merekomendasikan Anda menggunakan model pre-trained untuk meningkatkan presisi model.

    N/A

    Parameters Setting

    video classification network

    Ya

    Jaringan yang digunakan oleh model. Nilai valid:

    • x3d_xs

    • x3d_l

    • x3d_m

    • swin_t

    • swin_s

    • swin_b

    • swin_t_bert

    x3d_xs

    whether to use multilabel

    Tidak

    Menentukan apakah menggunakan beberapa label.

    Parameter ini tersedia hanya jika Anda memilih jaringan swin_t_bert.

    false

    numclasses

    Ya

    Jumlah kategori.

    N/A

    learning rate

    Ya

    Tingkat pembelajaran awal.

    Untuk model x3d, disarankan untuk menyetel tingkat pembelajaran menjadi 0,1. Untuk model swin, disarankan untuk menyetel tingkat pembelajaran menjadi 0,0001.

    0,1

    number of train epochs

    Ya

    Jumlah iterasi pelatihan.

    Untuk model x3d, disarankan untuk mengatur nilainya menjadi 300. Untuk model swin, disarankan untuk mengatur nilainya menjadi 30.

    10

    warmup epoch

    Ya

    Jumlah iterasi warmup. Kami merekomendasikan Anda mengatur tingkat pembelajaran awal untuk warmup ke nilai kecil. Dengan cara ini, nilai parameter learning rate hanya dapat dicapai setelah jumlah number of warmup iterations yang ditentukan dilaksanakan. Ini mencegah gradien model meledak. Sebagai contoh, jika Anda mengatur parameter warmup epoch menjadi 35, tingkat pembelajaran model secara bertahap meningkat ke nilai yang ditentukan oleh parameter learning rate setelah 35 iterasi warmup.

    35

    batch size

    Ya

    Ukuran batch pelatihan. Parameter ini menentukan jumlah sampel data yang digunakan dalam satu iterasi model atau proses pelatihan.

    32

    model save interval

    Tidak

    Interval epoch saat checkpoint disimpan. Nilai 1 menunjukkan bahwa checkpoint disimpan setiap kali epoch selesai.

    1

    Tuning

    use fp 16

    Ya

    Menentukan apakah akan mengaktifkan FP16 untuk mengurangi penggunaan memori selama pelatihan model.

    N/A

    single worker or distributed on dlc

    Tidak

    Mode di mana komponen dijalankan. Nilai valid:

    • single_dlc: pekerja tunggal pada Deep Learning Containers (DLC)

    • distribute_dlc: pekerja terdistribusi pada DLC

    single_dlc

    gpu machine type

    Tidak

    Spesifikasi node GPU yang ingin Anda gunakan.

    8vCPU+60GB Mem+1xp100-ecs.gn5-c8g1.2xlarge

  • Port Keluaran

    Port keluaran (dari kiri ke kanan)

    Tipe data

    Komponen hilir

    model keluaran

    Path OSS dari model keluaran. Nilainya sama dengan yang Anda tentukan untuk parameter oss path to save checkpoint pada tab Fields Setting. Model keluaran dalam format .pth disimpan di path OSS ini.

    prediksi video

Contoh

Gambar berikut menunjukkan pipeline sampel yang menggunakan komponen klasifikasi video. 视频分类示例Untuk mengonfigurasi komponen pada gambar di atas, ikuti langkah-langkah berikut:

  1. Gunakan dua komponen Read File Data sebagai komponen hulu dari komponen klasifikasi video untuk membaca file data video sebagai data latih masukan dan data evaluasi. Untuk melakukannya, atur parameter OSS Data Path dari dua komponen Read File Data ke path OSS dari file data video.

    Gambar berikut menunjukkan format file label video. 标签文件Setiap baris dalam file berisi path file video dan label kategori yang dipisahkan oleh karakter spasi.

  2. Tentukan data latih dan data evaluasi sebagai masukan komponen klasifikasi video dan konfigurasikan parameter lainnya. Untuk informasi lebih lanjut, lihat Konfigurasikan Komponen Klasifikasi Video.

Referensi

  • Untuk informasi tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.

  • Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen untuk pemrosesan data sesuai kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar Komponen Designer.