Filter frame video dengan kesamaan rendah menggunakan PAI-Platform untuk AI

Komponen LVM-Text-Frame-Similarity Filter (DLC) dari Platform for AI (PAI) digunakan untuk menyaring data video dengan kemiripan rendah. Hanya file MP4 yang dapat diproses.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Algoritma

Komponen LVM-Text-Frame-Similarity Filter (DLC) menghitung kemiripan antara deskripsi frame video yang diambil sampelnya dan teks deskripsi dalam data pelatihan. Teks deskripsi adalah konten yang mengikuti bidang <__dj__video> dalam Data Pelatihan. Dengan cara ini, komponen dapat menyaring data video dengan kemiripan rendah untuk memastikan kualitas video. Komponen ini biasanya digunakan untuk pelatihan model generasi video berikutnya.

Input berupa file JSONL. Bidang <__dj__image> adalah penanda awal teks deskripsi, sedangkan bidang <|__dj__eoc|> adalah penanda akhir teks deskripsi.

Bidang gambar adalah jalur OSS dari gambar.
Bidang teks adalah teks deskripsi.

Input dan output

Port input

Komponen Read File Data digunakan untuk membaca direktori OSS tempat data pelatihan disimpan.
Anda dapat mengonfigurasi parameter OSS Data Path untuk memilih file data pelatihan.

Untuk informasi lebih lanjut tentang file data pelatihan, lihat Algoritma.

Port output

Hasil penyaringan. Untuk detail lebih lanjut, lihat deskripsi parameter di bagian berikutnya.

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LVM-Text-Frame-Similarity Filter (DLC) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab	Parameter		Diperlukan	Deskripsi	Nilai default
Pengaturan Bidang	Jalur OSS Data Video		Tidak	File data pelatihan. Untuk informasi lebih lanjut, lihat Algoritma.	Tidak ada nilai default
	Jalur OSS File Output		Ya	Direktori OSS tempat hasil penyaringan disimpan. Hasilnya mencakup file berikut: {name}.jsonl: file output. Anda dapat mengonfigurasi parameter Output Filename untuk menentukan file output. {name}_stats.jsonl: file status. dj_run_yaml.yaml: file konfigurasi parameter yang digunakan saat algoritma dijalankan.	Tidak ada nilai default
	Nama File Output		Ya	Nama file hasil penyaringan.	result.jsonl
Pengaturan Parameter	Skor Kemiripan Minimum Teks-Frame		Ya	Kemiripan minimum teks-gambar.	0,1
	Skor Kemiripan Maksimum Teks-Frame		Ya	Kemiripan maksimum teks-gambar.	1
	Jumlah Frame yang Diambil Sampelnya		Ya	Jumlah frame video yang diambil sampelnya. Sistem mengumpulkan frame secara merata dalam video untuk analisis berdasarkan durasi video.	3
Pengaturan Eksekusi	Pilih Grup Sumber Daya	Grup Sumber Daya Publik	Tidak	Tipe instans (CPU atau GPU) dan virtual private cloud (VPC) yang ingin Anda gunakan. Anda harus memilih tipe instans GPU untuk algoritma ini.	Tidak ada nilai default
	Pilih Grup Sumber Daya	Grup sumber daya khusus	Tidak	Jumlah vCPU, memori, memori bersama, dan jumlah GPU yang ingin Anda gunakan.	Tidak ada nilai default
	Durasi Maksimum Berjalan (detik)		Tidak	Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu yang ditentukan terlampaui, pekerjaan dihentikan.	Tidak ada nilai default