Hasilkan caption gambar dengan LVM di Platform For AI - Platform For AI

Algoritma image captioning adalah model yang mengintegrasikan visi komputer dan pemrosesan bahasa alami, dirancang untuk menghasilkan deskripsi bahasa alami dari gambar input. Algoritma ini memiliki berbagai aplikasi dalam membantu individu tunanetra, pembuatan konten media sosial, pencarian gambar, tampilan e-commerce, dan rilis berita, secara signifikan meningkatkan aksesibilitas informasi dan pengalaman pengguna.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Algoritma

Komponen Pemeta Image-Caption LVM (DLC) menggunakan model Bootstrapping Language-Image Pre-training (BLIP) untuk menghasilkan teks gambar.

Input dan output

Port input

Komponen Read File Data digunakan untuk membaca jalur Object Storage Service (OSS) tempat data pelatihan disimpan.
Anda dapat mengonfigurasi parameter Image Data OSS Path untuk memilih direktori OSS tempat data gambar disimpan atau memilih file metadata gambar. Untuk informasi lebih lanjut, lihat deskripsi parameter di bagian berikutnya.
Anda dapat menggunakan komponen apa pun untuk pra-pemrosesan data gambar sebagai input.

Port keluaran

Hasil output. Untuk informasi lebih lanjut, lihat deskripsi parameter di bagian berikutnya.

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LVM-Image-Caption Mapper (DLC) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab	Parameter		Diperlukan	Deskripsi	Nilai default
Pengaturan Bidang	Image Data OSS Path		Tidak	Jika tidak ada komponen hulu yang ada saat pertama kali Anda menjalankan komponen ini, Anda harus secara manual memilih direktori OSS tempat data gambar disimpan. Saat komponen berjalan, file metadata gambar meta.jsonl dibuat di direktori tingkat atas dari direktori yang ditentukan oleh parameter ini. Saat Anda menggunakan komponen untuk memproses data gambar nanti, Anda dapat langsung memilih file meta.jsonl.	Tidak ada nilai default
	Output File OSS Path		Ya	Direktori OSS tempat hasil disimpan. Hasil termasuk file berikut: {name}.jsonl: file output. Anda dapat mengonfigurasi parameter Output Filename untuk menentukan file output. dj_run_yaml.yaml: file konfigurasi parameter yang digunakan saat algoritma berjalan.	Tidak ada nilai default
	Output Filename		Ya	Nama file hasil.	result.jsonl
Pengaturan Parameter	Jumlah Caption Kandidat		Ya	Jumlah kandidat teks yang dihasilkan.	1
Penyetelan Eksekusi	Pilih Grup Sumber Daya	Grup Sumber Daya Publik	Tidak	Tipe instans (CPU atau GPU) dan virtual private cloud (VPC) yang ingin Anda gunakan. Anda harus memilih tipe instans GPU untuk algoritma ini.	Tidak ada nilai default
	Pilih Grup Sumber Daya	Grup sumber daya khusus	Tidak	Jumlah vCPU, memori, memori bersama, dan jumlah GPU yang ingin Anda gunakan.	Tidak ada nilai default
	Durasi Maksimum Berjalan (detik)		Tidak	Periode maksimum waktu selama komponen dapat berjalan. Jika periode waktu yang ditentukan terlampaui, pekerjaan dihentikan.	Tidak ada nilai default