Saat menggunakan Wan untuk image-to-video, jika optimasi prompt atau efek video resmi masih belum memenuhi kebutuhan kustomisasi Anda untuk aksi, efek, atau gaya tertentu, gunakan model fine-tuning.
Penerapan
Mode penyebaran dan wilayah yang berlaku: Dokumen ini hanya berlaku untuk wilayah Singapura dalam mode penyebaran Internasional, dan Anda harus menggunakan API key dari wilayah ini.
Metode fine-tuning yang didukung: SFT dengan LoRA untuk fine-tuning efisien.
Model yang didukung untuk fine-tuning:
Image-to-video berbasis frame pertama: wan2.6-i2v, wan2.5-i2v-preview, wan2.2-i2v-flash.
Image-to-video berbasis frame pertama dan terakhir: wan2.2-kf2v-flash.
Cara melakukan fine-tuning model
Image-to-video berbasis frame pertama
Tujuan fine-tuning: Latih model LoRA untuk efek "hujan uang".
Hasil yang diharapkan: Masukkan gambar frame pertama, dan model secara otomatis menghasilkan video dengan efek "hujan uang" tanpa prompt.
Masukkan gambar frame pertama
| Video output (sebelum fine-tuning) Prompt tidak dapat secara konsisten menghasilkan efek "hujan uang" dengan gerakan tetap. Gerakannya tidak terkendali. | Video output (setelah fine-tuning) Model yang telah diperhalus dapat mereproduksi secara stabil efek "hujan uang" spesifik dari set pelatihan tanpa prompt. |
Image-to-video berbasis frame pertama dan terakhir
Tujuan fine-tuning: Latih model LoRA untuk efek "majalah mode".
Hasil yang diharapkan: Masukkan gambar frame pertama dan terakhir, dan model secara otomatis menghasilkan video dengan efek "majalah mode" tanpa prompt.
Masukkan gambar frame pertama
| Masukkan gambar frame terakhir
| Video output (sebelum fine-tuning) Prompt tidak dapat secara konsisten menghasilkan efek "majalah mode" dengan gerakan tetap. Gerakannya tidak terkendali. | Video output (setelah fine-tuning) Model yang telah diperhalus dapat mereproduksi secara stabil efek "majalah mode" spesifik dari set pelatihan tanpa prompt. |
Sebelum menjalankan kode berikut, buat API key dan atur API key sebagai Variabel lingkungan.
Langkah 1: Unggah dataset
Unggah dataset lokal Anda (dalam format .zip) ke platform Alibaba Cloud Model Studio dan dapatkan ID file (id).
Data sampel set pelatihan: Untuk formatnya, lihat Training set.
Image-to-video berbasis frame pertama: wan-i2v-training-dataset.zip.
Image-to-video berbasis frame pertama dan terakhir: wan-kf2v-training-dataset.zip.
Contoh permintaan
Contoh ini menggunakan model image-to-video berbasis frame pertama. Hanya set pelatihan yang diunggah. Sistem secara otomatis membagi sebagian dari set pelatihan untuk digunakan sebagai set validasi. Mengunggah dataset memerlukan waktu beberapa menit. Waktu pastinya tergantung pada ukuran file.
curl --location --request POST 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/files' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--form 'file=@"./wan-i2v-training-dataset.zip"' \
--form 'purpose="fine-tune"'Contoh respons
Simpan id. Ini adalah pengidentifikasi unik untuk dataset yang diunggah.
{
"id": "file-ft-b2416bacc4d742xxxx",
"object": "file",
"bytes": 73310369,
"filename": "wan-i2v-training-dataset.zip",
"purpose": "fine-tune",
"status": "processed",
"created_at": 1766127125
}Langkah 2: Fine-tune model
Langkah 2.1: Buat pekerjaan fine-tuning
Mulai pekerjaan pelatihan menggunakan ID file dari Langkah 1.
Nilai hiperparameter bervariasi antar model. Untuk pengaturan hiperparameter, lihat Hiperparameter. Untuk contoh panggilan lainnya, lihat Contoh permintaan.
Contoh permintaan
Ganti <replace_with_training_dataset_file_id> dengan id yang Anda peroleh pada langkah sebelumnya.
Image-to-video berbasis frame pertama
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model":"wan2.6-i2v",
"training_file_ids":[
"<replace_with_training_dataset_file_id>"
],
"training_type":"efficient_sft",
"hyper_parameters":{
"n_epochs":400,
"batch_size":2,
"learning_rate":2e-5,
"split":0.9,
"eval_epochs": 50,
"max_pixels": 36864
}
}'Image-to-video berbasis frame pertama dan terakhir
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model":"wan2.2-kf2v-flash",
"training_file_ids":[
"<replace_with_training_dataset_file_id>"
],
"training_type":"efficient_sft",
"hyper_parameters":{
"n_epochs":400,
"batch_size":4,
"learning_rate":2e-5,
"split":0.9,
"eval_epochs": 50,
"max_pixels": 262144
}
}'Contoh respons
Perhatikan tiga parameter utama berikut dalam output:
job_id: ID tugas, digunakan untuk menanyakan progres.finetuned_output: Nama model fine-tuned baru. Anda harus menggunakan nama ini untuk penerapan dan pemanggilan selanjutnya.status: Status pelatihan model. Setelah Anda membuat pekerjaan fine-tuning, status awalnya adalah PENDING, yang menunjukkan bahwa pelatihan belum dimulai.
{
...
"output": {
"job_id": "ft-202511111122-xxxx",
"status": "PENDING",
"finetuned_output": "xxxx-ft-202511111122-xxxx",
...
}
}Langkah 2.2: Tanyakan status pekerjaan fine-tuning
Gunakan job_id yang diperoleh di Langkah 2.1 untuk menanyakan progres tugas. Lakukan polling terhadap Operasi API berikut hingga status menjadi SUCCEEDED.
Pekerjaan fine-tuning dalam contoh ini memerlukan waktu beberapa jam untuk melatih. Durasi pastinya tergantung pada model yang diperhalus. Harap bersabar.
Contoh permintaan
Ganti <replace_with_fine-tuning_job_id> dalam URL dengan nilai job_id.
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json'Contoh respons
Perhatikan dua parameter berikut dalam bidang output:
status: Ketika nilainya menjadi SUCCEEDED, model telah dilatih dan siap diterapkan.usage: Jumlah total token yang dikonsumsi untuk pelatihan model, digunakan untuk penagihan.
{
...
"output": {
"job_id": "ft-202511111122-xxxx",
"status": "SUCCEEDED",
"usage": 432000,
...
}
}Langkah 3: Terapkan model yang telah diperhalus
Langkah 3.1: Terapkan model sebagai layanan online
Setelah status pekerjaan fine-tuning menjadi SUCCEEDED, terapkan model sebagai layanan online.
Contoh permintaan
Ganti <replace_with_model_name> dengan nilai parameter respons finetuned_output dari operasi buat pekerjaan fine-tuning.
Image-to-video berbasis frame pertama
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "<replace_with_model_name>",
"aigc_config": {
"use_input_prompt": false,
"prompt": "Provide a video description based on the image content. The description must include the phrase “Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.“\nOutput Template:\nThe video begins with a shot of [subject description]. [Environment description]. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.\nExample:\nThe video begins showing a young woman standing in front of a brick wall covered with ivy. She has long, smooth reddish-brown hair, wearing a white sleeveless dress, a shiny silver necklace, and a smile on her face. The brick wall in the background is covered with green vines, appearing rustic and natural. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she stretches her arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.",
"lora_prompt_default": "Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain."
},
"capacity": 1,
"plan": "lora"
}'Image-to-video berbasis frame pertama dan terakhir
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "<replace_with_model_name>",
"aigc_config": {
"use_input_prompt": false,
"prompt": "Provide a video description based on the image content. The description must include the phrase “Then she/he begins the s86b5p transformation.“\nOutput Template:\nThe video begins with a shot of [subject description]. [Environment description]. Then she/he begins the s86b5p transformation.\nExample:\nThe video begins with a young woman in an outdoor setting. She has short, curly dark brown hair and a friendly smile. She is wearing a black Polo shirt with colorful floral embroidery. The background features green vegetation and distant mountains. Then she begins the s86b5p transformation.",
"lora_prompt_default": "Then she/he begins the s86b5p transformation."
},
"capacity": 1,
"plan": "lora"
}'Contoh respons
Perhatikan dua parameter berikut dalam output:
deployed_model: Nama model yang diterapkan, digunakan untuk menanyakan status penerapan dan memanggil model.status: Status penerapan model. Setelah Anda menerapkan model yang telah diperhalus, status awalnya adalah PENDING, yang menunjukkan bahwa penerapan belum dimulai.
{
...
"output": {
"deployed_model": "xxxx-ft-202511111122-xxxx",
"status": "PENDING",
...
}
}Langkah 3.2: Tanyakan status penerapan
Tanyakan status penerapan. Lakukan polling terhadap Operasi API berikut hingga status menjadi RUNNING.
Proses penerapan model yang telah diperhalus dalam contoh ini diperkirakan memerlukan waktu 5 hingga 10 menit.
Contoh permintaan
Ganti <replace_with_deployed_model> dengan nilai parameter deployed_model yang dikembalikan di Langkah 3.1.
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments/<replace_with_deployed_model>' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' Contoh respons
Perhatikan dua parameter berikut dalam bidang output:
status: Ketika status menjadi RUNNING, model telah diterapkan dan siap dipanggil.deployed_model: Nama model yang diterapkan.
{
...
"output": {
"status": "RUNNING",
"deployed_model": "xxxx-ft-202511111122-xxxx",
...
}
}Langkah 4: Panggil model untuk menghasilkan video
Setelah model diterapkan (status penerapan status adalah RUNNING), Anda dapat memanggilnya.
Buat dataset kustom
Selain menggunakan data sampel dalam topik ini untuk mengalami proses fine-tuning, Anda juga dapat membuat dataset sendiri untuk fine-tuning.
Dataset harus mencakup set pelatihan (wajib) dan dapat secara opsional mencakup set validasi (yang dapat secara otomatis dibagi dari set pelatihan). Kemas semua file ke dalam file .zip. Kami menyarankan agar Anda hanya menggunakan huruf Inggris, angka, garis bawah (_), atau tanda hubung (-) dalam nama file.
Format dataset
Set pelatihan: Wajib
Image-to-video berbasis frame pertama
Set pelatihan mencakup gambar frame pertama, video pelatihan, dan file anotasi (data.jsonl).
Set pelatihan sampel: wan-i2v-training-dataset.zip.
Struktur direktori paket ZIP:
wan-i2v-training-dataset.zip ├── data.jsonl # Harus dinamai data.jsonl, ukuran maks 20 MB ├── image_1.jpeg # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP ├── video_1.mp4 # Resolusi video maks 4096x4096, mendukung format MP4, MOV ├── image_2.jpeg └── video_2.mp4File anotasi (data.jsonl): Setiap baris merepresentasikan entri data pelatihan dan harus berupa objek JSON. Struktur entri data pelatihan adalah sebagai berikut:
{ "prompt": "The video begins showing a young woman standing in front of a brick wall covered with ivy. She has long, smooth reddish-brown hair, wearing a white sleeveless dress, a shiny silver necklace, and a smile on her face. The brick wall in the background is covered with green vines, appearing rustic and natural. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she stretches her arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.", "first_frame_path": "image_1.jpg", "video_path": "video_1.mp4" }
Image-to-video berbasis frame pertama dan terakhir
Set pelatihan mencakup gambar frame pertama, gambar frame terakhir, video pelatihan, dan file anotasi (data.jsonl).
Set pelatihan sampel: wan-kf2v-training-dataset.zip.
Struktur direktori paket ZIP:
wan-kf2v-training-dataset.zip ├── data.jsonl # Harus dinamai data.jsonl, ukuran maks 20 MB ├── image/ # Menyimpan gambar frame pertama dan terakhir │ ├── image_1_first.jpg # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP │ └── image_1_last.png └── video/ # Menyimpan file video sebagai "target pelatihan" ├── video_1.mp4 # Resolusi video maks 4096x4096, mendukung format MP4, MOV └── video_2.movFile anotasi (data.jsonl): Setiap baris merepresentasikan entri data pelatihan dan harus berupa objek JSON. Struktur entri data pelatihan adalah sebagai berikut:
{ "prompt": "The video begins by showing a young woman in an outdoor setting. She has short, curly dark brown hair, a smile on her face, and looks very friendly. She is wearing a black polo shirt with colorful floral embroidery, with a background of green vegetation and distant mountains. Then she begins the s86b5p transformation.", "first_frame_path": "image/image_1_first.jpg", "last_frame_path": "image/image_1_last.jpg", "video_path": "video/video_1.mp4" }
Set validasi: Opsional
Image-to-video berbasis frame pertama
Set validasi mencakup gambar frame pertama dan file anotasi (data.jsonl). Anda tidak perlu menyediakan video. Pada setiap node evaluasi, pekerjaan pelatihan secara otomatis memanggil layanan model untuk menghasilkan video pratinjau menggunakan gambar dan prompt dari set validasi.
Set validasi sampel: wan-i2v-valid-dataset.zip.
Struktur direktori paket ZIP:
wan-i2v-valid-dataset.zip ├── data.jsonl # Harus dinamai data.jsonl, ukuran maks 20 MB ├── image_1.jpeg # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP └── image_2.jpegFile anotasi (data.jsonl): Setiap baris merepresentasikan entri data validasi dan harus berupa objek JSON. Struktur entri data validasi adalah sebagai berikut:
{ "prompt": "The video begins showing a scene of a young man standing in front of a cityscape. He is wearing a black and white checkered jacket over a black hoodie, with a smile on his face and a confident expression. The background is a city skyline at sunset, with a famous domed building and layered roofs visible in the distance, the sky filled with clouds showing warm orange-yellow hues. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding him. The bills continue to fall while the camera slowly zooms in, he stretches his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.", "first_frame_path": "image_1.jpg" }
Image-to-video berbasis frame pertama dan terakhir
Set validasi mencakup gambar frame pertama, gambar frame terakhir, dan file anotasi (data.jsonl). Anda tidak perlu menyediakan video. Pada setiap node evaluasi, pekerjaan pelatihan secara otomatis memanggil layanan model untuk menghasilkan video pratinjau menggunakan gambar dan prompt dari set validasi.
Set validasi sampel: wan-kf2v-valid-dataset.zip.
Struktur direktori paket ZIP:
wan-kf2v-valid-dataset.zip ├── data.jsonl # Harus dinamai data.jsonl, ukuran maks 20 MB └── image/ # Menyimpan gambar frame pertama dan terakhir ├── image_1_first.jpg # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP └── image_1_last.jpgFile anotasi (data.jsonl): Setiap baris merepresentasikan entri data validasi dan harus berupa objek JSON. Struktur entri data validasi adalah sebagai berikut:
{ "prompt": "The video begins showing a scene of a young man standing in front of a cityscape. He is wearing a black and white checkered jacket over a black hoodie, with a smile on his face and a confident expression. The background is a city skyline at sunset, with a famous domed building and layered roofs visible in the distance, the sky filled with clouds showing warm orange-yellow hues. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding him. The bills continue to fall while the camera slowly zooms in, he stretches his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.", "first_frame_path": "image/image_1_first.jpg", "last_frame_path": "image/image_1_last.jpg", }
Volume data dan batasan
Volume data: Sediakan minimal 10 entri data. Semakin banyak data pelatihan, semakin baik. Kami merekomendasikan 20 hingga 100 entri untuk hasil yang stabil.
Paket ZIP: Ukuran total paket harus 1 GB atau kurang saat diunggah menggunakan API.
Persyaratan gambar pelatihan:
Format yang didukung adalah BMP, JPEG, PNG, dan WEBP.
Resolusi gambar harus 4096×4096 atau kurang.
Tidak ada batasan keras pada ukuran file gambar tunggal. Sistem secara otomatis melakukan pra-pemrosesan.
Persyaratan video pelatihan:
Format yang didukung adalah MP4 dan MOV.
Resolusi video harus 4096×4096 atau kurang.
Tidak ada batasan keras pada ukuran file video tunggal. Sistem secara otomatis melakukan pra-pemrosesan.
Durasi maksimum video tunggal: 5 detik untuk model wan2.2; 10 detik untuk model wan2.5; 10 detik untuk model wan2.6.
Pengumpulan dan pembersihan data
1. Tentukan skenario fine-tuning
Skenario fine-tuning untuk pembuatan image-to-video yang didukung oleh Wan meliputi hal-hal berikut:
Efek video tetap: Ajarkan model perubahan visual tertentu, seperti komidi putar atau transformasi ajaib.
Aksi karakter tetap: Tingkatkan kemampuan model untuk mereproduksi gerakan tubuh tertentu, seperti gerakan tari atau jurus seni bela diri tertentu.
Gerakan kamera video tetap: Replikasi bahasa kamera kompleks, seperti templat tetap untuk bidikan push-pull, pan-tilt, dan surround.
2. Dapatkan bahan mentah
Generasi dan seleksi AI: Gunakan model dasar Wan untuk menghasilkan video secara batch, lalu pilih secara manual sampel berkualitas tinggi yang paling sesuai dengan efek target. Ini adalah metode yang paling umum.
Pengambilan gambar langsung: Jika tujuan Anda adalah mencapai adegan interaktif yang sangat realistis (seperti pelukan atau jabat tangan), penggunaan rekaman langsung adalah pilihan terbaik.
Rendering perangkat lunak 3D: Untuk efek atau animasi abstrak yang memerlukan kontrol detail, kami merekomendasikan penggunaan perangkat lunak 3D (seperti Blender atau C4D) untuk membuat materi.
3. Bersihkan data
Dimensi | Persyaratan positif | Contoh negatif |
Konsistensi | Fitur inti harus sangat konsisten. Misalnya, untuk melatih "rotasi 360 derajat," semua video harus berputar searah jarum jam dengan kecepatan yang kira-kira konsisten. | Arah campuran. Dataset berisi rotasi searah dan berlawanan arah jarum jam. Model tidak tahu arah mana yang harus dipelajari. |
Keragaman | Semakin kaya subjek dan adegan, semakin baik. Cakup berbagai subjek (pria, wanita, tua, muda, kucing, anjing, bangunan) dan komposisi berbeda (close-up, long shot, high-angle, low-angle). Resolusi dan rasio aspek juga harus seberagam mungkin. | Adegan atau subjek tunggal. Semua video menunjukkan "seseorang berpakaian merah berputar di depan dinding putih." Model akan salah mengira bahwa "pakaian merah" dan "dinding putih" adalah bagian dari efek dan tidak akan berputar jika pakaian diubah. |
Keseimbangan | Proporsi berbagai jenis data seimbang. Jika mencakup beberapa gaya, jumlahnya harus kira-kira sama. | Proporsi sangat tidak seimbang. 90% adalah video potret, dan 10% adalah video lanskap. Model mungkin berkinerja buruk saat menghasilkan video lanskap. |
Kemurnian | Gambar bersih dan jelas. Gunakan bahan mentah tanpa gangguan. | Elemen gangguan. Video berisi keterangan, logo stasiun, watermark, bilah hitam yang jelas, atau noise. Model mungkin mempelajari watermark sebagai bagian dari efek. |
Durasi | Durasi materi ≤ Durasi target. Jika Anda berharap menghasilkan video 5 detik, materi sebaiknya dipotong menjadi 4–5 detik. | Materi terlalu panjang. Berharap video 5 detik tetapi memberi model materi 8 detik akan mengakibatkan pembelajaran aksi yang tidak lengkap dan kesan terpotong. |
Anotasi video: Tulis prompt untuk video
Dalam file anotasi dataset (data.jsonl), setiap video memiliki prompt yang sesuai. Prompt tersebut menggambarkan konten visual video. Kualitas prompt secara langsung menentukan apa yang dipelajari model.
Contoh prompt Video dimulai dengan menampilkan seorang wanita muda berdiri di depan dinding bata yang ditutupi tanaman ivy. Ia memiliki rambut cokelat kemerahan panjang yang halus, mengenakan gaun putih tanpa lengan, kalung perak mengilap, dan senyum di wajahnya. Latar belakangnya adalah dinding bata yang ditutupi tanaman merambat hijau, terlihat rustic dan alami. Kemudian efek money rain s86b5p dimulai, lembaran uang kertas US dollar berukuran sangat besar (latar belakang krem/pola hijau tua) turun bagaikan hujan deras, memadati area di sekitarnya dan menghujaminya. Uang terus berjatuhan, ia mengangkat kedua lengannya ke atas, leher sedikit mendongak, ekspresi terkejut, sepenuhnya tenggelam dalam hujan uang yang liar ini. |
Rumus penulisan prompt
Prompt = [Deskripsi subjek] + [Deskripsi latar belakang] + [Kata pemicu] + [Deskripsi gerakan]
Item deskripsi prompt | Deskripsi | Rekomendasi | Contoh |
Deskripsi subjek | Menggambarkan orang atau objek yang awalnya ada di adegan | Wajib | The video begins showing a young woman... |
Deskripsi latar belakang | Menggambarkan lingkungan tempat subjek berada | Wajib | The background is a brick wall covered with green vines... |
Kata pemicu | Kata langka yang tidak memiliki makna sebenarnya | Disarankan | s86b5p atau m01aa |
Deskripsi gerakan | Menggambarkan secara detail perubahan gerakan yang terjadi selama efek dalam video | Disarankan | Countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain... |
Cara menulis prompt yang baik
Ikuti prinsip konsistensi untuk deskripsi efek
Untuk semua sampel yang mengandung efek, bagian deskripsi gerakan efek harus se-konsisten mungkin. Aturan ini berlaku untuk set pelatihan maupun set validasi.
Tujuan: Saat model menemukan bahwa
s86b5pselalu diikuti oleh deskripsi tetap dan adegan selalu menunjukkan hujan uang, model akan mengingat: s86b5p = efek visual hujan uang.Contoh: Baik itu "wanita muda" atau "pria berjas", selama itu efek hujan uang, paruh kedua prompt secara seragam ditulis sebagai: "...then the s86b5p money rain effect begins, countless US dollar bills pour down like a torrential rain..."
Jenis sampel
Konten prompt (Perhatikan konsistensi deskripsi yang digarisbawahi)
Sampel set pelatihan 1
Video dimulai dengan menampilkan wanita muda yang berdiri di depan dinding bata... (deskripsi lingkungan dihilangkan)...kemudian efek hujan uang s86b5p dimulai—tak terhitung banyaknya uang kertas dolar AS berukuran besar (latar belakang krem/pola hijau gelap) turun seperti hujan lebat, menghujani dan mengelilinginya secara padat. Ia mengulurkan lengannya ke atas dengan ekspresi terkejut, benar-benar tenggelam dalam hujan uang yang liar ini.
Sampel set pelatihan 2
Video dimulai dengan menampilkan seorang pria berjas di sebuah restoran mewah... (deskripsi lingkungan diabaikan)...kemudian efek hujan uang s86b5p dimulai: uang dolar AS berukuran sangat besar yang tak terhitung jumlahnya (latar belakang krem/pola hijau tua) mengguyur turun laksana hujan deras, menghujani dan mengelilinginya dengan rapat. Uang kertas tersebut terus berjatuhan, ia merentangkan tangannya ke atas dengan ekspresi terkejut, sepenuhnya tenggelam dalam hujan uang yang liar ini.
Sampel set validasi 1
Video dimulai dengan menampilkan anak kecil di depan pemandangan kota... (deskripsi lingkungan dihilangkan)...kemudian efek hujan uang s86b5p dimulai: sejumlah besar uang dolar AS berukuran sangat besar (latar belakang krem/pola hijau gelap) turun seperti hujan lebat, menghujani dan mengelilinginya secara padat. Uang tersebut terus jatuh sementara kamera perlahan memperbesar gambar; anak itu mengulurkan lengannya ke atas, lehernya sedikit mendongak ke belakang, dengan ekspresi terkejut, benar-benar tenggelam dalam hujan uang yang liar ini.
Hasilkan prompt dengan bantuan AI
Untuk mendapatkan prompt berkualitas tinggi, kami merekomendasikan penggunaan model bahasa besar multimodal (LLM) seperti Qwen-VL untuk membantu menghasilkan prompt untuk video.
Gunakan AI untuk membantu menghasilkan deskripsi awal
Curah pendapat (temukan inspirasi): Jika Anda tidak tahu cara menggambarkan efeknya, Anda bisa meminta AI untuk curah pendapat terlebih dahulu.
Kirim langsung "
Describe the video content in detail" dan amati output model.Fokus pada kata-kata yang digunakan model untuk menggambarkan lintasan gerakan efek (seperti "pour down like a torrential rain," "camera slowly zooms in"). Kata-kata ini dapat digunakan sebagai bahan untuk optimasi selanjutnya.
Struktur kalimat tetap (standarkan output): Setelah Anda memiliki gambaran umum, Anda dapat merancang struktur kalimat tetap berdasarkan rumus anotasi untuk memandu AI menghasilkan prompt yang sesuai format.
Perhalus templat efek
Kami merekomendasikan menjalankan proses ini berulang kali pada beberapa sampel dengan efek yang sama untuk mengidentifikasi frasa umum dan akurat yang digunakan untuk menggambarkan efek tersebut. Dari sini, ekstrak "deskripsi efek" universal.
Salin dan tempel deskripsi efek standar ini ke semua dataset untuk efek tersebut.
Pertahankan deskripsi "subjek" dan "latar belakang" unik untuk setiap sampel, tetapi ganti bagian "deskripsi efek" dengan templat terpadu.
Periksa manual
AI mungkin mengalami halusinasi atau membuat kesalahan pengenalan. Lakukan pemeriksaan manual akhir, misalnya, untuk memastikan bahwa deskripsi subjek dan latar belakang sesuai dengan adegan sebenarnya.
Evaluasi model menggunakan set validasi
Tentukan set validasi
Pekerjaan fine-tuning harus mencakup set pelatihan, sedangkan set validasi bersifat opsional. Anda dapat memilih agar sistem secara otomatis membagi set validasi atau mengunggah secara manual. Metode spesifiknya adalah sebagai berikut:
Metode 1: Jangan unggah set validasi (sistem membagi secara otomatis)
Saat Anda membuat pekerjaan fine-tuning, jika Anda tidak meneruskan parameter validation_file_ids untuk menentukan set validasi, sistem secara otomatis membagi sebagian dari set pelatihan untuk digunakan sebagai set validasi berdasarkan dua hiperparameter berikut:
split: Proporsi set pelatihan yang digunakan untuk pelatihan. Misalnya, 0,9 berarti 90% data digunakan untuk pelatihan, dan 10% sisanya digunakan untuk validasi.max_split_val_dataset_sample: Jumlah maksimum sampel untuk set validasi yang dibagi secara otomatis.
Aturan pembagian set validasi: Sistem mengambil nilai lebih kecil antara ukuran total dataset × (1 - split) dan max_split_val_dataset_sample.
Contoh: Asumsikan Anda hanya mengunggah set pelatihan dengan 100 entri data, split=0,9 (artinya 10% untuk validasi), dan max_split_val_dataset_sample=5.
Pembagian teoretis: 100 × 10% = 10 entri.
Pembagian aktual: min(10, 5) = 5. Oleh karena itu, sistem hanya mengambil 5 entri untuk set validasi.
Metode 2: Unggah set validasi (tentukan menggunakan validation_file_ids)
Jika Anda ingin menggunakan data yang telah Anda siapkan sendiri untuk mengevaluasi checkpoint alih-alih mengandalkan pembagian acak sistem, Anda dapat mengunggah set validasi kustom.
Catatan: Setelah Anda memilih untuk mengunggah set validasi, sistem akan sepenuhnya mengabaikan aturan pembagian otomatis dan hanya menggunakan data yang Anda unggah untuk validasi.
Pilih checkpoint terbaik untuk penerapan
Selama proses pelatihan, sistem secara berkala menyimpan "snapshot" model, yang dikenal sebagai checkpoint. Secara default, sistem mengeluarkan checkpoint terakhir sebagai model fine-tuned akhir. Namun, checkpoint yang dihasilkan selama proses antara mungkin memiliki efek yang lebih baik daripada versi akhir. Anda dapat memilih yang paling memuaskan untuk penerapan.
Sistem akan menjalankan checkpoint pada set validasi dan menghasilkan video pratinjau pada interval yang ditentukan oleh hiperparameter eval_epochs.
Cara mengevaluasi: Nilai efeknya dengan langsung mengamati video pratinjau yang dihasilkan.
Kriteria pemilihan: Temukan checkpoint dengan efek terbaik dan tanpa distorsi aksi.
Prosedur
Langkah 1: Lihat efek pratinjau yang dihasilkan oleh checkpoint
Langkah 2: Ekspor checkpoint dan dapatkan nama model untuk penerapan
Langkah 3: Terapkan dan panggil model
Mengudara
Dalam lingkungan produksi, jika model yang awalnya dilatih berkinerja buruk (misalnya, dengan frame rusak, efek tidak jelas, atau aksi tidak akurat), Anda dapat melakukan fine-tuning berdasarkan dimensi berikut:
1. Periksa data dan prompt
Konsistensi data: Konsistensi data adalah kunci. Periksa "sampel buruk" dengan arah berlawanan atau gaya yang sangat berbeda.
Jumlah sampel: Kami merekomendasikan meningkatkan jumlah entri data berkualitas tinggi menjadi lebih dari 20.
Prompt: Pastikan kata pemicu adalah kata langka tanpa makna (seperti s86b5p) dan hindari penggunaan kata umum (seperti running) untuk mencegah gangguan.
2. Sesuaikan hiperparameter: Untuk deskripsi parameter, lihat Hiperparameter.
n_epochs (jumlah epoch pelatihan)
Nilai default: 400. Kami merekomendasikan menggunakan nilai default. Untuk menyesuaikannya, ikuti prinsip "Total langkah pelatihan ≥ 800".
Rumus total langkah:
steps = n_epochs × ceil(ukuran set pelatihan / batch_size).Oleh karena itu, rumus untuk nilai minimum n_epochs adalah:
n_epochs = 800 / ceil(ukuran set data / batch_size).Contoh: Asumsikan set pelatihan memiliki 5 entri data dan Anda menggunakan model Wan2.5 (batch_size=2).
Langkah pelatihan per epoch: 5 / 2 = 2,5, yang dibulatkan ke atas menjadi 3. Jumlah total epoch pelatihan: n_epochs = 800 / 3 ≈ 267. Ini adalah nilai minimum yang direkomendasikan. Anda dapat menambahkannya sesuai kebutuhan bisnis, misalnya, menjadi 300.
learning_rate, batch_size: Kami merekomendasikan menggunakan nilai default. Biasanya Anda tidak perlu mengubahnya.
Penagihan
Pelatihan model: Dikenai biaya.
Biaya = Total token pelatihan × Harga satuan. Untuk informasi lebih lanjut, lihat Penagihan pelatihan model.
Setelah pelatihan selesai, Anda dapat melihat jumlah total token yang dikonsumsi selama pelatihan di bidang
usagepada API Tanyakan status pekerjaan fine-tuning.
Penerapan model: Gratis.
Pemanggilan model: Dikenai biaya.
Anda dikenai biaya sesuai harga pemanggilan standar model dasar yang telah diperhalus. Untuk informasi lebih lanjut, lihat Harga model.
Referensi API
FAQ
T: Bagaimana cara menghitung volume data untuk set pelatihan dan validasi?
J: Set pelatihan wajib, dan set validasi opsional. Metode perhitungannya adalah sebagai berikut:
Jika Anda tidak meneruskan set validasi: Set pelatihan yang diunggah adalah "ukuran total dataset." Sistem secara otomatis membagi sebagian dari set pelatihan untuk validasi.
Ukuran set validasi =
min(Ukuran total dataset × (1 − split), max_split_val_dataset_sample). Untuk contoh perhitungan, lihat Tentukan set validasi.Jumlah entri set pelatihan =
Ukuran total dataset − Jumlah entri set validasi.
Jika Anda mengunggah set validasi: Sistem tidak lagi membagi data pelatihan untuk validasi.
Jumlah entri set pelatihan = Volume data set pelatihan yang diunggah.
Jumlah entri set validasi = Volume data set validasi yang diunggah.
T: Bagaimana cara merancang kata pemicu yang baik?
A: Aturannya adalah sebagai berikut:
Gunakan kombinasi huruf tanpa makna, seperti sksstyle atau a8z2_bbb.
Hindari penggunaan kata bahasa Inggris umum (seperti beautiful, fire, dance), karena ini akan mengganggu pemahaman asli model terhadap kata-kata tersebut.
T: Dapatkah fine-tuning mengubah resolusi atau durasi video?
J: Tidak. Fine-tuning mempelajari konten dan gerakan, bukan spesifikasi. Format video output (resolusi, laju frame, durasi maksimum) tetap ditentukan oleh model dasar.


