Fine-Tune Wan Image-to-Video untuk Gaya & Motion Kustom - Model Studio

Saat menggunakan Wan untuk image-to-video, jika optimasi prompt atau efek video resmi masih belum memenuhi kebutuhan kustomisasi Anda untuk aksi, efek, atau gaya tertentu, gunakan model fine-tuning.

Penerapan

Mode penyebaran dan wilayah yang berlaku: Dokumen ini hanya berlaku untuk wilayah Singapura dalam mode penyebaran Internasional, dan Anda harus menggunakan API key dari wilayah ini.
Metode fine-tuning yang didukung: SFT dengan LoRA untuk fine-tuning efisien.
Model yang didukung untuk fine-tuning:
- Image-to-video berbasis frame pertama: wan2.6-i2v, wan2.5-i2v-preview, wan2.2-i2v-flash.
- Image-to-video berbasis frame pertama dan terakhir: wan2.2-kf2v-flash.

Cara melakukan fine-tuning model

Image-to-video berbasis frame pertama

Tujuan fine-tuning: Latih model LoRA untuk efek "hujan uang".

Hasil yang diharapkan: Masukkan gambar frame pertama, dan model secara otomatis menghasilkan video dengan efek "hujan uang" tanpa prompt.

Masukkan gambar frame pertama

Video output (sebelum fine-tuning)

Prompt tidak dapat secara konsisten menghasilkan efek "hujan uang" dengan gerakan tetap. Gerakannya tidak terkendali.

Video output (setelah fine-tuning)

Model yang telah diperhalus dapat mereproduksi secara stabil efek "hujan uang" spesifik dari set pelatihan tanpa prompt.

Image-to-video berbasis frame pertama dan terakhir

Tujuan fine-tuning: Latih model LoRA untuk efek "majalah mode".

Hasil yang diharapkan: Masukkan gambar frame pertama dan terakhir, dan model secara otomatis menghasilkan video dengan efek "majalah mode" tanpa prompt.

Masukkan gambar frame pertama

3_first

Masukkan gambar frame terakhir

3_last

Video output (sebelum fine-tuning)

Prompt tidak dapat secara konsisten menghasilkan efek "majalah mode" dengan gerakan tetap. Gerakannya tidak terkendali.

Video output (setelah fine-tuning)

Model yang telah diperhalus dapat mereproduksi secara stabil efek "majalah mode" spesifik dari set pelatihan tanpa prompt.

Sebelum menjalankan kode berikut, buat API key dan atur API key sebagai Variabel lingkungan.

Langkah 1: Unggah dataset

Unggah dataset lokal Anda (dalam format .zip) ke platform Alibaba Cloud Model Studio dan dapatkan ID file (id).

Data sampel set pelatihan: Untuk formatnya, lihat Training set.

Image-to-video berbasis frame pertama: wan-i2v-training-dataset.zip.
Image-to-video berbasis frame pertama dan terakhir: wan-kf2v-training-dataset.zip.

Contoh permintaan

Contoh ini menggunakan model image-to-video berbasis frame pertama. Hanya set pelatihan yang diunggah. Sistem secara otomatis membagi sebagian dari set pelatihan untuk digunakan sebagai set validasi. Mengunggah dataset memerlukan waktu beberapa menit. Waktu pastinya tergantung pada ukuran file.

curl --location --request POST 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/files' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--form 'file=@"./wan-i2v-training-dataset.zip"' \
--form 'purpose="fine-tune"'

Contoh respons

Simpan id. Ini adalah pengidentifikasi unik untuk dataset yang diunggah.

{
    "id": "file-ft-b2416bacc4d742xxxx",
    "object": "file",
    "bytes": 73310369,
    "filename": "wan-i2v-training-dataset.zip",
    "purpose": "fine-tune",
    "status": "processed",
    "created_at": 1766127125
}

Langkah 2: Fine-tune model

Langkah 2.1: Buat pekerjaan fine-tuning

Mulai pekerjaan pelatihan menggunakan ID file dari Langkah 1.

Catatan

Nilai hiperparameter bervariasi antar model. Untuk pengaturan hiperparameter, lihat Hiperparameter. Untuk contoh panggilan lainnya, lihat Contoh permintaan.

Contoh permintaan

Ganti <replace_with_training_dataset_file_id> dengan id yang Anda peroleh pada langkah sebelumnya.

Image-to-video berbasis frame pertama

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model":"wan2.6-i2v",
    "training_file_ids":[
        "<replace_with_training_dataset_file_id>"
    ],
    "training_type":"efficient_sft",
    "hyper_parameters":{
        "n_epochs":400,
        "batch_size":2,
        "learning_rate":2e-5,
        "split":0.9,
        "eval_epochs": 50,
        "max_pixels": 36864
    }
}'

Image-to-video berbasis frame pertama dan terakhir

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model":"wan2.2-kf2v-flash",
    "training_file_ids":[
        "<replace_with_training_dataset_file_id>"
    ],
    "training_type":"efficient_sft",
    "hyper_parameters":{
        "n_epochs":400,
        "batch_size":4,
        "learning_rate":2e-5,
        "split":0.9,
        "eval_epochs": 50,
        "max_pixels": 262144
    }
}'

Contoh respons

Perhatikan tiga parameter utama berikut dalam output:

job_id: ID tugas, digunakan untuk menanyakan progres.
finetuned_output: Nama model fine-tuned baru. Anda harus menggunakan nama ini untuk penerapan dan pemanggilan selanjutnya.
status: Status pelatihan model. Setelah Anda membuat pekerjaan fine-tuning, status awalnya adalah PENDING, yang menunjukkan bahwa pelatihan belum dimulai.

{
    ...
    "output": {
        "job_id": "ft-202511111122-xxxx",
        "status": "PENDING",
        "finetuned_output": "xxxx-ft-202511111122-xxxx",
        ...
    }
}

Langkah 2.2: Tanyakan status pekerjaan fine-tuning

Gunakan job_id yang diperoleh di Langkah 2.1 untuk menanyakan progres tugas. Lakukan polling terhadap Operasi API berikut hingga status menjadi SUCCEEDED.

Catatan

Pekerjaan fine-tuning dalam contoh ini memerlukan waktu beberapa jam untuk melatih. Durasi pastinya tergantung pada model yang diperhalus. Harap bersabar.

Contoh permintaan

Ganti <replace_with_fine-tuning_job_id> dalam URL dengan nilai job_id.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json'

Contoh respons

Perhatikan dua parameter berikut dalam bidang output:

status: Ketika nilainya menjadi SUCCEEDED, model telah dilatih dan siap diterapkan.
usage: Jumlah total token yang dikonsumsi untuk pelatihan model, digunakan untuk penagihan.

{
    ...
    "output": {
        "job_id": "ft-202511111122-xxxx",
        "status": "SUCCEEDED",
        "usage": 432000,
        ...
    }
}

Langkah 3: Terapkan model yang telah diperhalus

Langkah 3.1: Terapkan model sebagai layanan online

Setelah status pekerjaan fine-tuning menjadi SUCCEEDED, terapkan model sebagai layanan online.

Contoh permintaan

Ganti <replace_with_model_name> dengan nilai parameter respons finetuned_output dari operasi buat pekerjaan fine-tuning.

Image-to-video berbasis frame pertama

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "<replace_with_model_name>",
    "aigc_config": {
        "use_input_prompt": false,
        "prompt": "Provide a video description based on the image content. The description must include the phrase “Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.“\nOutput Template:\nThe video begins with a shot of [subject description]. [Environment description]. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.\nExample:\nThe video begins showing a young woman standing in front of a brick wall covered with ivy. She has long, smooth reddish-brown hair, wearing a white sleeveless dress, a shiny silver necklace, and a smile on her face. The brick wall in the background is covered with green vines, appearing rustic and natural. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she stretches her arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.",
        "lora_prompt_default": "Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she/he stretches her/his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain."
    },
    "capacity": 1,
    "plan": "lora"
}'

Image-to-video berbasis frame pertama dan terakhir

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "<replace_with_model_name>",
    "aigc_config": {
        "use_input_prompt": false,
        "prompt": "Provide a video description based on the image content. The description must include the phrase “Then she/he begins the s86b5p transformation.“\nOutput Template:\nThe video begins with a shot of [subject description]. [Environment description]. Then she/he begins the s86b5p transformation.\nExample:\nThe video begins with a young woman in an outdoor setting. She has short, curly dark brown hair and a friendly smile. She is wearing a black Polo shirt with colorful floral embroidery. The background features green vegetation and distant mountains. Then she begins the s86b5p transformation.",
        "lora_prompt_default": "Then she/he begins the s86b5p transformation."
    },
    "capacity": 1,
    "plan": "lora"
}'

Contoh respons

Perhatikan dua parameter berikut dalam output:

deployed_model: Nama model yang diterapkan, digunakan untuk menanyakan status penerapan dan memanggil model.
status: Status penerapan model. Setelah Anda menerapkan model yang telah diperhalus, status awalnya adalah PENDING, yang menunjukkan bahwa penerapan belum dimulai.

{
    ...
    "output": {
        "deployed_model": "xxxx-ft-202511111122-xxxx",
        "status": "PENDING",
        ...
    }
}

Langkah 3.2: Tanyakan status penerapan

Tanyakan status penerapan. Lakukan polling terhadap Operasi API berikut hingga status menjadi RUNNING.

Catatan

Proses penerapan model yang telah diperhalus dalam contoh ini diperkirakan memerlukan waktu 5 hingga 10 menit.

Contoh permintaan

Ganti <replace_with_deployed_model> dengan nilai parameter deployed_model yang dikembalikan di Langkah 3.1.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/deployments/<replace_with_deployed_model>' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json'

Contoh respons

Perhatikan dua parameter berikut dalam bidang output:

status: Ketika status menjadi RUNNING, model telah diterapkan dan siap dipanggil.
deployed_model: Nama model yang diterapkan.

{
    ...
    "output": {
        "status": "RUNNING",
        "deployed_model": "xxxx-ft-202511111122-xxxx",
        ...
    }
}

Langkah 4: Panggil model untuk menghasilkan video

Setelah model diterapkan (status penerapan status adalah RUNNING), Anda dapat memanggilnya.

Langkah 4.1: Buat tugas pembuatan video dan dapatkan task_id

Contoh permintaan

Ganti <replace_with_deployed_model> dengan nilai deployed_model yang dikembalikan pada langkah sebelumnya.

Image-to-video berbasis frame pertama

Hasil yang diharapkan: Masukkan gambar frame pertama, dan model secara otomatis menghasilkan video dengan efek "hujan uang" tanpa prompt.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--header 'X-DashScope-Async: enable' \
--data '{
    "model": "<replace_with_deployed_model_name>",
    "input": {
        "img_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20251219/xmvyqn/lora.webp"
    },
    "parameters": {
        "resolution": "720P",
        "prompt_extend": false
    }
}'

Contoh respons

Salin dan simpan task_id untuk menanyakan hasil pada langkah berikutnya.

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

Deskripsi parameter input

Catatan

Saat Anda memanggil model LoRA yang telah diperhalus, penggunaan parameter input pada dasarnya sama dengan Wan - image-to-video - frame pertama.

Tabel berikut hanya mencantumkan penggunaan parameter unik atau batasan khusus untuk model LoRA. Untuk parameter umum yang tidak disebutkan dalam tabel ini (seperti duration), lihat referensi API.

Field	Type	Required	Description	Example
model	string	Yes	Nama model. Anda harus menggunakan model yang telah diperhalus yang berhasil diterapkan dan berada dalam status RUNNING.	xxxx-ft-202511111122-xxxx
input.prompt	string	No	Prompt teks. Apa parameter ini berlaku tergantung pada konfigurasi aigc_config.use_input_prompt: Jika `use_input_prompt=true`, parameter ini berlaku. Sistem menghasilkan video berdasarkan prompt ini. Ketika `use_input_prompt=false`, parameter ini diabaikan. Sistem akan menggunakan templat preset aigc_config.prompt untuk menghasilkan prompt secara otomatis.	-
input.img_url	string	Yes	URL gambar frame pertama. Untuk informasi lebih lanjut, lihat parameter img_url.	https://help-static-aliyun-doc.aliyuncs.com/xxx.jpg
parameters.resolution	string	No	Tingkat resolusi video yang dihasilkan. Untuk model wan2.2 dan wan2.5: 480P dan 720P. Nilai default adalah 720P. Untuk model wan2.6: 720P dan 1080P. Nilai default adalah 720P..	720P
parameters.prompt_extend	boolean	No	Menentukan apakah akan mengaktifkan penulisan ulang prompt. Saat Anda memanggil model LoRA yang telah diperhalus, atur parameter ini ke false.	false

Image-to-video berbasis frame pertama dan terakhir

Hasil yang diharapkan: Masukkan gambar frame pertama dan terakhir, dan model secara otomatis menghasilkan video dengan efek "majalah mode" tanpa prompt.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--header 'X-DashScope-Async: enable' \
--data '{
    "model": "<replace_with_deployed_model_name>",
    "input": {
        "first_frame_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260113/typemn/kf2v-first.webp",
        "last_frame_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260113/ekzmff/kf2v_last.webp"
    },
    "parameters": {
        "resolution": "720P",
        "prompt_extend": false
    }
}'

Contoh respons

Salin dan simpan task_id untuk menanyakan hasil pada langkah berikutnya.

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

Deskripsi parameter input

Catatan

Saat Anda memanggil model LoRA yang telah diperhalus, penggunaan parameter input pada dasarnya konsisten dengan API Image-to-Video berbasis Frame Pertama dan Terakhir.

Field	Type	Required	Description	Example
model	string	Yes	Nama model. Anda harus menggunakan model yang telah diperhalus yang berhasil diterapkan dan berada dalam status RUNNING.	xxxx-ft-202511111122-xxxx
input.prompt	string	No	Prompt teks. Apa parameter ini berlaku tergantung pada konfigurasi aigc_config.use_input_prompt: Jika `use_input_prompt=true`, parameter ini berlaku. Sistem menghasilkan video berdasarkan prompt ini. Ketika `use_input_prompt=false`, parameter ini diabaikan dan tidak perlu ditentukan. Sistem secara otomatis menghasilkan prompt menggunakan templat preset aigc_config.prompt.	-
input.first_frame_url	string	Yes	URL gambar frame pertama. Untuk informasi tentang cara meneruskan parameter, lihat parameter `first_frame_url`.	https://help-static-aliyun-doc.aliyuncs.com/xxx.jpg
input.last_frame_url	string	No	URL gambar frame terakhir. Untuk informasi tentang cara meneruskan parameter, lihat parameter last_frame_url.	https://help-static-aliyun-doc.aliyuncs.com/xxx.jpg
parameters.resolution	string	No	Tingkat resolusi video yang dihasilkan. Model yang telah diperhalus mendukung 480P dan 720P. Nilai default adalah 720P.	720P
parameters.prompt_extend	boolean	No	Menentukan apakah akan mengaktifkan penulisan ulang prompt. Saat Anda memanggil model LoRA yang telah diperhalus, atur parameter ini ke false.	false

Langkah 4.2: Tanyakan hasil berdasarkan task_id

Gunakan task_id untuk melakukan polling status tugas hingga task_status menjadi SUCCEEDED, lalu dapatkan URL video.

Contoh permintaan

Ganti 86ecf553-d340-4e21-xxxxxxxxx dengan task_id yang sebenarnya.

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Contoh respons

URL video berlaku selama 24 jam. Unduh video tersebut segera.

{
    "request_id": "c87415d2-f436-41c3-9fe8-xxxxxx",
    "output": {
        "task_id": "a017e64c-012b-431a-84fd-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-11-12 11:03:33.672",
        "scheduled_time": "2025-11-12 11:03:33.699",
        "end_time": "2025-11-12 11:04:07.088",
        "orig_prompt": "",
        "video_url": "https://dashscope-result-sh.oss-cn-shanghai.aliyuncs.com/xxx.mp4?Expires=xxxx"
    },
    "usage": {
        "duration": 5,
        "video_count": 1,
        "SR": 480
    }
}

Buat dataset kustom

Selain menggunakan data sampel dalam topik ini untuk mengalami proses fine-tuning, Anda juga dapat membuat dataset sendiri untuk fine-tuning.

Dataset harus mencakup set pelatihan (wajib) dan dapat secara opsional mencakup set validasi (yang dapat secara otomatis dibagi dari set pelatihan). Kemas semua file ke dalam file .zip. Kami menyarankan agar Anda hanya menggunakan huruf Inggris, angka, garis bawah (_), atau tanda hubung (-) dalam nama file.

Format dataset

Set pelatihan: Wajib

Image-to-video berbasis frame pertama

Set pelatihan mencakup gambar frame pertama, video pelatihan, dan file anotasi (data.jsonl).

Set pelatihan sampel: wan-i2v-training-dataset.zip.

Struktur direktori paket ZIP:

wan-i2v-training-dataset.zip
├── data.jsonl        # Harus dinamai data.jsonl, ukuran maks 20 MB
├── image_1.jpeg      # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP
├── video_1.mp4       # Resolusi video maks 4096x4096, mendukung format MP4, MOV
├── image_2.jpeg
└── video_2.mp4

File anotasi (data.jsonl): Setiap baris merepresentasikan entri data pelatihan dan harus berupa objek JSON. Struktur entri data pelatihan adalah sebagai berikut:

{
    "prompt": "The video begins showing a young woman standing in front of a brick wall covered with ivy. She has long, smooth reddish-brown hair, wearing a white sleeveless dress, a shiny silver necklace, and a smile on her face. The brick wall in the background is covered with green vines, appearing rustic and natural. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding her. The bills continue to fall, she stretches her arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.",
    "first_frame_path": "image_1.jpg",
    "video_path": "video_1.mp4"        
}

Image-to-video berbasis frame pertama dan terakhir

Set pelatihan mencakup gambar frame pertama, gambar frame terakhir, video pelatihan, dan file anotasi (data.jsonl).

Set pelatihan sampel: wan-kf2v-training-dataset.zip.

Struktur direktori paket ZIP:

wan-kf2v-training-dataset.zip
├── data.jsonl                # Harus dinamai data.jsonl, ukuran maks 20 MB
├── image/                    # Menyimpan gambar frame pertama dan terakhir
│   ├── image_1_first.jpg     # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP
│   └── image_1_last.png
└── video/                    # Menyimpan file video sebagai "target pelatihan"
    ├── video_1.mp4           # Resolusi video maks 4096x4096, mendukung format MP4, MOV
    └── video_2.mov

File anotasi (data.jsonl): Setiap baris merepresentasikan entri data pelatihan dan harus berupa objek JSON. Struktur entri data pelatihan adalah sebagai berikut:

{
    "prompt": "The video begins by showing a young woman in an outdoor setting. She has short, curly dark brown hair, a smile on her face, and looks very friendly. She is wearing a black polo shirt with colorful floral embroidery, with a background of green vegetation and distant mountains. Then she begins the s86b5p transformation.",
    "first_frame_path": "image/image_1_first.jpg",
    "last_frame_path": "image/image_1_last.jpg", 
    "video_path": "video/video_1.mp4"  
}

Set validasi: Opsional

Image-to-video berbasis frame pertama

Set validasi mencakup gambar frame pertama dan file anotasi (data.jsonl). Anda tidak perlu menyediakan video. Pada setiap node evaluasi, pekerjaan pelatihan secara otomatis memanggil layanan model untuk menghasilkan video pratinjau menggunakan gambar dan prompt dari set validasi.

Set validasi sampel: wan-i2v-valid-dataset.zip.

Struktur direktori paket ZIP:

wan-i2v-valid-dataset.zip
├── data.jsonl       # Harus dinamai data.jsonl, ukuran maks 20 MB
├── image_1.jpeg     # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP
└── image_2.jpeg

File anotasi (data.jsonl): Setiap baris merepresentasikan entri data validasi dan harus berupa objek JSON. Struktur entri data validasi adalah sebagai berikut:

{
    "prompt": "The video begins showing a scene of a young man standing in front of a cityscape. He is wearing a black and white checkered jacket over a black hoodie, with a smile on his face and a confident expression. The background is a city skyline at sunset, with a famous domed building and layered roofs visible in the distance, the sky filled with clouds showing warm orange-yellow hues. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding him. The bills continue to fall while the camera slowly zooms in, he stretches his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.",
    "first_frame_path": "image_1.jpg"
}

Image-to-video berbasis frame pertama dan terakhir

Set validasi mencakup gambar frame pertama, gambar frame terakhir, dan file anotasi (data.jsonl). Anda tidak perlu menyediakan video. Pada setiap node evaluasi, pekerjaan pelatihan secara otomatis memanggil layanan model untuk menghasilkan video pratinjau menggunakan gambar dan prompt dari set validasi.

Set validasi sampel: wan-kf2v-valid-dataset.zip.

Struktur direktori paket ZIP:

wan-kf2v-valid-dataset.zip
├── data.jsonl                 # Harus dinamai data.jsonl, ukuran maks 20 MB
└── image/                     # Menyimpan gambar frame pertama dan terakhir
    ├── image_1_first.jpg      # Resolusi gambar maks 4096x4096, mendukung format BMP, JPEG, PNG, WEBP
    └── image_1_last.jpg

File anotasi (data.jsonl): Setiap baris merepresentasikan entri data validasi dan harus berupa objek JSON. Struktur entri data validasi adalah sebagai berikut:

{
    "prompt": "The video begins showing a scene of a young man standing in front of a cityscape. He is wearing a black and white checkered jacket over a black hoodie, with a smile on his face and a confident expression. The background is a city skyline at sunset, with a famous domed building and layered roofs visible in the distance, the sky filled with clouds showing warm orange-yellow hues. Then the s86b5p money rain effect begins, countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain, densely hitting and surrounding him. The bills continue to fall while the camera slowly zooms in, he stretches his arms upward, neck slightly tilted back, expression surprised, completely immersed in this wild money rain.",
    "first_frame_path": "image/image_1_first.jpg",
    "last_frame_path": "image/image_1_last.jpg",
}

Volume data dan batasan

Volume data: Sediakan minimal 10 entri data. Semakin banyak data pelatihan, semakin baik. Kami merekomendasikan 20 hingga 100 entri untuk hasil yang stabil.
Paket ZIP: Ukuran total paket harus 1 GB atau kurang saat diunggah menggunakan API.
Persyaratan gambar pelatihan:
- Format yang didukung adalah BMP, JPEG, PNG, dan WEBP.
- Resolusi gambar harus 4096×4096 atau kurang.
- Tidak ada batasan keras pada ukuran file gambar tunggal. Sistem secara otomatis melakukan pra-pemrosesan.
Persyaratan video pelatihan:
- Format yang didukung adalah MP4 dan MOV.
- Resolusi video harus 4096×4096 atau kurang.
- Tidak ada batasan keras pada ukuran file video tunggal. Sistem secara otomatis melakukan pra-pemrosesan.
- Durasi maksimum video tunggal: 5 detik untuk model wan2.2; 10 detik untuk model wan2.5; 10 detik untuk model wan2.6.

Pengumpulan dan pembersihan data

1. Tentukan skenario fine-tuning

Skenario fine-tuning untuk pembuatan image-to-video yang didukung oleh Wan meliputi hal-hal berikut:

Efek video tetap: Ajarkan model perubahan visual tertentu, seperti komidi putar atau transformasi ajaib.
Aksi karakter tetap: Tingkatkan kemampuan model untuk mereproduksi gerakan tubuh tertentu, seperti gerakan tari atau jurus seni bela diri tertentu.
Gerakan kamera video tetap: Replikasi bahasa kamera kompleks, seperti templat tetap untuk bidikan push-pull, pan-tilt, dan surround.

2. Dapatkan bahan mentah

Generasi dan seleksi AI: Gunakan model dasar Wan untuk menghasilkan video secara batch, lalu pilih secara manual sampel berkualitas tinggi yang paling sesuai dengan efek target. Ini adalah metode yang paling umum.
Pengambilan gambar langsung: Jika tujuan Anda adalah mencapai adegan interaktif yang sangat realistis (seperti pelukan atau jabat tangan), penggunaan rekaman langsung adalah pilihan terbaik.
Rendering perangkat lunak 3D: Untuk efek atau animasi abstrak yang memerlukan kontrol detail, kami merekomendasikan penggunaan perangkat lunak 3D (seperti Blender atau C4D) untuk membuat materi.

3. Bersihkan data

Dimensi

Persyaratan positif

Contoh negatif

Konsistensi

Fitur inti harus sangat konsisten.

Misalnya, untuk melatih "rotasi 360 derajat," semua video harus berputar searah jarum jam dengan kecepatan yang kira-kira konsisten.

Arah campuran.

Dataset berisi rotasi searah dan berlawanan arah jarum jam. Model tidak tahu arah mana yang harus dipelajari.

Keragaman

Semakin kaya subjek dan adegan, semakin baik.

Cakup berbagai subjek (pria, wanita, tua, muda, kucing, anjing, bangunan) dan komposisi berbeda (close-up, long shot, high-angle, low-angle). Resolusi dan rasio aspek juga harus seberagam mungkin.

Adegan atau subjek tunggal.

Semua video menunjukkan "seseorang berpakaian merah berputar di depan dinding putih." Model akan salah mengira bahwa "pakaian merah" dan "dinding putih" adalah bagian dari efek dan tidak akan berputar jika pakaian diubah.

Keseimbangan

Proporsi berbagai jenis data seimbang.

Jika mencakup beberapa gaya, jumlahnya harus kira-kira sama.

Proporsi sangat tidak seimbang.

90% adalah video potret, dan 10% adalah video lanskap. Model mungkin berkinerja buruk saat menghasilkan video lanskap.

Kemurnian

Gambar bersih dan jelas.

Gunakan bahan mentah tanpa gangguan.

Elemen gangguan.

Video berisi keterangan, logo stasiun, watermark, bilah hitam yang jelas, atau noise. Model mungkin mempelajari watermark sebagai bagian dari efek.

Durasi

Durasi materi ≤ Durasi target.

Jika Anda berharap menghasilkan video 5 detik, materi sebaiknya dipotong menjadi 4–5 detik.

Materi terlalu panjang.

Berharap video 5 detik tetapi memberi model materi 8 detik akan mengakibatkan pembelajaran aksi yang tidak lengkap dan kesan terpotong.

Anotasi video: Tulis prompt untuk video

Dalam file anotasi dataset (data.jsonl), setiap video memiliki prompt yang sesuai. Prompt tersebut menggambarkan konten visual video. Kualitas prompt secara langsung menentukan apa yang dipelajari model.

Contoh prompt

Video dimulai dengan menampilkan seorang wanita muda berdiri di depan dinding bata yang ditutupi tanaman ivy. Ia memiliki rambut cokelat kemerahan panjang yang halus, mengenakan gaun putih tanpa lengan, kalung perak mengilap, dan senyum di wajahnya. Latar belakangnya adalah dinding bata yang ditutupi tanaman merambat hijau, terlihat rustic dan alami. Kemudian efek money rain s86b5p dimulai, lembaran uang kertas US dollar berukuran sangat besar (latar belakang krem/pola hijau tua) turun bagaikan hujan deras, memadati area di sekitarnya dan menghujaminya. Uang terus berjatuhan, ia mengangkat kedua lengannya ke atas, leher sedikit mendongak, ekspresi terkejut, sepenuhnya tenggelam dalam hujan uang yang liar ini.

Rumus penulisan prompt

Prompt = [Deskripsi subjek] + [Deskripsi latar belakang] + [Kata pemicu] + [Deskripsi gerakan]

Item deskripsi prompt	Deskripsi	Rekomendasi	Contoh
Deskripsi subjek	Menggambarkan orang atau objek yang awalnya ada di adegan	Wajib	The video begins showing a young woman...
Deskripsi latar belakang	Menggambarkan lingkungan tempat subjek berada	Wajib	The background is a brick wall covered with green vines...
Kata pemicu	Kata langka yang tidak memiliki makna sebenarnya	Disarankan	s86b5p atau m01aa
Deskripsi gerakan	Menggambarkan secara detail perubahan gerakan yang terjadi selama efek dalam video	Disarankan	Countless huge-sized US dollar bills (beige background/dark green patterns) pour down like a torrential rain...

Tentang "kata pemicu"

Apa itu kata pemicu?
Berperan sebagai "jangkar visual". Karena banyak dinamika kompleks (seperti lintasan tari khusus atau perubahan cahaya dan bayangan orisinal) sulit dijelaskan dengan kata-kata, kata ini digunakan untuk memaksa model: ketika Anda melihat s86b5p, Anda harus menghasilkan efek visual spesifik ini.
Mengapa menggunakannya?
Fine-tuning model membangun hubungan pemetaan antara "teks" dan "fitur video." Kata pemicu adalah apa yang mengikat "efek yang tidak dapat dijelaskan" ke kata unik, sehingga model dapat mengunci target.
Karena ada kata pemicu, mengapa tetap menggambarkan gerakan secara detail?
Keduanya memiliki peran berbeda dan bekerja lebih baik bersama.
- Deskripsi gerakan: Bertanggung jawab menjelaskan "apa yang terjadi di adegan." Memberi tahu model tindakan fisik dasar dan logika, dan deskripsi gerakan untuk beberapa sampel biasanya konsisten.
- Kata pemicu: Bertanggung jawab menjelaskan "seperti apa tampilan aksi tersebut." Mewakili perubahan dan fitur unik yang tidak dapat dijelaskan dengan kata-kata.

Cara menulis prompt yang baik

Ikuti prinsip konsistensi untuk deskripsi efek

Untuk semua sampel yang mengandung efek, bagian deskripsi gerakan efek harus se-konsisten mungkin. Aturan ini berlaku untuk set pelatihan maupun set validasi.

Tujuan: Saat model menemukan bahwa s86b5p selalu diikuti oleh deskripsi tetap dan adegan selalu menunjukkan hujan uang, model akan mengingat: s86b5p = efek visual hujan uang.

Contoh: Baik itu "wanita muda" atau "pria berjas", selama itu efek hujan uang, paruh kedua prompt secara seragam ditulis sebagai: "...then the s86b5p money rain effect begins, countless US dollar bills pour down like a torrential rain..."

Jenis sampel	Konten prompt (Perhatikan konsistensi deskripsi yang digarisbawahi)
Sampel set pelatihan 1	Video dimulai dengan menampilkan wanita muda yang berdiri di depan dinding bata... (deskripsi lingkungan dihilangkan)...kemudian efek hujan uang s86b5p dimulai—tak terhitung banyaknya uang kertas dolar AS berukuran besar (latar belakang krem/pola hijau gelap) turun seperti hujan lebat, menghujani dan mengelilinginya secara padat. Ia mengulurkan lengannya ke atas dengan ekspresi terkejut, benar-benar tenggelam dalam hujan uang yang liar ini.
Sampel set pelatihan 2	Video dimulai dengan menampilkan seorang pria berjas di sebuah restoran mewah... (deskripsi lingkungan diabaikan)...kemudian efek hujan uang s86b5p dimulai: uang dolar AS berukuran sangat besar yang tak terhitung jumlahnya (latar belakang krem/pola hijau tua) mengguyur turun laksana hujan deras, menghujani dan mengelilinginya dengan rapat. Uang kertas tersebut terus berjatuhan, ia merentangkan tangannya ke atas dengan ekspresi terkejut, sepenuhnya tenggelam dalam hujan uang yang liar ini.
Sampel set validasi 1	Video dimulai dengan menampilkan anak kecil di depan pemandangan kota... (deskripsi lingkungan dihilangkan)...kemudian efek hujan uang s86b5p dimulai: sejumlah besar uang dolar AS berukuran sangat besar (latar belakang krem/pola hijau gelap) turun seperti hujan lebat, menghujani dan mengelilinginya secara padat. Uang tersebut terus jatuh sementara kamera perlahan memperbesar gambar; anak itu mengulurkan lengannya ke atas, lehernya sedikit mendongak ke belakang, dengan ekspresi terkejut, benar-benar tenggelam dalam hujan uang yang liar ini.

Hasilkan prompt dengan bantuan AI

Untuk mendapatkan prompt berkualitas tinggi, kami merekomendasikan penggunaan model bahasa besar multimodal (LLM) seperti Qwen-VL untuk membantu menghasilkan prompt untuk video.

Gunakan AI untuk membantu menghasilkan deskripsi awal

Curah pendapat (temukan inspirasi): Jika Anda tidak tahu cara menggambarkan efeknya, Anda bisa meminta AI untuk curah pendapat terlebih dahulu.
- Kirim langsung "Describe the video content in detail" dan amati output model.
- Fokus pada kata-kata yang digunakan model untuk menggambarkan lintasan gerakan efek (seperti "pour down like a torrential rain," "camera slowly zooms in"). Kata-kata ini dapat digunakan sebagai bahan untuk optimasi selanjutnya.

Struktur kalimat tetap (standarkan output): Setelah Anda memiliki gambaran umum, Anda dapat merancang struktur kalimat tetap berdasarkan rumus anotasi untuk memandu AI menghasilkan prompt yang sesuai format.

Kode sampel

Untuk informasi lebih lanjut tentang panggilan kode, lihat Pemahaman gambar dan video.

import os
from openai import OpenAI

client = OpenAI(
    # Kunci API untuk wilayah Singapura dan Beijing berbeda. Untuk mendapatkan kunci API: https://www.alibabacloud.com/help/zh/model-studio/get-api-key
    # Jika variabel lingkungan belum dikonfigurasi, ganti baris berikut dengan Kunci API Model Studio Anda: api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    # Berikut adalah base_url untuk wilayah Singapura. Jika Anda menggunakan model di wilayah Beijing, ganti base_url dengan: https://dashscope.aliyuncs.com/compatible-mode/v1
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
    model="qwen3-vl-plus",
    messages=[
        {"role": "user","content": [{
            # Saat meneruskan file video secara langsung, atur nilai type ke video_url
            # Saat menggunakan SDK OpenAI, satu frame diekstrak setiap 0,5 detik dari file video secara default, dan ini tidak dapat diubah. Untuk menyesuaikan frekuensi ekstraksi frame, gunakan SDK DashScope.
            "type": "video_url",            
            "video_url": {"url": "https://cloud.video.taobao.com/vod/Tm1s_RpnvdXfarR12RekQtR66lbYXj1uziPzMmJoPmI.mp4"}},
            {"type": "text", "text": "Please carefully analyze the video and generate a detailed video description according to the following fixed sentence structure."
                                    "Sentence template: The video begins showing [subject description]. The background is [background description]. Then the s86b5p melting effect begins, [detailed motion description]."
                                    "Requirements:"
                                    "1.[Subject description]: Describe in detail the person or object originally present in the scene, including details such as appearance, clothing, and expression."
                                    "2.[Background description]: Describe in detail the environment where the subject is located, including details such as environment, lighting, and weather."
                                    "3.[Motion description]: Describe in detail the dynamic change process when the effect occurs (such as how objects move, how lighting changes, how the camera moves)."
                                    "4.All content must be naturally integrated into the sentence structure. Do not retain the '[ ]' symbols, and do not add any text unrelated to the description."}]
         }]
)
print(completion.choices[0].message.content)

Perhalus templat efek
1. Kami merekomendasikan menjalankan proses ini berulang kali pada beberapa sampel dengan efek yang sama untuk mengidentifikasi frasa umum dan akurat yang digunakan untuk menggambarkan efek tersebut. Dari sini, ekstrak "deskripsi efek" universal.
2. Salin dan tempel deskripsi efek standar ini ke semua dataset untuk efek tersebut.
3. Pertahankan deskripsi "subjek" dan "latar belakang" unik untuk setiap sampel, tetapi ganti bagian "deskripsi efek" dengan templat terpadu.

Periksa manual
AI mungkin mengalami halusinasi atau membuat kesalahan pengenalan. Lakukan pemeriksaan manual akhir, misalnya, untuk memastikan bahwa deskripsi subjek dan latar belakang sesuai dengan adegan sebenarnya.

Evaluasi model menggunakan set validasi

Tentukan set validasi

Pekerjaan fine-tuning harus mencakup set pelatihan, sedangkan set validasi bersifat opsional. Anda dapat memilih agar sistem secara otomatis membagi set validasi atau mengunggah secara manual. Metode spesifiknya adalah sebagai berikut:

Metode 1: Jangan unggah set validasi (sistem membagi secara otomatis)

Saat Anda membuat pekerjaan fine-tuning, jika Anda tidak meneruskan parameter validation_file_ids untuk menentukan set validasi, sistem secara otomatis membagi sebagian dari set pelatihan untuk digunakan sebagai set validasi berdasarkan dua hiperparameter berikut:

split: Proporsi set pelatihan yang digunakan untuk pelatihan. Misalnya, 0,9 berarti 90% data digunakan untuk pelatihan, dan 10% sisanya digunakan untuk validasi.
max_split_val_dataset_sample: Jumlah maksimum sampel untuk set validasi yang dibagi secara otomatis.

Aturan pembagian set validasi: Sistem mengambil nilai lebih kecil antara ukuran total dataset × (1 - split) dan max_split_val_dataset_sample.

Contoh: Asumsikan Anda hanya mengunggah set pelatihan dengan 100 entri data, split=0,9 (artinya 10% untuk validasi), dan max_split_val_dataset_sample=5.
- Pembagian teoretis: 100 × 10% = 10 entri.
- Pembagian aktual: min(10, 5) = 5. Oleh karena itu, sistem hanya mengambil 5 entri untuk set validasi.

Metode 2: Unggah set validasi (tentukan menggunakan validation_file_ids)

Jika Anda ingin menggunakan data yang telah Anda siapkan sendiri untuk mengevaluasi checkpoint alih-alih mengandalkan pembagian acak sistem, Anda dapat mengunggah set validasi kustom.

Catatan: Setelah Anda memilih untuk mengunggah set validasi, sistem akan sepenuhnya mengabaikan aturan pembagian otomatis dan hanya menggunakan data yang Anda unggah untuk validasi.

Prosedur: Unggah set validasi

Siapkan set validasi: Kemas data validasi Anda ke dalam file .zip terpisah. Untuk informasi lebih lanjut, lihat Format set validasi.
Unggah set validasi: Panggil API Unggah dataset untuk mengunggah file .zip set validasi dan mendapatkan ID file unik.

Tentukan set validasi saat pembuatan pekerjaan: Saat Anda memanggil API Buat pekerjaan fine-tuning, masukkan ID file ini dalam parameter validation_file_ids.

{
    "model":"wan2.5-i2v-preview",
    "training_file_ids":[ "<file_ID_of_the_training_set>" ],
    "validation_file_ids": [ "<file_ID_of_the_custom_validation_set>" ],
    ...
}

Pilih checkpoint terbaik untuk penerapan

Selama proses pelatihan, sistem secara berkala menyimpan "snapshot" model, yang dikenal sebagai checkpoint. Secara default, sistem mengeluarkan checkpoint terakhir sebagai model fine-tuned akhir. Namun, checkpoint yang dihasilkan selama proses antara mungkin memiliki efek yang lebih baik daripada versi akhir. Anda dapat memilih yang paling memuaskan untuk penerapan.

Sistem akan menjalankan checkpoint pada set validasi dan menghasilkan video pratinjau pada interval yang ditentukan oleh hiperparameter eval_epochs.

Cara mengevaluasi: Nilai efeknya dengan langsung mengamati video pratinjau yang dihasilkan.
Kriteria pemilihan: Temukan checkpoint dengan efek terbaik dan tanpa distorsi aksi.

Prosedur

Langkah 1: Lihat efek pratinjau yang dihasilkan oleh checkpoint

Langkah 1.1: Tanyakan daftar checkpoint yang telah divalidasi

Operasi API ini hanya mengembalikan checkpoint yang telah lulus validasi pada set validasi dan berhasil menghasilkan video pratinjau. Yang gagal validasi tidak akan tercantum.

Contoh permintaan

<replace_with_fine-tuning_job_id>: Ganti ini dengan parameter respons job_id dari API Buat pekerjaan fine-tuning.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>/validation-results' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json'

Contoh respons

Operasi API ini mengembalikan daftar yang hanya berisi nama checkpoint yang berhasil lulus validasi.

{
    "request_id": "da1310f5-5a21-4e29-99d4-xxxxxx",
    "output": [
        {
            "checkpoint": "checkpoint-160"
        },
        ...
    ]
}

Langkah 1.2: Tanyakan hasil validasi untuk checkpoint

Pilih checkpoint dari daftar yang dikembalikan pada langkah sebelumnya (misalnya, "checkpoint-160") untuk melihat efek video yang dihasilkannya.

Contoh permintaan

<replace_with_fine-tuning_job_id>: Ganti ini dengan nilai parameter respons job_id dari Buat pekerjaan fine-tuning.
<replace_with_selected_checkpoint>: Ganti ini dengan nilai checkpoint, misalnya, "checkpoint-160".

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>/validation-details/<replace_with_selected_checkpoint>?page_no=1&page_size=10' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Contoh respons

URL video pratinjau adalah video_path dan berlaku selama 24 jam. Unduh video tersebut segera untuk melihat efeknya. Ulangi langkah ini untuk membandingkan efek beberapa checkpoint dan temukan yang paling memuaskan.

{
    "request_id": "375b3ad0-d3fa-451f-b629-xxxxxxx",
    "output": {
        "page_no": 1,
        "page_size": 10,
        "total": 1,
        "list": [
            {
                "video_path": "https://finetune-swap-wulanchabu.oss-cn-wulanchabu.aliyuncs.com/xxx.mp4?Expires=xxxx",
                "prompt": "The video begins with a young man sitting in a cafe. He is wearing a beige Polo shirt, looking focused and slightly contemplative, with his fingers gently touching his chin. In front of him is a cup of hot coffee. The background is a wall with wooden stripes and a decorative sign. Then the s86b5p money rain effect begins, and countless enormous US dollar bills (beige with dark green patterns) pour down like a torrential rain, densely hitting and surrounding him. The bills continue to fall as he stretches his arms upward, neck slightly tilted back, with a surprised expression, completely immersed in this wild money rain.",
                "first_frame_path": "https://finetune-swap-wulanchabu.oss-cn-wulanchabu.aliyuncs.com/xxx.jpeg"
            }
        ]
    }
}

Langkah 2: Ekspor checkpoint dan dapatkan nama model untuk penerapan

Langkah 2.1: Ekspor model

Asumsikan "checkpoint-160" memiliki efek terbaik, langkah selanjutnya adalah mengekspornya.

Contoh permintaan

<replace_with_fine-tuning_job_id>: Ganti placeholder ini dengan nilai parameter respons job_id yang dikembalikan oleh operasi Buat pekerjaan fine-tuning.
<replace_with_selected_checkpoint>: Ganti ini dengan nilai checkpoint, misalnya, "checkpoint-160".
<replace_with_exported_model_name_for_console_display>: Nama kustom untuk model. Nama ini hanya ditampilkan di konsol. Misalnya, "wan2.5-checkpoint-160". Nama harus unik secara global. Anda tidak dapat menggunakan nama yang sama untuk beberapa ekspor. Untuk informasi lebih lanjut tentang cara menentukan parameter ini, lihat Ekspor checkpoint.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>/export/<replace_with_checkpoint_to_export>?model_name=<replace_with_exported_model_name_for_console_display>' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Contoh respons

Parameter respons output=true menunjukkan bahwa permintaan ekspor telah berhasil dibuat.

{
    "request_id": "0817d1ed-b6b6-4383-9650-xxxxx",
    "output": true
}

Langkah 2.2: Tanyakan nama model baru setelah penerapan

Tanyakan status semua checkpoint untuk mengonfirmasi bahwa ekspor telah selesai dan untuk mendapatkan nama model eksklusif barunya untuk penerapan (model_name).

Contoh permintaan

<replace_with_fine-tuning_job_id>: Nilai parameter respons job_id dari operasi Buat pekerjaan fine-tuning.

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/fine-tunes/<replace_with_fine-tuning_job_id>/checkpoints' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Contoh respons

Dalam daftar yang dikembalikan, temukan checkpoint yang diekspor (seperti checkpoint-160). Ketika status-nya menjadi SUCCEEDED, artinya ekspor berhasil. Bidang model_name yang dikembalikan saat ini adalah nama model baru setelah ekspor.

{
    "request_id": "b0e33c6e-404b-4524-87ac-xxxxxx",
    "output": [
         ...,
        {
            "create_time": "2025-11-11T13:27:29",
            "full_name": "ft-202511111122-496e-checkpoint-160",
            "job_id": "ft-202511111122-496e",
            "checkpoint": "checkpoint-160",                             
            "model_name": "xxxx-ft-202511111122-xxxx-c160", // Bidang penting, akan digunakan untuk penerapan dan pemanggilan model
            "model_display_name": "xxxx-ft-202511111122-xxxx", 
            "status": "SUCCEEDED" // Checkpoint berhasil diekspor
        },
        ...
        
    ]
}

Langkah 3: Terapkan dan panggil model

Setelah berhasil mengekspor checkpoint dan mendapatkan model_name, lakukan operasi berikut:

Penerapan model: Untuk parameter input model_name, masukkan nilai yang diperoleh dari ekspor.
Pemanggilan model: Lihat dokumentasi API dan panggil model yang telah diterapkan.

Mengudara

Dalam lingkungan produksi, jika model yang awalnya dilatih berkinerja buruk (misalnya, dengan frame rusak, efek tidak jelas, atau aksi tidak akurat), Anda dapat melakukan fine-tuning berdasarkan dimensi berikut:

1. Periksa data dan prompt

Konsistensi data: Konsistensi data adalah kunci. Periksa "sampel buruk" dengan arah berlawanan atau gaya yang sangat berbeda.
Jumlah sampel: Kami merekomendasikan meningkatkan jumlah entri data berkualitas tinggi menjadi lebih dari 20.
Prompt: Pastikan kata pemicu adalah kata langka tanpa makna (seperti s86b5p) dan hindari penggunaan kata umum (seperti running) untuk mencegah gangguan.

2. Sesuaikan hiperparameter: Untuk deskripsi parameter, lihat Hiperparameter.

n_epochs (jumlah epoch pelatihan)
- Nilai default: 400. Kami merekomendasikan menggunakan nilai default. Untuk menyesuaikannya, ikuti prinsip "Total langkah pelatihan ≥ 800".
- Rumus total langkah: steps = n_epochs × ceil(ukuran set pelatihan / batch_size).
- Oleh karena itu, rumus untuk nilai minimum n_epochs adalah: n_epochs = 800 / ceil(ukuran set data / batch_size).
- Contoh: Asumsikan set pelatihan memiliki 5 entri data dan Anda menggunakan model Wan2.5 (batch_size=2).
  - Langkah pelatihan per epoch: 5 / 2 = 2,5, yang dibulatkan ke atas menjadi 3. Jumlah total epoch pelatihan: n_epochs = 800 / 3 ≈ 267. Ini adalah nilai minimum yang direkomendasikan. Anda dapat menambahkannya sesuai kebutuhan bisnis, misalnya, menjadi 300.
learning_rate, batch_size: Kami merekomendasikan menggunakan nilai default. Biasanya Anda tidak perlu mengubahnya.

Penagihan

Pelatihan model: Dikenai biaya.
- Biaya = Total token pelatihan × Harga satuan. Untuk informasi lebih lanjut, lihat Penagihan pelatihan model.
- Setelah pelatihan selesai, Anda dapat melihat jumlah total token yang dikonsumsi selama pelatihan di bidang usage pada API Tanyakan status pekerjaan fine-tuning.
Penerapan model: Gratis.
Pemanggilan model: Dikenai biaya.
- Anda dikenai biaya sesuai harga pemanggilan standar model dasar yang telah diperhalus. Untuk informasi lebih lanjut, lihat Harga model.

Referensi API

Referensi API fine-tuning model pembuatan video

FAQ

T: Bagaimana cara menghitung volume data untuk set pelatihan dan validasi?

J: Set pelatihan wajib, dan set validasi opsional. Metode perhitungannya adalah sebagai berikut:

Jika Anda tidak meneruskan set validasi: Set pelatihan yang diunggah adalah "ukuran total dataset." Sistem secara otomatis membagi sebagian dari set pelatihan untuk validasi.
- Ukuran set validasi = min(Ukuran total dataset × (1 − split), max_split_val_dataset_sample). Untuk contoh perhitungan, lihat Tentukan set validasi.
- Jumlah entri set pelatihan = Ukuran total dataset − Jumlah entri set validasi.
Jika Anda mengunggah set validasi: Sistem tidak lagi membagi data pelatihan untuk validasi.
- Jumlah entri set pelatihan = Volume data set pelatihan yang diunggah.
- Jumlah entri set validasi = Volume data set validasi yang diunggah.

T: Bagaimana cara merancang kata pemicu yang baik?

A: Aturannya adalah sebagai berikut:

Gunakan kombinasi huruf tanpa makna, seperti sksstyle atau a8z2_bbb.
Hindari penggunaan kata bahasa Inggris umum (seperti beautiful, fire, dance), karena ini akan mengganggu pemahaman asli model terhadap kata-kata tersebut.

T: Dapatkah fine-tuning mengubah resolusi atau durasi video?

J: Tidak. Fine-tuning mempelajari konten dan gerakan, bukan spesifikasi. Format video output (resolusi, laju frame, durasi maksimum) tetap ditentukan oleh model dasar.