Model referensi-ke-video Wan mendukung input multimodal (teks, gambar, atau video) dan dapat menggunakan seseorang atau objek sebagai karakter utama untuk menghasilkan video performa yang alami dan realistis berdasarkan prompt.
Kemampuan dasar: Atur durasi video (2–10 detik), tentukan resolusi (720P atau 1080P), dan tambahkan Watermark.
Penokohan: Meniru penampilan karakter dari gambar atau video referensi. Jika referensinya berupa video, model juga dapat meniru timbre suara. Mendukung performa karakter tunggal maupun interaksi multi-karakter.
Narasi multi-shot: Gunakan penjadwalan multi-shot cerdas untuk mendukung dialog alami dan interaksi stabil sekaligus menjaga konsistensi karakter.
Tautan cepat: Referensi API | Panduan prompt
Ketersediaan
Model yang didukung bervariasi berdasarkan Wilayah. Sumber daya diisolasi antar-Wilayah. Saat memanggil API, pastikan model, URL endpoint, dan Kunci API Anda semuanya berada dalam Wilayah yang sama. Pemanggilan lintas-Wilayah akan gagal.
Model yang didukung:
Global
Dalam mode penyebaran Global, titik akses dan penyimpanan data berlokasi di Wilayah AS (Virginia), dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
Model | Fitur | Modalitas input | Spesifikasi video output |
wan2.6-r2v | Video dengan audio Video referensi: Pembuatan multi-role Narasi multi-shot, sinkronisasi audio-video | Teks, video | Pilihan resolusi: 720P, 1080P Durasi video: 5s, 10s Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
International
Dalam mode penyebaran International, titik akses dan penyimpanan data berlokasi di Wilayah Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Model | Fitur | Modalitas input | Spesifikasi video output |
wan2.6-r2v-flash | Video dengan atau tanpa audio Lihat video hasil pembuatan multi-karakter. Narasi multi-shot, sinkronisasi audio-video | Teks, gambar, video | Pilihan resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
wan2.6-r2v | Video dengan audio Referensi-ke-video multi-role Narasi multi-shot, sinkronisasi audio-video | Teks, gambar, video | Pilihan resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Dalam mode penyebaran Daratan Tiongkok, titik akses dan penyimpanan data berada di Wilayah Beijing, sedangkan sumber daya komputasi untuk inferensi model dibatasi hanya untuk Daratan Tiongkok.
Model | Fitur | Modalitas input | Spesifikasi video output |
wan2.6-r2v-flash | Video dengan atau tanpa audio Referensi-ke-video multi-role Narasi multi-shot, sinkronisasi audio-video | Teks, gambar, video | Pilihan resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
wan2.6-r2v | Video dengan audio Lihat video yang dihasilkan dengan beberapa role. Narasi multi-shot, sinkronisasi audio-video | Teks, gambar, video | Pilihan resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
Kode contoh dalam topik ini berlaku untuk Wilayah Singapura. Untuk Wilayah lainnya, lihat referensi API.
Kemampuan inti
Interaksi multi-karakter
Model yang didukung: Semua model.
Deskripsi: Menghasilkan adegan multi-karakter hingga lima karakter untuk dialog dan interaksi alami. Cocok untuk skenario seperti wawancara, percakapan, dan tutorial.
Pengaturan parameter:
reference_urls: Masukkan hingga 5 URL. Setiap URL dapat mengarah ke gambar atau video.Jumlah gambar: 0 hingga 5. Gambar referensi dapat berupa orang, objek, atau latar belakang.
Jumlah video: 0 hingga 3. Disarankan untuk referensi karakter atau objek. Hindari penggunaan video latar belakang atau adegan kosong.
Setiap referensi (video atau gambar) harus hanya berisi satu karakter.
shot_type: Atur kemultiuntuk perpindahan multi-shot guna meningkatkan ekspresivitas. Atur kesingleuntuk perspektif shot tunggal yang tetap.prompt: Prompt merujuk pada karakter menggunakan pengenal seperti `character1` dan `character2`. Urutan karakter sesuai dengan urutan arrayreference_urls. URL pertama adalah `character1`, URL kedua adalah `character2`, dan seterusnya.
Gambar dan video referensi
Prompt input: character2 duduk di kursi dekat jendela, memegang character3, dan memainkan lagu country folk Amerika yang menenangkan di samping character4. character1 berkata kepada character2: "that sounds great". | ||||
Video input character1 Karakter referensi | Video input character2 Karakter referensi | Gambar input character3 Objek referensi | Gambar input character4 Latar belakang referensi | Video output (multi-shot, dengan audio) |
|
| |||
Video referensi
Prompt input: character1 berkata kepada character2: "I’ll rely on you tomorrow morning!" character2 menjawab: "You can count on me!" | ||
Input video character1 Karakter referensi | Video input character2 Objek referensi | Video output (multi-shot, dengan audio) |
curl
Langkah 1: Buat task untuk mendapatkan ID task
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Character2 sits on a chair by the window, holding character3, and plays a soothing American country folk song next to character4. Character1 says to Character2: \"that sounds great\"",
"reference_urls": [
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/aacgyk/wan-r2v-role1.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mmizqq/wan-r2v-role2.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/wfjikw/wan-r2v-backgroud5.png"
]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"audio": true,
"shot_type": "multi",
"watermark": true
}
}'Langkah 2: Dapatkan hasil menggunakan ID task
Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"Performa karakter tunggal
Model yang didukung: Semua model.
Deskripsi: Menghasilkan performa karakter lengkap di berbagai adegan berdasarkan video atau gambar referensi. Cocok untuk personal branding, endorsement produk, dan Pelatihan edukasi.
Pengaturan parameter:
reference_urls: URL dari satu video atau gambar referensi.shot_type: Kami menyarankan mengatur ini kemultiuntuk perpindahan multi-shot guna meningkatkan ekspresivitas. Atur kesingleuntuk perspektif shot tunggal yang tetap.prompt: Gunakan "character1" untuk merujuk pada karakter dalam video atau gambar referensi.
Prompt masukan | Video input character1 | Video output (multi-shot, dengan audio) |
Buat pengalaman unboxing liburan yang meriah. Shot 1 [0-2s]: Character1 duduk di samping pohon Natal yang indah dengan lampu berkelap-kelip, memegang kotak hadiah terbungkus dengan kemasan merah dan emas elegan. Shot 2 [2-4s]: Close-up saat Character1 membuka hadiah dengan hati-hati, mengungkap produk perawatan kulit premium di dalamnya. Shot 3 [4-6s]: Character1 mengoleskan produk dengan senang hati, berkata: "This holiday glow is exactly what I wanted!" Shot 4 [6-10s]: Character1 mengagumi kulitnya yang bersinar di cermin genggam, dikelilingi dekorasi liburan, diakhiri dengan senyum hangat ke kamera. |
curl
Langkah 1: Buat task untuk mendapatkan ID task
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: \"This holiday glow is exactly what I wanted!\" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.",
"reference_urls":["https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mjgmzx/wan-r2v-role-4.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"shot_type":"multi",
"watermark": true
}
}'Langkah 2: Dapatkan hasil menggunakan ID task
Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"Hasilkan video tanpa suara
Model yang didukung: wan2.6-r2v-flash.
Deskripsi: Fitur ini ideal untuk skenario visual saja tanpa audio, seperti membuat poster animasi atau video pendek tanpa suara.
Parameter:
audio: Untuk menghasilkan video tanpa suara, aturaudio = false.prompt: Gunakan "character1" untuk merujuk pada karakter dalam referensi.
Input prompt | Input video character1 | Video output (video tanpa suara) |
character1 minum bubble tea sambil menari spontan mengikuti musik. |
curl
Langkah 1: Buat task untuk mendapatkan ID task
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "character1 drinks bubble tea while dancing spontaneously to the music.",
"reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 5,
"shot_type":"multi",
"audio": false,
"watermark": true
}
}'Langkah 2: Dapatkan hasil menggunakan ID task
Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"Referensi input
Gambar input
Jumlah gambar: Maksimal 5.
Batas total: Jumlah gambar ditambah video tidak boleh melebihi 5.
Metode input:
URL publik: Mendukung protokol HTTP atau HTTPS. Contoh: https://xxxx/xxx.png.
Video input
Jumlah video: Maksimal 3.
Batas total: Jumlah gambar ditambah video tidak boleh melebihi 5.
Metode input:
URL publik: Mendukung protokol HTTP atau HTTPS. Contoh: https://xxxx/xxx.mp4.
Video output
Jumlah video: 1.
Format: MP4. Untuk resolusi dan spesifikasi lainnya, lihat Model yang didukung.
Waktu kedaluwarsa URL: 24 jam.
Dimensi: Ditentukan oleh resolusi pada parameter size. Contoh,
size=1280*720menghasilkan rasio aspek 16:9.
Tagihan dan Pembatasan laju
Untuk kuota gratis dan harga, lihat Harga pemanggilan model.
Untuk Pembatasan laju, lihat Seri Wan.
Rincian penagihan:
Gambar input tidak dikenai biaya. Video input dan video output ditagih per detik.
Pemanggilan yang gagal atau error pemrosesan tidak dikenai biaya atau mengurangi kuota gratis untuk pengguna baru.
Video dengan audio dan video tanpa suara memiliki harga berbeda (misalnya, wan2.6-r2v-flash).
Perhitungan durasi penagihan:
Total durasi yang ditagih = Durasi video input (maksimal 5 detik) + Durasi video output.
Durasi yang ditagih untuk video input: Total durasi yang ditagih untuk video input tidak melebihi 5 detik.
Perhitungan: Batas potong ditetapkan untuk setiap video berdasarkan distribusi merata di antara semua referensi (gambar dan video). Setiap video ditagih berdasarkan
min(durasi aktual, batas potong). Durasi yang dapat ditagih dijumlahkan untuk beberapa video.Contoh: Jika Anda menginput 3 materi (1 gambar + 2 video) dan batas potong per video adalah 1,65 detik:
Durasi input yang ditagih =
min(durasi video 1, 1,65s) + min(durasi video 2, 1,65s). Gambar tidak dikenai biaya.
Durasi yang ditagih untuk video output: Durasi dalam detik dari video yang berhasil dihasilkan.
Dokumentasi API
Untuk informasi lebih lanjut, lihat referensi API video.
FAQ
T: Bagaimana cara mengatur rasio aspek video (misalnya, 16:9)?
J: Tentukan resolusi video menggunakan parameter size. Sistem secara otomatis menentukan rasio aspek berdasarkan resolusi tersebut.
Contoh, size=1280*720 menghasilkan rasio aspek 16:9. Setiap nilai size berkaitan dengan rasio aspek tetap. Pilih resolusi yang sesuai untuk rasio target Anda.
Q: Bagaimana cara saya merujuk karakter dari bahan sumber dalam prompt?
J: Setiap referensi (video atau gambar) harus hanya berisi satu karakter. Gunakan pengenal seperti character1 dan character2 untuk merujuk karakter. Pengenal tersebut sesuai dengan urutan referensi dalam array reference_urls. Contoh:
"reference_urls":[
"https://example.com/girl.mp4", // character1
"https://example.com/clock.png" // character2
]
