All Products
Search
Document Center

Alibaba Cloud Model Studio:Referensi-ke-video

Last Updated:Feb 27, 2026

Model referensi-ke-video Wan mendukung input multimodal (teks, gambar, atau video) dan dapat menggunakan seseorang atau objek sebagai karakter utama untuk menghasilkan video performa yang alami dan realistis berdasarkan prompt.

  • Kemampuan dasar: Atur durasi video (2–10 detik), tentukan resolusi (720P atau 1080P), dan tambahkan Watermark.

  • Penokohan: Meniru penampilan karakter dari gambar atau video referensi. Jika referensinya berupa video, model juga dapat meniru timbre suara. Mendukung performa karakter tunggal maupun interaksi multi-karakter.

  • Narasi multi-shot: Gunakan penjadwalan multi-shot cerdas untuk mendukung dialog alami dan interaksi stabil sekaligus menjaga konsistensi karakter.

Tautan cepat: Referensi API | Panduan prompt

Ketersediaan

Model yang didukung bervariasi berdasarkan Wilayah. Sumber daya diisolasi antar-Wilayah. Saat memanggil API, pastikan model, URL endpoint, dan Kunci API Anda semuanya berada dalam Wilayah yang sama. Pemanggilan lintas-Wilayah akan gagal.

Model yang didukung:

Global

Dalam mode penyebaran Global, titik akses dan penyimpanan data berlokasi di Wilayah AS (Virginia), dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v Disarankan

Video dengan audio

Video referensi: Pembuatan multi-role

Narasi multi-shot, sinkronisasi audio-video

Teks, video

Pilihan resolusi: 720P, 1080P

Durasi video: 5s, 10s

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

International

Dalam mode penyebaran International, titik akses dan penyimpanan data berlokasi di Wilayah Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v-flash Disarankan

Video dengan atau tanpa audio

Lihat video hasil pembuatan multi-karakter.

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Pilihan resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.6-r2v

Video dengan audio

Referensi-ke-video multi-role

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Pilihan resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Dalam mode penyebaran Daratan Tiongkok, titik akses dan penyimpanan data berada di Wilayah Beijing, sedangkan sumber daya komputasi untuk inferensi model dibatasi hanya untuk Daratan Tiongkok.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v-flash Disarankan

Video dengan atau tanpa audio

Referensi-ke-video multi-role

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Pilihan resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.6-r2v

Video dengan audio

Lihat video yang dihasilkan dengan beberapa role.

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Pilihan resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Catatan

Kode contoh dalam topik ini berlaku untuk Wilayah Singapura. Untuk Wilayah lainnya, lihat referensi API.

Kemampuan inti

Interaksi multi-karakter

Model yang didukung: Semua model.

Deskripsi: Menghasilkan adegan multi-karakter hingga lima karakter untuk dialog dan interaksi alami. Cocok untuk skenario seperti wawancara, percakapan, dan tutorial.

Pengaturan parameter:

  • reference_urls: Masukkan hingga 5 URL. Setiap URL dapat mengarah ke gambar atau video.

    • Jumlah gambar: 0 hingga 5. Gambar referensi dapat berupa orang, objek, atau latar belakang.

    • Jumlah video: 0 hingga 3. Disarankan untuk referensi karakter atau objek. Hindari penggunaan video latar belakang atau adegan kosong.

    • Setiap referensi (video atau gambar) harus hanya berisi satu karakter.

  • shot_type: Atur ke multi untuk perpindahan multi-shot guna meningkatkan ekspresivitas. Atur ke single untuk perspektif shot tunggal yang tetap.

  • prompt: Prompt merujuk pada karakter menggunakan pengenal seperti `character1` dan `character2`. Urutan karakter sesuai dengan urutan array reference_urls. URL pertama adalah `character1`, URL kedua adalah `character2`, dan seterusnya.

Gambar dan video referensi

Prompt input: character2 duduk di kursi dekat jendela, memegang character3, dan memainkan lagu country folk Amerika yang menenangkan di samping character4. character1 berkata kepada character2: "that sounds great".

Video input character1

Karakter referensi

Video input character2

Karakter referensi

Gambar input character3

Objek referensi

Gambar input character4

Latar belakang referensi

Video output (multi-shot, dengan audio)

wan-r2v-object4

wan-r2v-backgroud5

Video referensi

Prompt input: character1 berkata kepada character2: "I’ll rely on you tomorrow morning!" character2 menjawab: "You can count on me!"

Input video character1

Karakter referensi

Video input character2

Objek referensi

Video output (multi-shot, dengan audio)

curl

Langkah 1: Buat task untuk mendapatkan ID task

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Character2 sits on a chair by the window, holding character3, and plays a soothing American country folk song next to character4. Character1 says to Character2: \"that sounds great\"",
        "reference_urls": [
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/aacgyk/wan-r2v-role1.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mmizqq/wan-r2v-role2.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/wfjikw/wan-r2v-backgroud5.png"
        ]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "audio": true,
        "shot_type": "multi",
        "watermark": true
    }
}'

Langkah 2: Dapatkan hasil menggunakan ID task

Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Performa karakter tunggal

Model yang didukung: Semua model.

Deskripsi: Menghasilkan performa karakter lengkap di berbagai adegan berdasarkan video atau gambar referensi. Cocok untuk personal branding, endorsement produk, dan Pelatihan edukasi.

Pengaturan parameter:

  • reference_urls: URL dari satu video atau gambar referensi.

  • shot_type: Kami menyarankan mengatur ini ke multi untuk perpindahan multi-shot guna meningkatkan ekspresivitas. Atur ke single untuk perspektif shot tunggal yang tetap.

  • prompt: Gunakan "character1" untuk merujuk pada karakter dalam video atau gambar referensi.

Prompt masukan

Video input character1

Video output (multi-shot, dengan audio)

Buat pengalaman unboxing liburan yang meriah. Shot 1 [0-2s]: Character1 duduk di samping pohon Natal yang indah dengan lampu berkelap-kelip, memegang kotak hadiah terbungkus dengan kemasan merah dan emas elegan. Shot 2 [2-4s]: Close-up saat Character1 membuka hadiah dengan hati-hati, mengungkap produk perawatan kulit premium di dalamnya. Shot 3 [4-6s]: Character1 mengoleskan produk dengan senang hati, berkata: "This holiday glow is exactly what I wanted!" Shot 4 [6-10s]: Character1 mengagumi kulitnya yang bersinar di cermin genggam, dikelilingi dekorasi liburan, diakhiri dengan senyum hangat ke kamera.

curl

Langkah 1: Buat task untuk mendapatkan ID task

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: \"This holiday glow is exactly what I wanted!\" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.",
        "reference_urls":["https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mjgmzx/wan-r2v-role-4.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "shot_type":"multi",
        "watermark": true
    }
}'

Langkah 2: Dapatkan hasil menggunakan ID task

Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Hasilkan video tanpa suara

Model yang didukung: wan2.6-r2v-flash.

Deskripsi: Fitur ini ideal untuk skenario visual saja tanpa audio, seperti membuat poster animasi atau video pendek tanpa suara.

Parameter:

  • audio: Untuk menghasilkan video tanpa suara, atur audio = false.

  • prompt: Gunakan "character1" untuk merujuk pada karakter dalam referensi.

Input prompt

Input video character1

Video output (video tanpa suara)

character1 minum bubble tea sambil menari spontan mengikuti musik.

curl

Langkah 1: Buat task untuk mendapatkan ID task

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "character1 drinks bubble tea while dancing spontaneously to the music.",
        "reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 5,
        "shot_type":"multi",
        "audio": false,
        "watermark": true
    }
}'

Langkah 2: Dapatkan hasil menggunakan ID task

Ganti {task_id} dengan nilai task_id yang dikembalikan oleh pemanggilan API sebelumnya.

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

Referensi input

Gambar input

  • Jumlah gambar: Maksimal 5.

  • Batas total: Jumlah gambar ditambah video tidak boleh melebihi 5.

  • Metode input:

    • URL publik: Mendukung protokol HTTP atau HTTPS. Contoh: https://xxxx/xxx.png.

Video input

  • Jumlah video: Maksimal 3.

  • Batas total: Jumlah gambar ditambah video tidak boleh melebihi 5.

  • Metode input:

    • URL publik: Mendukung protokol HTTP atau HTTPS. Contoh: https://xxxx/xxx.mp4.

Video output

  • Jumlah video: 1.

  • Format: MP4. Untuk resolusi dan spesifikasi lainnya, lihat Model yang didukung.

  • Waktu kedaluwarsa URL: 24 jam.

  • Dimensi: Ditentukan oleh resolusi pada parameter size. Contoh, size=1280*720 menghasilkan rasio aspek 16:9.

Tagihan dan Pembatasan laju

  • Untuk kuota gratis dan harga, lihat Harga pemanggilan model.

  • Untuk Pembatasan laju, lihat Seri Wan.

  • Rincian penagihan:

    • Gambar input tidak dikenai biaya. Video input dan video output ditagih per detik.

    • Pemanggilan yang gagal atau error pemrosesan tidak dikenai biaya atau mengurangi kuota gratis untuk pengguna baru.

    • Video dengan audio dan video tanpa suara memiliki harga berbeda (misalnya, wan2.6-r2v-flash).

  • Perhitungan durasi penagihan:

    • Total durasi yang ditagih = Durasi video input (maksimal 5 detik) + Durasi video output.

    • Durasi yang ditagih untuk video input: Total durasi yang ditagih untuk video input tidak melebihi 5 detik.

      • Perhitungan: Batas potong ditetapkan untuk setiap video berdasarkan distribusi merata di antara semua referensi (gambar dan video). Setiap video ditagih berdasarkan min(durasi aktual, batas potong). Durasi yang dapat ditagih dijumlahkan untuk beberapa video.

      • Contoh: Jika Anda menginput 3 materi (1 gambar + 2 video) dan batas potong per video adalah 1,65 detik:

        Durasi input yang ditagih = min(durasi video 1, 1,65s) + min(durasi video 2, 1,65s). Gambar tidak dikenai biaya.

    • Durasi yang ditagih untuk video output: Durasi dalam detik dari video yang berhasil dihasilkan.

Lebih banyak contoh: Perhitungan durasi yang ditagih untuk video input

  • Input: Satu referensi. Batas potong per video adalah 5s.

    • Jika input berupa video: Durasi input yang ditagih = min(durasi video, 5s).

    • Jika input berupa gambar: Gratis.

  • Input: Dua referensi. Batas potong per video adalah 2,5s.

    • Jika input berupa satu video dan satu gambar: Durasi input yang ditagih = min(durasi video 1, 2,5s).

    • Jika input berupa dua video: Durasi input yang ditagih = min(durasi video 1, 2,5 s) + min(durasi video 2, 2,5 s).

  • Input: Tiga referensi. Batas potong per video adalah 1,65s.

    • Jika input berupa satu video dan dua gambar: Durasi input yang ditagih = min(durasi video 1, 1,65s).

    • Jika input berupa tiga video: Durasi input yang ditagih = min(durasi video 1, 1,65s) + min(durasi video 2, 1,65s) + min(durasi video 3, 1,65s).

  • Input: Empat referensi. Batas potong per video adalah 1,25s.

    • Jika input berupa dua video dan dua gambar: Durasi input yang ditagih = min(durasi video 1, 1,25s) + min(durasi video 2, 1,25s).

    • Jika input berupa tiga video dan satu gambar: Durasi input yang ditagih = min(durasi video 1, 1,25s) + min(durasi video 2, 1,25s) + min(durasi video 3, 1,25s).

  • Input: Lima referensi. Batas potong per video adalah 1s.

    • Jika input berupa satu video dan empat gambar: Durasi input yang ditagih = min(durasi video 1, 1s).

    • Jika input berupa tiga video dan dua gambar: Durasi input yang ditagih = min(durasi video 1, 1s) + min(durasi video 2, 1s) + min(durasi video 3, 1s).

Dokumentasi API

Untuk informasi lebih lanjut, lihat referensi API video.

FAQ

T: Bagaimana cara mengatur rasio aspek video (misalnya, 16:9)?

J: Tentukan resolusi video menggunakan parameter size. Sistem secara otomatis menentukan rasio aspek berdasarkan resolusi tersebut.

Contoh, size=1280*720 menghasilkan rasio aspek 16:9. Setiap nilai size berkaitan dengan rasio aspek tetap. Pilih resolusi yang sesuai untuk rasio target Anda.

Q: Bagaimana cara saya merujuk karakter dari bahan sumber dalam prompt?

J: Setiap referensi (video atau gambar) harus hanya berisi satu karakter. Gunakan pengenal seperti character1 dan character2 untuk merujuk karakter. Pengenal tersebut sesuai dengan urutan referensi dalam array reference_urls. Contoh:

"reference_urls":[
    "https://example.com/girl.mp4",   // character1
    "https://example.com/clock.png"   // character2
]