Model wan2.2-s2v menggunakan gambar tunggal dan klip audio untuk menghasilkan video seseorang berbicara, bernyanyi, atau melakukan aksi dengan gerakan alami. Model ini mendukung gambar potret, seluruh tubuh, atau setengah tubuh tanpa batasan pada komposisi gambar.
Dokumen ini hanya berlaku untuk Wilayah China (Beijing). Diperlukan Kunci API dari wilayah China (Beijing) untuk menggunakan model ini.
Ikhtisar Model
Contoh hasil
Contoh input | Video output |
Audio input |
Model dan harga
Model | Deskripsi | Harga satuan | Batas Laju (Dibagi Antara Akun Alibaba Cloud dan Pengguna RAM) | |
Batas RPS untuk API pengiriman tugas | Tugas Konkuren | |||
wan2.2-s2v-detect | Memeriksa apakah gambar input memenuhi persyaratan, seperti definisi, satu orang, dan pandangan depan. | $0,000574/gambar | 5 | Tidak ada batas untuk API sinkron |
wan2.2-s2v | Menghasilkan video dinamis seseorang dari gambar yang divalidasi dan klip audio. | 480p: $0,071677/detik 720p: $0,129018/detik | 5 | 1 |
Proses untuk menghasilkan video manusia digital adalah sebagai berikut:
Langkah 1: Panggil API wan2.2-s2v-detect. Kirim URL gambar untuk memeriksa apakah gambar tersebut sesuai.
Langkah 2: Jika gambar sesuai, panggil API asinkron wan2.2-s2v. Kirim URL gambar dan URL audio untuk menyerahkan tugas pembuatan video. Lakukan polling ke API untuk mengambil hasilnya.
Memulai
Persyaratan awal
Sebelum memanggil API, aktifkan Studio Model dan dapatkan Kunci API. Kemudian, atur Kunci API sebagai Variabel lingkungan.
Kode contoh
Gambar contoh dalam topik ini telah lulus deteksi. Contoh kode berikut menunjukkan cara menghasilkan video.
Permintaan HTTP melibatkan dua langkah: membuat tugas dan kemudian mengambil hasilnya.
Langkah 1: Buat tugas untuk mendapatkan ID tugas
Permintaan ini mengembalikan task_id yang dapat digunakan untuk menanyakan hasilnya.
curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.2-s2v",
"input": {
"image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
"audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
},
"parameters": {
"style": "speech"
}
}'Langkah 2: Tanyakan hasil berdasarkan ID tugas
Ganti 86ecf553-d340-4e21-xxxxxxxxx dengan ID tugas aktual.
Kunci API untuk wilayah Singapura dan Beijing berbeda. Dapatkan Kunci API.
Kode berikut menyediakan base_url untuk wilayah Singapura. Jika Anda menggunakan model di wilayah Beijing, ganti base_url dengan https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"task_id valid selama 24 jam. Jika Anda mencoba menanyakan tugas setelah ID tugas kedaluwarsa, API mengembalikan status tugas UNKNOWN.
Perbandingan model
Rekomendasi pemilihan model: Gunakan model wan2.2-s2v untuk menghasilkan video yang mencakup tampilan seluruh tubuh atau setengah tubuh besar dari seseorang. Jika efisiensi biaya menjadi prioritas, pilih EMO sebagai alternatif.
Perbandingan fitur | Manusia Digital wan2.2-s2v | EMO (Lihat) |
Deskripsi model | Gerakan lebih besar dan lebih alami. Rentang bingkai yang didukung luas (terutama seluruh tubuh). Mendukung karakter kartun. | Lebih cocok untuk close-up atau potret. Sinkronisasi bibir dan ekspresi alami. |
Bingkai yang berlaku | Seluruh tubuh, setengah tubuh, potret | Potret, setengah tubuh (direkomendasikan) |
Metode pemanggilan | Pemanggilan dua langkah. API deteksi hanya digunakan untuk pemeriksaan kepatuhan, yang menyederhanakan integrasi. | Pemanggilan dua langkah. Koordinat yang dikembalikan oleh API deteksi merupakan parameter input wajib untuk API generasi. |
Kontrol gaya | Berdasarkan skenario (berbicara, bernyanyi, beraksi) | Berdasarkan gaya (moderat, tenang, hidup) |
Spesifikasi output | Berdasarkan resolusi (480p, 720p) | Berdasarkan rasio aspek (1:1, 3:4) |
Harga panggilan model |
|
|
Langkah berikutnya
Referensikan dokumen API berikut untuk memulai pengembangan Anda:
