全部产品
Search
文档中心

Alibaba Cloud Model Studio:Wan - Manusia digital

更新时间:Oct 22, 2025

Model wan2.2-s2v menggunakan gambar tunggal dan klip audio untuk menghasilkan video seseorang berbicara, bernyanyi, atau melakukan aksi dengan gerakan alami. Model ini mendukung gambar potret, seluruh tubuh, atau setengah tubuh tanpa batasan pada komposisi gambar.

Penting

Dokumen ini hanya berlaku untuk Wilayah China (Beijing). Diperlukan Kunci API dari wilayah China (Beijing) untuk menggunakan model ini.

Ikhtisar Model

Contoh hasil

Contoh input

Video output

input_image

Audio input

Model dan harga

Model

Deskripsi

Harga satuan

Batas Laju (Dibagi Antara Akun Alibaba Cloud dan Pengguna RAM)

Batas RPS untuk API pengiriman tugas

Tugas Konkuren

wan2.2-s2v-detect

Memeriksa apakah gambar input memenuhi persyaratan, seperti definisi, satu orang, dan pandangan depan.

$0,000574/gambar

5

Tidak ada batas untuk API sinkron

wan2.2-s2v

Menghasilkan video dinamis seseorang dari gambar yang divalidasi dan klip audio.

480p: $0,071677/detik

720p: $0,129018/detik

5

1

Proses untuk menghasilkan video manusia digital adalah sebagai berikut:

  • Langkah 1: Panggil API wan2.2-s2v-detect. Kirim URL gambar untuk memeriksa apakah gambar tersebut sesuai.

  • Langkah 2: Jika gambar sesuai, panggil API asinkron wan2.2-s2v. Kirim URL gambar dan URL audio untuk menyerahkan tugas pembuatan video. Lakukan polling ke API untuk mengambil hasilnya.

Memulai

Persyaratan awal

Sebelum memanggil API, aktifkan Studio Model dan dapatkan Kunci API. Kemudian, atur Kunci API sebagai Variabel lingkungan.

Kode contoh

Gambar contoh dalam topik ini telah lulus deteksi. Contoh kode berikut menunjukkan cara menghasilkan video.

Catatan

Permintaan HTTP melibatkan dua langkah: membuat tugas dan kemudian mengambil hasilnya.

Langkah 1: Buat tugas untuk mendapatkan ID tugas

Permintaan ini mengembalikan task_id yang dapat digunakan untuk menanyakan hasilnya.

curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
 --header 'X-DashScope-Async: enable' \
 --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
 --header 'Content-Type: application/json' \
 --data '{
     "model": "wan2.2-s2v",
     "input": {
            "image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
            "audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
        },
        "parameters": {
            "style": "speech"
        }
    }'
Langkah 2: Tanyakan hasil berdasarkan ID tugas

Ganti 86ecf553-d340-4e21-xxxxxxxxx dengan ID tugas aktual.

Kunci API untuk wilayah Singapura dan Beijing berbeda. Dapatkan Kunci API.
Kode berikut menyediakan base_url untuk wilayah Singapura. Jika Anda menggunakan model di wilayah Beijing, ganti base_url dengan https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

task_id valid selama 24 jam. Jika Anda mencoba menanyakan tugas setelah ID tugas kedaluwarsa, API mengembalikan status tugas UNKNOWN.

Perbandingan model

Rekomendasi pemilihan model: Gunakan model wan2.2-s2v untuk menghasilkan video yang mencakup tampilan seluruh tubuh atau setengah tubuh besar dari seseorang. Jika efisiensi biaya menjadi prioritas, pilih EMO sebagai alternatif.

Perbandingan fitur

Manusia Digital wan2.2-s2v

EMO (Lihat)

Deskripsi model

Gerakan lebih besar dan lebih alami. Rentang bingkai yang didukung luas (terutama seluruh tubuh). Mendukung karakter kartun.

Lebih cocok untuk close-up atau potret. Sinkronisasi bibir dan ekspresi alami.

Bingkai yang berlaku

Seluruh tubuh, setengah tubuh, potret

Potret, setengah tubuh (direkomendasikan)

Metode pemanggilan

Pemanggilan dua langkah. API deteksi hanya digunakan untuk pemeriksaan kepatuhan, yang menyederhanakan integrasi.

Pemanggilan dua langkah. Koordinat yang dikembalikan oleh API deteksi merupakan parameter input wajib untuk API generasi.

Kontrol gaya

Berdasarkan skenario (berbicara, bernyanyi, beraksi)

Berdasarkan gaya (moderat, tenang, hidup)

Spesifikasi output

Berdasarkan resolusi (480p, 720p)

Berdasarkan rasio aspek (1:1, 3:4)

Harga panggilan model

  • Deteksi gambar: $0,000574/gambar

  • Generasi video:

    • 480p: $0,071677/detik

    • 720p: $0,129018/detik

  • Deteksi gambar: $0,000574/gambar

  • Generasi video:

    • Rasio aspek 1:1: $0,011469/detik

    • Rasio aspek 3:4: $0,022937/detik

Langkah berikutnya

Referensikan dokumen API berikut untuk memulai pengembangan Anda:

API deteksi gambar

API generasi video