:Pembuatan video

Wan - reference-to-video

Wan - image-to-video

Wan - image-to-video - frame pertama dan terakhir

Wan - reference-to-video

Wan - pengeditan video umum

Wan - image-to-action

Wan - penukaran karakter video

Wan - image-to-video

Wan - image-to-video - frame pertama dan terakhir

Wan - reference-to-video

Wan - pengeditan video umum

Wan - manusia digital

Wan - image-to-action

Wan - penukaran karakter video

Transformasi gaya video

Pemilihan model

Pembuatan video umum
- Untuk menghasilkan video dari prompt teks, gunakan Wan - text-to-video.
- Untuk menghasilkan cuplikan sinematik dari satu gambar, gunakan Wan - image-to-video - frame pertama.
- Untuk mengontrol transisi antara gambar awal dan akhir, gunakan Wan - image-to-video - frame pertama dan terakhir.
- Untuk mereplikasi penampilan dan suara karakter dari video referensi agar sesuai dengan naskah baru, gunakan Wan - reference-to-video.
Sinkronisasi bibir manusia digital: Menganimasikan foto statis untuk berbicara, bernyanyi, atau bercerita — latar belakang tetap, sedangkan wajah, kepala, dan tubuh bergerak.
- Untuk hasil paling alami, termasuk ekspresi wajah, gerakan kepala, dan tubuh, gunakan Wan - manusia digital. Model ini menggantikan EMO.
- Untuk video lebih dari 20 detik dengan gerakan kepala sederhana, seperti laporan berita, gunakan LivePortrait.
Transfer gerakan video: Fitur ini menjaga latar belakang foto tetap statis dan menganimasikan orang menggunakan gerakan dari video referensi. Gunakan Wan - image-to-action.
Penukaran karakter video: Fitur ini mengganti orang dalam video dengan orang dari gambar sambil mempertahankan latar belakang aslinya. Gunakan Wan - penukaran karakter video.
Penggantian penari: Mengganti penari dalam video dengan orang dari gambar. Untuk kualitas terbaik, gunakan Wan - image-to-action dan Wan - penukaran karakter video. Jika anggaran terbatas, gunakan AnimateAnyone.
Penggantian gerakan bibir video: Fitur ini mengganti gerakan bibir dalam video yang ada agar sesuai dengan audio baru. Gunakan VideoRetalk.
Pembuatan emoji: Fitur ini membuat emoji menggunakan templat bergaya tetap. Gunakan Emoji.
Penggambaran ulang video: Untuk menggunakan templat bergaya tetap, gunakan Transformasi gaya video. Untuk mendeskripsikan gaya secara bebas menggunakan prompt, gunakan Wan - pengeditan video.
Pengeditan video: Untuk semua tugas berikut, gunakan Wan - pengeditan video umum.
- Pengeditan video lokal: Ganti elemen seperti subjek atau pakaian, atau hapus orang yang lewat.
- Perpanjangan video: Perpanjang video pendek, misalnya dari 1 detik menjadi 5 detik.
- Ekspansi frame video: Ubah video landscape ke mode portrait atau isi bagian tepi yang hilang.
- Generasi referensi multi-gambar: Gabungkan gambar latar belakang dan subjek untuk membuat video.

Model yang didukung

Wan - text-to-video

Menghasilkan video dari prompt teks. Mendukung input teks dan audio untuk membuat video multi-shot sinematik.

Referensi API | Harga model | Coba online: Singapura, Virginia, Beijing

Global

Jika Anda memilih cakupan penerapan Global, sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia. Data statis disimpan di wilayah yang Anda pilih. Wilayah yang didukung: AS (Virginia) dan Jerman (Frankfurt).

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-t2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5d, 10d, 15d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Internasional

Jika Anda memilih cakupan penerapan Internasional, sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan. Data statis disimpan di wilayah yang Anda pilih. Wilayah yang didukung: Singapura.

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.7-t2v-2026-04-25 `Direkomendasikan`	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.7-t2v	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-t2v	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.5-t2v-preview	Video dengan audio Sinkronisasi audio-video	Teks, audio	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d, 10d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-t2v-plus	Video tanpa suara Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.	Teks	Opsi resolusi: 480P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.1-t2v-turbo	Video tanpa suara	Teks	Opsi resolusi: 480P, 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.1-t2v-plus	Video tanpa suara	Teks	Opsi resolusi: 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

AS

Jika Anda memilih cakupan penerapan AS, sumber daya komputasi inferensi model dibatasi hanya di Amerika Serikat. Data statis disimpan di wilayah yang Anda pilih. Wilayah yang didukung: AS (Virginia).

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-t2v-us Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5d, 10d, 15d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika Anda memilih cakupan penerapan Tiongkok daratan, sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan. Data statis disimpan di wilayah yang Anda pilih. Wilayah yang didukung: Tiongkok (Beijing).

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.7-t2v-2026-04-25 `Direkomendasikan`	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.7-t2v	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-t2v	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.5-t2v-preview	Video dengan audio Sinkronisasi audio-video	Teks, audio	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d, 10d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-t2v-plus	Video tanpa suara Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.	Teks	Opsi resolusi: 480P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wanx2.1-t2v-turbo	Video tanpa suara	Teks	Opsi resolusi: 480P, 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wanx2.1-t2v-plus	Video tanpa suara	Teks	Opsi resolusi: 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Prompt input

Video output (wan2.6, video multi-shot)

Cuplikan dari sudut rendah, dalam close-up medium, dengan nada hangat, pencahayaan campuran (lampu meja praktis menyatu dengan cahaya mendung dari jendela), pencahayaan samping, dan komposisi sentral. Di kantor detektif klasik, rak buku kayu dipenuhi berkas kasus lama dan asbak. Lampu meja hijau menerangi berkas kasus yang terbuka di tengah meja. Seekor rubah, mengenakan mantel trench coklat tua dan fedora abu-abu muda, duduk di kursi kulit, bulunya merah, ekornya terletak ringan di tepi, jarinya perlahan membalik halaman kuning. Di luar, hujan gerimis turun di bawah langit biru, mengalir di kaca membentuk alur-alur berkelok. Ia perlahan mengangkat kepalanya, telinganya sedikit bergerak, matanya yang kuning menatap langsung ke kamera, mulutnya bergerak jelas saat berbicara dengan suara halus dan sinis: 'Kasus ini sudah dingin, lebih dingin dari ikan di musim dingin. Tapi setiap ayam punya rahasia, dan aku, untuk satu hal, berniat menemukannya.'

Wan - image-to-video

Model image-to-video Wan ditingkatkan dengan input multimodal (teks/gambar/audio/video) dan mendukung tiga tugas: frame-pertama-ke-video, frame-pertama-dan-terakhir-ke-video, dan kelanjutan video.

Referensi API | Harga model | Panduan prompt

Internasional

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.7-i2v-2026-04-25 Direkomendasikan

Video dengan audio

Frame-pertama-ke-video, frame-pertama-dan-terakhir-ke-video, kelanjutan video, kelanjutan video dengan kontrol frame terakhir

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 15d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.7-i2v

Video dengan audio

Frame-pertama-ke-video, frame-pertama-dan-terakhir-ke-video, kelanjutan video, kelanjutan video dengan kontrol frame terakhir

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 15d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok Daratan

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.7-i2v-2026-04-25 Direkomendasikan

Video dengan audio

Frame-pertama-ke-video, frame-pertama-dan-terakhir-ke-video, kelanjutan video, kelanjutan video dengan kontrol frame terakhir

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 15d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.7-i2v

Video dengan audio

Frame-pertama-ke-video, frame-pertama-dan-terakhir-ke-video, kelanjutan video, kelanjutan video dengan kontrol frame terakhir

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 15d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Wan - image-to-video - frame pertama

Menghasilkan video dari gambar frame pertama yang ditentukan. Model ini menerima teks, gambar frame pertama, dan audio sebagai input untuk menghasilkan video multi-shot sinematik.

Referensi API | Harga model | Coba online: Singapura, Virginia, Beijing

Global

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5d, 10d, 15d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Internasional

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.6-i2v-flash `Direkomendasikan`	Video dengan audio, video tanpa suara Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-i2v `Direkomendasikan`	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.5-i2v-preview	Video dengan audio Sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d, 10d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-i2v-flash	Video tanpa suara 50% lebih cepat dibandingkan model 2.1.	Teks, gambar	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-i2v-plus	Video tanpa suara Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.	Teks, gambar	Opsi resolusi: 480P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.1-i2v-plus	Video tanpa suara	Teks, gambar	Opsi resolusi: 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.1-i2v-turbo	Video tanpa suara	Teks, gambar	Opsi resolusi: 480P, 720P Durasi video: 3d, 4d, 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

AS

Jika Anda memilih cakupan penerapan AS, sumber daya komputasi inferensi model dibatasi hanya di Amerika Serikat. Data statis disimpan di wilayah yang Anda pilih. Wilayah yang didukung: AS (Virginia).

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v-us Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5d, 10d, 15d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok Daratan

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.6-i2v-flash `Direkomendasikan`	Video dengan audio, video tanpa suara Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-i2v `Direkomendasikan`	Video dengan audio Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 15d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.5-i2v-preview	Video dengan audio Sinkronisasi audio-video	Teks, gambar, audio	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d, 10d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-i2v-flash	Video tanpa suara 50% lebih cepat dibandingkan model 2.1.	Teks, gambar	Opsi resolusi: 480P, 720P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.2-i2v-plus	Video tanpa suara Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.	Teks, gambar	Opsi resolusi: 480P, 1080P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wanx2.1-i2v-plus	Video tanpa suara	Teks, gambar	Opsi resolusi: 720P Durasi video: 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wanx2.1-i2v-turbo	Video tanpa suara	Teks, gambar	Opsi resolusi: 480P, 720P Durasi video: 3d, 4d, 5d Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Prompt input

Gambar frame pertama input dan audio

Video output (wan2.6, video multi-shot)

Sebuah adegan seni fantasi urban. Karakter seni grafiti yang dinamis. Seorang remaja yang terbuat dari cat semprot hidup dari dinding beton. Ia melakukan rap bahasa Inggris dengan kecepatan tinggi sambil mengambil pose rapper klasik yang energetik. Adegan ini berlatar di bawah jembatan kereta api perkotaan pada malam hari. Pencahayaan berasal dari satu lampu jalan, menciptakan suasana sinematik penuh energi dan detail luar biasa. Audio video sepenuhnya terdiri dari rap-nya, tanpa dialog atau kebisingan lainnya.

rap-转换自-png

Input audio:

Wan - image-to-video - frame pertama dan terakhir

Menghasilkan video yang transisi halus antara gambar frame pertama dan terakhir yang ditentukan. Model ini menerima teks, gambar frame pertama dan terakhir, serta audio sebagai input untuk menghasilkan video multi-shot sinematik.

Referensi API | Harga model | Coba online

Internasional

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-kf2v-flash Direkomendasikan

Video tanpa suara

Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.1-kf2v-plus

Video tanpa suara

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok Daratan

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-kf2v-flash Direkomendasikan

Video tanpa suara

Stabilitas dan tingkat keberhasilan lebih baik dibandingkan model 2.1.

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wanx2.1-kf2v-plus

Video tanpa suara

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Gambar frame pertama input	Gambar frame terakhir input	Prompt input	Video output
		Gaya realistis. Seekor kucing hitam kecil menatap langit dengan rasa ingin tahu. Kamera mulai dari ketinggian mata, perlahan naik, dan berakhir dengan bidikan dari atas ke bawah terhadap tatapan penasaran si kucing.

Wan - reference-to-video

Buat karakter dari video tertentu melakukan aksi. Input video dan prompt teks untuk menghasilkan video output yang menjaga konsistensi karakter.

Referensi API pengeditan video 2.7 | Referensi API pengeditan video 2.1 | Harga model

Global

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v Direkomendasikan

Video dengan audio

Generasi video peran tunggal/multi-peran

Narasi multi-shot, sinkronisasi audio-video

Teks, video

Opsi resolusi: 720P, 1080P

Durasi video: 5d, 10d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Internasional

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.7-r2v `Direkomendasikan`	Video dengan audio Reference-to-video multi-entitas; mendukung konfigurasi timbre suara untuk setiap entitas.	Teks, gambar, video, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-r2v-flash	Video dengan audio, video tanpa suara Generasi video peran tunggal/multi-peran Narasi multi-shot, sinkronisasi audio-video Generasi lebih cepat, hemat biaya.	Teks, gambar, video	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-r2v	Video dengan audio Generasi video peran tunggal/multi-peran Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, video	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Model	Fitur	Modalitas input	Spesifikasi video output
wan2.7-r2v `Direkomendasikan`	Video dengan audio Reference-to-video multi-entitas memungkinkan Anda mengonfigurasi timbre suara untuk setiap entitas.	Teks, gambar, video, audio	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-r2v-flash	Video dengan audio, video tanpa suara Generasi video peran tunggal/multi-peran Narasi multi-shot, sinkronisasi audio-video Generasi lebih cepat, hemat biaya.	Teks, gambar, video	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)
wan2.6-r2v	Video dengan audio Generasi video peran tunggal/multi-peran Narasi multi-shot, sinkronisasi audio-video	Teks, gambar, video	Opsi resolusi: 720P, 1080P Durasi video: [2d, 10d] (bilangan bulat) Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Video referensi input 1 (peran: gadis kecil)	Video referensi input 2 (peran: jam alarm)	Prompt input	Video output (dialog multi-peran)
		character1 berkata kepada character2: “Aku akan mengandalkanmu besok pagi!” character2 menjawab: “Kamu bisa mengandalkanku!”

Wan - pengeditan video

Model pengeditan video. Menerima input multimodal teks, gambar, dan video untuk melakukan berbagai tugas generasi dan pengeditan video.

Internasional

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.7-videoedit Direkomendasikan

Video dengan audio, video tanpa suara (tergantung video input)

Pengeditan berbasis instruksi, migrasi video

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 10d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.1-vace-plus

Video tanpa suara

Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video

Teks, gambar, video

Opsi resolusi: 720P

Durasi video: Hingga 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok Daratan

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.7-videoedit Direkomendasikan

Video dengan audio, video tanpa suara (tergantung video input)

Pengeditan berbasis instruksi, migrasi video

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2d, 10d] (bilangan bulat)

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wanx2.1-vace-plus

Video tanpa suara

Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video

Teks, gambar, video

Opsi resolusi: 720P

Durasi video: Hingga 5d

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Pengeditan video 2.1

Fitur 1: Referensi multi-gambar

Gambar referensi input 1 (entitas referensi)	Gambar referensi input 2 (latar belakang referensi)	Prompt input	Video output
		Video menunjukkan seorang gadis berjalan anggun keluar dari kedalaman hutan berkabut kuno. Langkah-langkahnya ringan, dan kamera menangkap setiap momen lincahnya. Saat ia berhenti dan melihat sekeliling ke hutan yang rimbun, senyum kejutan dan sukacita mekar di wajahnya. Momen ini, membeku dalam permainan cahaya dan bayangan, merekam pertemuannya yang indah dengan alam.

Fitur 2: Penggambaran ulang video

Video input	Prompt input	Video output
	Video menunjukkan sebuah mobil hitam bergaya steampunk, dikendarai seorang pria, dihiasi roda gigi dan pipa tembaga. Latar belakangnya adalah pabrik permen berbasis uap dengan elemen retro, menciptakan adegan vintage dan menyenangkan.

Fitur 3: Pengeditan video lokal

Video input	Gambar mask input (area putih menunjukkan area pengeditan)	Prompt input	Video output
		Video menunjukkan kafe Prancis bergaya Paris tempat seekor singa berjas dengan elegan menyesap kopi. Ia memegang cangkir kopi dengan satu tangan, menyesap pelan dengan ekspresi puas. Kafe tersebut didekorasi dengan selera tinggi, dengan warna lembut dan pencahayaan hangat menerangi area tempat singa tersebut berada.

Fitur 4: Perpanjangan video

Segmen video input pertama (1d)

Prompt input

Video output (video yang diperpanjang adalah 5d)

Seekor anjing memakai kacamata hitam berseluncur di jalan, kartun 3D.
Fitur 5: Ekspansi frame video

Video input

Prompt input

Video output

Seorang wanita elegan memainkan biola dengan penuh gairah, dengan orkestra simfoni lengkap di belakangnya.

Wan - manusia digital

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Sinkronisasi bibir manusia digital menganimasikan seseorang atau karakter kartun dalam gambar untuk berbicara, bernyanyi, bercerita, atau tampil. Anda memberikan gambar dan file audio, dan model secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, serta gerakan kepala dan tubuh yang tersinkronisasi.

Referensi API deteksi gambar | Referensi API generasi video | Harga model

Model

Fitur

Modalitas input

Deskripsi output

wan2.2-s2v-detect

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

wan2.2-s2v

Generasi video

Video dengan audio

Gambar, audio

Opsi resolusi: 480P, 720P

Durasi video: Hingga 20d (mengikuti durasi audio)

Spesifikasi tetap:

480P: 16 fps, MP4 (encoding H.264)
720P: 30 fps, MP4 (encoding H.264)

Contoh input (gambar karakter + audio)

Video output (sinkronisasi bibir)

mix_input_image

Input audio:

Wan - image to action

Menganimasikan seseorang dari gambar menggunakan gerakan dari video referensi. Anda memberikan gambar dan video, dan model menghasilkan video yang menerapkan gerakan dari video referensi ke orang tersebut, sementara latar belakang gambar asli tetap statis.

Internasional

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-move

Video dengan audio, video tanpa suara (tergantung video input)

Mode standar wan-std: Generasi cepat, hemat biaya.
Mode profesional wan-pro: Hasil lebih realistis.

Gambar, video

Opsi resolusi: 720P

Durasi video: 2d < durasi < 30d

Spesifikasi tetap:

Mode standar wan-std: 15 fps, MP4 (encoding H.264)
Mode profesional wan-pro: 25 fps, MP4 (encoding H.264)

Tiongkok daratan

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-move

Video dengan audio, video tanpa suara (tergantung video input)

Mode standar wan-std: Generasi cepat, hemat biaya.
Mode profesional wan-pro: Hasil lebih realistis.

Gambar, video

Opsi resolusi: 720P

Durasi video: 2d < durasi < 30d

Spesifikasi tetap:

Mode standar wan-std: 15 fps, MP4 (encoding H.264)
Mode profesional wan-pro: 25 fps, MP4 (encoding H.264)

Gambar karakter input	Video referensi input	Video output (mode standar `wan-std`)	Video output (mode profesional `wan-pro`)

Wan - penukaran karakter video

Mengganti karakter dalam video dengan karakter dari gambar referensi. Anda memberikan video sumber dan gambar referensi, dan model menghasilkan video output yang mempertahankan latar belakang asli. Fitur ini ideal untuk kasus penggunaan seperti penukaran wajah dan penggantian karakter penuh.

Referensi API deteksi gambar | Referensi API generasi templat aksi | Referensi API generasi video | Harga model

Internasional

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-mix

Video dengan audio, video tanpa suara (tergantung video input)

Mode standar wan-std: Generasi cepat, hemat biaya.
Mode profesional wan-pro: Hasil lebih realistis.

Gambar, video

Opsi resolusi: 720P

Durasi video: 2d < durasi < 30d

Spesifikasi tetap:

Mode standar wan-std: 15 fps, MP4 (encoding H.264)
Mode profesional wan-pro: 25 fps, MP4 (encoding H.264)

Tiongkok daratan

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-mix

Video dengan audio, video tanpa suara (tergantung video input)

Mode standar wan-std: Generasi cepat, hemat biaya.
Mode profesional wan-pro: Hasil lebih realistis.

Gambar, video

Opsi resolusi: 720P

Durasi video: 2d < durasi < 30d

Spesifikasi tetap:

Mode standar wan-std: 15 fps, MP4 (encoding H.264)
Mode profesional wan-pro: 25 fps, MP4 (encoding H.264)

Video input	Gambar karakter input untuk penggantian	Video output (mode standar `wan-std`)	Video output (mode profesional `wan-pro`)

AnimateAnyone

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Kami merekomendasikan menggunakan Wan - image-to-action dan Wan - penukaran karakter video sebagai pengganti AnimateAnyone. Model-model ini menawarkan kualitas lebih baik, sedangkan AnimateAnyone adalah opsi yang lebih hemat biaya.

Dirancang khusus untuk menari, model ini mengganti penari dalam video dengan seseorang dari gambar. Anda memberikan gambar dan video untuk menghasilkan video output dengan dua cara: 1. Pertahankan latar belakang gambar. 2. Pertahankan latar belakang video.

Model	Fitur	Modalitas input	Deskripsi output
animate-anyone-detect-gen2	Deteksi gambar	Gambar	Status deteksi output: Lulus atau Gagal
animate-anyone-template-gen2	Generasi templat video tari Mengekstraksi templat aksi dari video tari.	Video	Menghasilkan ID templat aksi tari.
animate-anyone-gen2	Generasi video Video tanpa suara	Gambar, video, ID templat aksi tari	Opsi resolusi video: 720P Durasi video: 2d ≤ durasi ≤ 60d Spesifikasi tetap: 15 fps, MP4 (encoding H.264)

Gambar karakter input	Video tari input	Video output (dihasilkan dengan latar belakang gambar)	Video output (dihasilkan dengan latar belakang video)

EMO

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Pertimbangkan untuk menggunakan Wan - manusia digital sebagai alternatif untuk EMO. Wan - manusia digital memberikan hasil yang lebih baik, sedangkan EMO adalah opsi yang lebih hemat biaya.

Menghasilkan video bernyanyi dan pertunjukan dari gambar. Anda memberikan gambar dan file audio, dan model secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan gerakan kepala yang tersinkronisasi.

Referensi API deteksi gambar | Referensi API generasi video | Harga model

Model

Fitur

Modalitas input

Deskripsi output

emo-detect-v1

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

emo-v1

Generasi video

Video dengan audio

Gambar, audio

Resolusi video:

Aspek rasio 1:1: Tetap pada 512 × 512
Aspek rasio 3:4: Tetap pada 512 × 704

Durasi video: Hingga 60d

Spesifikasi tetap: 15 fps, MP4 (encoding H.264)

Contoh input (gambar potret + audio)

Video output (nyanyian sinkronisasi bibir)

15_原图

Input audio:

LivePortrait

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Pertimbangkan untuk menggunakan Wan - manusia digital sebagai alternatif untuk LivePortrait. Wan - manusia digital memberikan hasil berkualitas lebih tinggi, sedangkan LivePortrait adalah opsi yang lebih hemat biaya. Perhatikan bahwa LivePortrait cocok untuk menghasilkan video panjang (lebih dari 20 detik).

Menghasilkan video narasi dari gambar dengan menganimasikan orang dalam gambar untuk menyampaikan berita atau bercerita. Anda memberikan Gambar dan file Audio, dan model secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan gerakan kepala ringan yang tersinkronisasi.

Referensi API deteksi gambar | Referensi API generasi video | Harga model

Model

Fitur

Modalitas input

Deskripsi output

liveportrait-detect

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

liveportrait

Generasi video

Video dengan audio

Gambar, audio

Resolusi video: Mengikuti gambar input, hingga hampir 4K (4096 × 4096).

Durasi video: 1d < durasi < 180d

Laju frame video: 15 fps ≤ laju frame ≤ 30 fps

Format video: MP4 (encoding H.264)

Contoh input (gambar potret + audio)

Video output (pengisi suara sinkronisasi bibir)

Emoji男孩

Input audio:

Emoji

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Membuat emoji menggunakan templat emoji tetap. Anda memberikan gambar dan ID templat emoji untuk menghasilkan video emoji.

Referensi API deteksi gambar | Referensi API generasi video | Harga model

Model

Fitur

Modalitas input

Deskripsi output

emoji-detect-v1

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

emoji-v1

Generasi video

Video tanpa suara

Gambar, ID templat emoji

Resolusi video: Tetap pada 512 × 512

Durasi video: Hingga 5d (mengikuti durasi templat)

Spesifikasi tetap: 15 fps, MP4 (encoding H.264)

Gambar potret input	Video output (emoji "jijik")

VideoRetalk

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Sinkronisasi bibir: Mengganti gerakan bibir dalam video agar sesuai dengan trek audio baru. Anda memberikan video dan file audio, dan model menghasilkan video output dengan gerakan bibir yang tersinkronisasi.

Model

Fitur

Modalitas input

Spesifikasi video output

videoretalk

Video dengan audio

Video, audio

Resolusi video: Mengikuti video input, hingga hampir 2K (2048 × 2048).

Durasi video: 2d < durasi < 120d

Laju frame video: 15 fps ≤ laju frame ≤ 60 fps

Format video: MP4 (encoding H.264)

Contoh input (video siaran karakter + audio)	Video output (penggantian sinkronisasi bibir)
Input audio:

Transformasi gaya video

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Menerapkan gaya artistik baru ke video berdasarkan templat gaya yang telah ditentukan. Anda memberikan video dan ID transfer gaya untuk menghasilkan video bergaya ulang.