Alibaba Cloud Model Studio menyediakan berbagai model pembuatan video untuk memenuhi kebutuhan yang beragam—mulai dari pembuatan umum (text-to-video, image-to-video, reference-to-video, dan pengeditan video) hingga skenario vertikal seperti sinkronisasi bibir manusia digital, image-to-action, penukaran karakter video, dan pembuatan emoji.
Ikhtisar model
Cakupan Penerapan Layanan Bandingkan cakupan penerapan | Global Sumber daya komputasi inferensi model dijadwalkan secara global. | Internasional Sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan. | AS Sumber daya komputasi inferensi model dibatasi hanya di AS. | Tiongkok daratan Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan. |
Wilayah Akses | Virginia | Singapura | AS (Virginia) | Beijing |
Model yang Didukung | Wanxiang - Image-to-video dari frame pertama Wanxiang - Image-to-video dari frame pertama dan terakhir | Wanxiang - Image-to-video dari frame pertama Wanxiang - Image-to-video dari frame pertama dan terakhir Wanxiang - Pengeditan video umum |
Pemilihan model
Pembuatan video umum
Untuk mengonversi teks menjadi video, gunakan Wanxiang - Text-to-video.
Untuk menghasilkan cuplikan sinematik dari gambar, gunakan Wanxiang - Image-to-video dari frame pertama.
Untuk mengontrol transisi visual antara gambar awal dan akhir, gunakan Wanxiang - Image-to-video dari frame pertama dan terakhir.
Untuk mereplikasi penampilan dan suara karakter dari beberapa video agar menyampaikan skrip baru, gunakan Wanxiang - Reference-to-video.
Sinkronisasi bibir manusia digital: Menganimasikan foto statis agar subjek berbicara, bernyanyi, atau bercerita. Latar belakang tetap tidak berubah; hanya wajah, kepala, dan tubuh subjek yang bergerak.
Untuk hasil paling alami—termasuk ekspresi wajah dan gerakan kepala—gunakan Wanxiang - Manusia Digital. Model ini menggantikan EMO.
Untuk video panjang (>20 detik) dengan gerakan kepala sederhana, seperti laporan berita, pertimbangkan menggunakan LivePortrait.
Transfer gerakan video: Menjaga latar belakang foto tetap tidak berubah dan menganimasikan subjek dalam foto berdasarkan video referensi. Gunakan Wanxiang - Image-to-action.
Penukaran karakter video: Menjaga latar belakang video tetap tidak berubah dan mengganti subjek dalam video dengan orang dari gambar tertentu. Gunakan Wanxiang - Penukaran karakter video.
Penukaran karakter tari: Mengganti subjek dalam video tari dengan orang dari gambar. Untuk hasil terbaik, gunakan Wanxiang - Image-to-action dan Wanxiang - Penukaran karakter video. Untuk opsi yang lebih hemat biaya, gunakan AnimateAnyone.
Penggantian gerakan bibir video: Mengganti gerakan bibir dalam video yang sudah ada agar sesuai dengan voice-over baru. Gunakan VideoRetalk.
Pembuatan emoji: Membuat emoji dari templat gaya tetap. Gunakan Emoji.
Penggambaran ulang video: Untuk menggunakan templat gaya tetap, gunakan Transfer gaya video. Untuk mendeskripsikan gaya secara bebas menggunakan prompt, gunakan Wanxiang - Pengeditan video umum.
Pengeditan video: Untuk kebutuhan berikut, gunakan Wanxiang - Pengeditan video umum.
Pengeditan video lokal: Ganti subjek atau pakaian dalam video, hapus pejalan kaki, dan lakukan pengeditan serupa lainnya.
Perpanjangan video: Perpanjang durasi video—misalnya, dari 1 detik menjadi 5 detik.
Ekspansi frame video: Ubah orientasi video dari landscape menjadi portrait atau isi area kosong di tepinya.
Generasi referensi multi-gambar: Gabungkan gambar latar belakang dan gambar subjek untuk menghasilkan video.
Model yang didukung
Wanxiang - Text-to-video
Menghasilkan video dari prompt teks. Model ini mendukung input teks dan audio untuk menghasilkan video sinematik multi-shot.
Referensi API|Harga model|Coba online: Singapura, AS (Virginia), Beijing
Global
Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-t2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 720P, 1080P Durasi video: 5s, 10s, 15s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-t2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.5-t2v-preview |
Video dengan audio Sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5s, 10s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-t2v-plus |
Video tanpa audio Peningkatan stabilitas keseluruhan dan tingkat keberhasilan yang lebih tinggi dibandingkan Model 2.1. |
Teks |
Opsi resolusi: 480P, 1080P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.1-t2v-turbo |
Video tanpa audio |
Teks |
Opsi resolusi: 480P, 720P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.1-t2v-plus |
Video tanpa audio |
Teks |
Opsi resolusi: 720P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
AS
Jika cakupan penerapan layanan adalah AS, data disimpan di wilayah akses AS (Virginia), dan sumber daya komputasi inferensi model dibatasi hanya di AS.
|
Model |
Fitur |
Modalitas input |
Spesifikasi Video Keluaran |
|
wan2.6-t2v-us |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 720P, 1080P Durasi video: 5s, 10s, 15s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-t2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.5-t2v-preview |
Video dengan audio Sinkronisasi audio-video |
Teks, audio |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5s, 10s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-t2v-plus |
Video tanpa audio Meningkatkan stabilitas dan tingkat keberhasilan secara komprehensif dibandingkan Model 2.1. |
Teks |
Opsi resolusi: 480P, 1080P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wanx2.1-t2v-turbo |
Video tanpa audio |
Teks |
Opsi resolusi: 480P, 720P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wanx2.1-t2v-plus |
Video tanpa audio |
Teks |
Opsi resolusi: 720P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
Input prompt |
Video output (wan2.6, video multi-shot) |
|
Cuplikan dari sudut rendah, dalam close-up medium, dengan nada hangat, pencahayaan campuran (lampu meja praktis menyatu dengan cahaya mendung dari jendela), pencahayaan samping, dan komposisi sentral. Di kantor detektif klasik, rak buku kayu penuh dengan berkas kasus lama dan asbak. Lampu meja hijau menerangi berkas kasus yang tersebar di tengah meja. Seekor rubah, mengenakan mantel trench coklat tua dan fedora abu-abu muda, duduk di kursi kulit, bulunya merah, ekornya terletak ringan di tepi, jarinya perlahan membalik halaman kuning. Di luar, hujan gerimis turun di bawah langit biru, menggores kaca dengan garis-garis berkelok. Ia perlahan mengangkat kepalanya, telinganya bergerak sedikit, matanya yang kuning menatap langsung ke kamera, mulutnya bergerak jelas saat berbicara dengan suara halus dan sinis: 'Kasus itu dingin, lebih dingin dari ikan di musim dingin. Tapi setiap ayam punya rahasia, dan aku, untuk satu hal, berniat menemukannya '. |
Wanxiang - Image-to-video dari frame pertama
Menghasilkan video dari gambar frame pertama yang diberikan. Model ini mendukung input teks, gambar frame pertama, dan audio untuk menghasilkan video sinematik multi-shot.
Referensi API|Harga model|Coba online: Singapura, AS (Virginia), Beijing
Global
Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-i2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: 5 s, 10 s, 15 s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-i2v-flash |
Video dengan audio, video tanpa audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.6-i2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.5-i2v-preview |
Video dengan audio Sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5s, 10s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-i2v-flash |
Video tanpa audio 50% lebih cepat daripada model 2.1 |
Teks, gambar |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-i2v-plus |
Video tanpa audio Model ini menawarkan peningkatan komprehensif dalam stabilitas dan tingkat keberhasilan dibandingkan model 2.1. |
Teks, gambar |
Opsi resolusi: 480P, 1080P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.1-i2v-plus |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 720P Durasi video: 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.1-i2v-turbo |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 480P, 720P Durasi video: 3s, 4s, 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
AS
Jika cakupan penerapan layanan adalah AS, data disimpan di wilayah akses AS (Virginia), dan sumber daya komputasi inferensi model dibatasi hanya di AS.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-i2v-us |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: 5s, 10s, 15s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-i2v-flash |
Video dengan audio, video tanpa audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.6-i2v |
Video dengan audio Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 15s] (bilangan bulat) Spesifikasi yang ditetapkan: 30 fps, MP4 (encoding H.264) |
|
wan2.5-i2v-preview |
Video dengan audio Sinkronisasi audio-video |
Teks, gambar, audio |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5 detik, 10 detik Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-i2v-flash |
Video tanpa audio 50% lebih cepat daripada model 2.1 |
Teks, gambar |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5 detik Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.2-i2v-plus |
Video tanpa audio Stabilitas dan tingkat keberhasilan telah ditingkatkan secara komprehensif dibandingkan dengan Model 2.1. |
Teks, gambar |
Opsi resolusi: 480P, 1080P Durasi video: 5 detik Spesifikasi yang ditetapkan: 30 fps, MP4 (encoding H.264) |
|
wanx2.1-i2v-plus |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 720P Durasi video: 5 dtk Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wanx2.1-i2v-turbo |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 480P, 720P Durasi video: 3s, 4s, 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
Input prompt |
Input first frame image and audio |
Output video (wan2.6, multi-shot video) |
|
Sebuah adegan seni fantasi urban. Karakter seni grafiti yang dinamis. Seorang anak laki-laki yang terbuat dari cat semprot hidup dari dinding beton. Ia membawakan lagu rap berbahasa Inggris dengan kecepatan tinggi sambil mengambil pose rapper klasik yang penuh energi. Adegan ini berlatar di bawah jembatan rel kereta perkotaan pada malam hari. Cahaya berasal dari satu lampu jalan, menciptakan suasana sinematik yang penuh energi dan detail luar biasa. Audio video ini sepenuhnya terdiri dari rap-nya, tanpa dialog atau kebisingan lainnya. |
Input audio: |
Wanxiang - Image-to-video dari frame pertama dan terakhir
Menghasilkan video dengan transisi alami antara gambar frame pertama dan frame terakhir yang diberikan. Model ini mendukung input berupa teks, gambar frame pertama, gambar frame terakhir, dan audio untuk menghasilkan video sinematik multi-shot.
Referensi API|Harga model|Coba online
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di Wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalities input |
Spesifikasi video output |
|
wan2.2-kf2v-flash |
Video tanpa audio Stabilitas keseluruhan dan tingkat keberhasilan telah meningkat dibandingkan model 2.1. |
Teks, gambar |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5 detik Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
|
wan2.1-kf2v-plus |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 720P Durasi video: 5 detik Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di Wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalities input |
Spesifikasi video output |
|
wan2.2-kf2v-flash |
Video tanpa audio Stabilitas keseluruhan dan tingkat keberhasilan telah meningkat dibandingkan model 2.1. |
Teks, gambar |
Opsi resolusi: 480P, 720P, 1080P Durasi video: 5 detik Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
|
wanx2.1-kf2v-plus |
Video tanpa audio |
Teks, gambar |
Opsi resolusi: 720P Durasi video: 5 detik Spesifikasi tetap: 30 fps, MP4 (encoding H.264) |
|
Gambar frame pertama input |
Masukkan gambar bingkai terakhir |
Prompt input |
Video output |
|
|
|
Gaya fotorealistik. Seekor kucing hitam kecil menatap langit dengan rasa ingin tahu. Kamera mulai dari ketinggian mata, perlahan naik, dan berakhir dengan bidikan dari atas ke bawah yang menangkap tatapan penasaran kucing tersebut. |
Wanxiang - Reference-to-Video
Menjadikan karakter dari video tertentu melakukan aksi. Model ini mengambil video dan prompt teks sebagai input untuk menghasilkan video yang menjaga konsistensi karakter.
Global
Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-r2v |
Video dengan audio Karakter tunggal atau jamak ke dalam video Narasi multi-shot, sinkronisasi audio-video |
Teks, video |
Opsi resolusi: 720P, 1080P Durasi video: 5s, 10s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-r2v-flash |
Video dengan atau tanpa audio Karakter tunggal atau multi menjadi video Narasi multi-shot, sinkronisasi audio-video Cepat dan hemat biaya |
Teks, gambar, video |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.6-r2v |
Video dengan audio Reference-to-video multi-peran Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, video |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.6-r2v-flash |
Video dengan atau tanpa audio Konversi karakter tunggal atau multi menjadi video Narasi multi-shot, sinkronisasi audio-video Cepat dan hemat biaya |
Teks, gambar, video |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
wan2.6-r2v |
Video dengan audio Konversi karakter tunggal atau multi-karakter menjadi video Narasi multi-shot, sinkronisasi audio-video |
Teks, gambar, video |
Opsi resolusi: 720P, 1080P Durasi video: [2s, 10s] (bilangan bulat) Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
|
Video referensi input 1 (peran: anak perempuan kecil) |
Video referensi input 2 (peran: jam alarm) |
Input prompt |
Video output (dialog multi-peran) |
|
character1 berkata kepada character2: "Aku akan mengandalkanmu besok pagi!" character2 menjawab: "Kamu bisa mengandalkanku!" |
Wanxiang - Pengeditan video umum
Model pengeditan video tujuan umum. Model ini mendukung input multi-modal seperti teks, gambar, dan video untuk melakukan berbagai tugas generasi dan pengeditan video.
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.1-vace-plus |
Video tanpa audio Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video |
Teks, gambar, video |
Opsi resolusi: 720P Durasi video: Hingga 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wanx2.1-vace-plus |
Video tanpa audio Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video |
Teks, gambar, video |
Opsi resolusi: 720P Durasi video: Hingga 5s Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) |
-
Fitur 1: Referensi multi-gambar
Referensi 1 (entitas)
Referensi 2 (Latar Belakang)
Prompt input
Video output


Dalam video, seorang gadis berjalan anggun dari kedalaman hutan berkabut kuno. Langkah-langkahnya ringan, dan kamera menangkap setiap gerakan lincahnya. Ketika ia berhenti dan melihat sekeliling ke hutan yang rindang, senyum kejutan dan sukacita merekah di wajahnya. Adegan ini merekam pertemuannya yang indah dengan alam.
-
Fitur 2: Penggambaran ulang video
Video input
Input prompt
Video output
Video menunjukkan sebuah mobil bergaya steampunk hitam yang dikendarai seorang pria, dihiasi roda gigi dan pipa tembaga. Latar belakangnya adalah pabrik permen berbasis uap dengan elemen retro, menciptakan adegan vintage dan menyenangkan.
-
Fitur 3: Pengeditan video lokal
Video masukan
Gambar mask input (area putih menunjukkan area pengeditan)
Prompt input
Video output

Video menunjukkan kafe Prancis bergaya Paris. Seekor singa berjas dengan elegan menyesap kopi. Ia memegang cangkir kopi dan minum dengan ekspresi puas. Kafenya didekorasi dengan selera. Nuansa lembut dan cahaya hangat menerangi singa tersebut.
-
Fitur 4: Perpanjangan video
Segmen video input pertama (1 detik)
Prompt input
Video output (video yang diperpanjang menjadi 5 detik)
Seekor anjing memakai kacamata hitam berseluncur di jalan. Gaya kartun 3D.
-
Fitur 5: Ekspansi frame video
Video input
Prompt input
Video output
Seorang wanita elegan bermain biola dengan penuh semangat. Orkestra simfoni lengkap berada di belakangnya.
Wanxiang - Manusia Digital
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Sinkronisasi bibir manusia digital: menganimasikan orang atau karakter kartun dalam gambar untuk berbicara, bernyanyi, bercerita, atau tampil (menghasilkan video pertunjukan dan narasi dari gambar). Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, serta gerakan kepala dan tubuh yang sesuai untuk orang atau karakter kartun tersebut.
Referensi API deteksi gambar|Referensi API generasi video|Harga model
|
Model |
Fitur |
Modalitas input |
Detail Keluaran |
|
wan2.2-s2v-detect |
Deteksi gambar |
Gambar |
Status deteksi output: Lulus atau Gagal |
|
wan2.2-s2v |
Generasi video Video dengan audio |
Gambar, audio |
Opsi resolusi: 480P, 720P Durasi video: Hingga 20s (sesuai durasi audio) Spesifikasi yang ditentukan:
|
|
Contoh input (gambar orang + audio) |
Video output (sinkronisasi bibir) |
|
Audio input: |
Wanxiang - Image-to-action
Menganimasikan orang dalam gambar berdasarkan video referensi. Model ini mengambil gambar dan video sebagai input dan menghasilkan video di mana latar belakang gambar tetap tidak berubah sementara orang tersebut melakukan aksi dari video referensi.
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.2-animate-move |
Video dengan atau tanpa audio (tergantung pada video input)
|
Gambar, video |
Opsi resolusi: 720P Durasi video: 2s < durasi < 30s Spesifikasi yang ditentukan:
|
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.2-animate-move |
Video dengan atau tanpa audio (tergantung pada video input)
|
Gambar, video |
Opsi resolusi: 720P Durasi video: 2s < durasi < 30s Spesifikasi:
|
|
Input gambar orang |
Video referensi input |
Video output (Mode Standar |
Video output (Mode Profesional |
|
|
Wanxiang - Penukaran karakter video
Mengganti orang dalam video dengan orang dari gambar. Model ini mengambil video dan gambar pengganti sebagai input dan menghasilkan video yang mempertahankan latar belakang asli, memungkinkan fitur seperti penukaran wajah dan penggantian karakter.
Internasional
Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.2-animate-mix |
Video dengan atau tanpa audio (tergantung pada video input)
|
Gambar, video |
Opsi resolusi: 720P Durasi video: 2s < durasi < 30s Spesifikasi yang ditentukan:
|
Tiongkok daratan
Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
wan2.2-animate-mix |
Video dengan atau tanpa audio (tergantung pada video input)
|
Gambar, video |
Opsi resolusi: 720P Durasi video: 2s < durasi < 30s Spesifikasi yang ditentukan:
|
|
Video input |
Gambar orang yang akan ditukar |
Video output (Mode Standar |
Video output (Mode Profesional |
|
|
AnimateAnyone
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Kami menyarankan menggunakan Wanxiang - Image-to-action dan Wanxiang - Penukaran karakter video untuk menggantikan AnimateAnyone. Model-model tersebut memberikan hasil yang lebih baik, sedangkan AnimateAnyone lebih hemat biaya.
Penukaran karakter tari: dirancang khusus untuk menari, model ini mengganti penari dalam video dengan orang dari gambar. Model ini mengambil gambar dan video sebagai input dan mendukung dua metode output: 1. Mempertahankan latar belakang gambar. 2. Mempertahankan latar belakang video.
Referensi API deteksi gambar | Referensi API generasi templat aksi | Referensi API generasi video |Harga model
|
Model |
Fitur |
Modalitas input |
Detail output |
|
animate-anyone-detect-gen2 |
Deteksi gambar |
Gambar |
Status deteksi output: Lulus atau Gagal |
|
animate-anyone-template-gen2 |
Generasi templat video tari Menambang templat aksi dari video tari. |
Video |
Menghasilkan ID templat aksi tari |
|
animate-anyone-gen2 |
Generasi video Video tanpa audio |
Gambar, video, ID templat aksi tari |
Opsi resolusi video: 720P Durasi video: 2s≤durasi≤60s Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264) |
|
Gambar orang input |
Masukkan video tarian |
Video output (dihasilkan dengan latar belakang gambar) |
Video output (dihasilkan dengan latar belakang video) |
|
|
EMO
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Kami menyarankan menggunakan Wanxiang - Manusia Digital untuk menggantikan EMO. Yang pertama memberikan hasil yang lebih baik, sedangkan EMO lebih hemat biaya.
Menghasilkan video bernyanyi atau pertunjukan dari gambar: menganimasikan orang dalam gambar untuk bernyanyi atau tampil. Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan gerakan kepala yang sesuai.
Referensi API deteksi gambar | Referensi API generasi video|Harga model
|
Model |
Fitur |
Modalitas input |
Detail output |
|
emo-detect-v1 |
Deteksi gambar |
Gambar |
Status deteksi output: Lulus atau Gagal |
|
emo-v1 |
Generasi video Video dengan audio |
Gambar, audio |
Resolusi video:
Durasi video: Hingga 60s Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264) |
|
Contoh input (gambar potret + audio) |
Video output (sinkronisasi bibir bernyanyi) |
|
Audio input: |
LivePortrait
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Kami menyarankan menggunakan Wanxiang - Manusia Digital untuk menggantikan LivePortrait. Yang pertama memberikan hasil yang lebih baik, sedangkan LivePortrait lebih hemat biaya. Perhatikan bahwa LivePortrait dapat dipilih untuk video panjang (>20 detik).
Menghasilkan video narasi dari gambar: menganimasikan orang dalam gambar untuk melaporkan berita atau bercerita. Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan sedikit gerakan kepala yang sesuai.
Referensi API deteksi gambar | Referensi API generasi video|Harga model
|
Model |
Fitur |
Modalitas input |
Detail output |
|
liveportrait-detect |
Deteksi gambar |
Gambar |
Status deteksi output: Lulus atau Gagal |
|
liveportrait |
Generasi video Video dengan audio |
Gambar, audio |
Resolusi video: Sesuai gambar input, hingga hampir 4K (4096×4096) Durasi video: 1s < durasi < 180s Laju frame video: 15 fps ≤ laju frame ≤ 30 fps Format video: MP4 (encoding H.264) |
|
Contoh input (gambar potret + audio) |
Video output (sinkronisasi bibir voice-over) |
|
Audio input: |
Emoji
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Membuat emoji dari templat emoji tetap. Model ini mengambil gambar dan ID emoji tertentu sebagai input untuk menghasilkan video emoji.
Referensi API deteksi gambar | Referensi API generasi video | Harga model
|
Model |
Fitur |
Modalitas input |
Detail output |
|
emoji-detect-v1 |
Deteksi gambar |
Gambar |
Status deteksi output: Lulus atau Gagal |
|
emoji-v1 |
Generasi video Video tanpa audio |
Gambar, ID templat emoji |
Resolusi video: Tetap pada 512×512 Durasi video: Hingga 5s (sesuai durasi templat) Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264) |
|
Masukkan gambar potret |
Video output ("emoji jijik") |
|
|
VideoRetalk
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Penggantian gerakan bibir video: mengganti gerakan bibir dalam video agar sesuai dengan voice-over baru. Model ini mengambil video dan file audio sebagai input dan menghasilkan video di mana gerakan bibir orang tersebut disinkronkan dengan audio.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
videoretalk |
Video dengan audio |
Video, audio |
Resolusi video: Sesuai video input, hingga hampir 2K (2048×2048) Durasi video: 2s < durasi < 120s Laju frame video: 15 fps ≤ laju frame ≤ 60 fps Format video: MP4 (encoding H.264) |
|
Contoh input (video orang berbicara + audio) |
Video output (penggantian sinkronisasi bibir) |
|
Audio input: |
Transfer gaya video
Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.
Menggambar ulang video berdasarkan templat gaya tetap. Menghasilkan video yang digambar ulang dari video input dan ID gaya tertentu.
|
Model |
Fitur |
Modalitas input |
Spesifikasi video output |
|
video-style-transform |
Video dengan atau tanpa audio Tergantung pada video input. |
Video, ID gaya gambar ulang |
Resolusi video: Sesuai video input, hingga hampir 4K (4096×4096) Durasi video: Hingga 30s Laju frame video: 15 fps ≤ laju frame ≤ 25 fps Format video: MP4 (encoding H.264) |
|
Video input |
Video output (opsi transfer gaya: "manga Jepang") |








