All Products
Search
Document Center

Alibaba Cloud Model Studio:Pembuatan video

Last Updated:Apr 02, 2026

Alibaba Cloud Model Studio menyediakan berbagai model pembuatan video untuk memenuhi kebutuhan yang beragam—mulai dari pembuatan umum (text-to-video, image-to-video, reference-to-video, dan pengeditan video) hingga skenario vertikal seperti sinkronisasi bibir manusia digital, image-to-action, penukaran karakter video, dan pembuatan emoji.

Ikhtisar model

Cakupan Penerapan Layanan

Bandingkan cakupan penerapan

Global

Sumber daya komputasi inferensi model dijadwalkan secara global.

Internasional

Sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

AS

Sumber daya komputasi inferensi model dibatasi hanya di AS.

Tiongkok daratan

Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Wilayah Akses

Virginia

Singapura

AS (Virginia)

Beijing

Model yang Didukung

Wanxiang - Text-to-video

Wanxiang - Image-to-video dari frame pertama

Wanxiang - Reference-to-video

Wanxiang - Text-to-video

Wanxiang - Image-to-video dari frame pertama

Wanxiang - Image-to-video dari frame pertama dan terakhir

Wanxiang (reference-to-video)

Wanxiang - Pengeditan video umum

Wanxiang - Image-to-action

Wanxiang - Penukaran karakter video

Wanxiang - Text-to-video

Wanxiang - Image-to-video dari frame pertama

Wanxiang - Text-to-video

Wanxiang - Image-to-video dari frame pertama

Wanxiang - Image-to-video dari frame pertama dan terakhir

Wanxiang (reference-to-video)

Wanxiang - Pengeditan video umum

Wanxiang - Manusia Digital

Wanxiang - Image-to-action

Wanxiang - Penukaran karakter video

AnimateAnyone

EMO

LivePortrait

Emoji

VideoRetalk

Transfer gaya video

Pemilihan model

  • Pembuatan video umum

  • Sinkronisasi bibir manusia digital: Menganimasikan foto statis agar subjek berbicara, bernyanyi, atau bercerita. Latar belakang tetap tidak berubah; hanya wajah, kepala, dan tubuh subjek yang bergerak.

    • Untuk hasil paling alami—termasuk ekspresi wajah dan gerakan kepala—gunakan Wanxiang - Manusia Digital. Model ini menggantikan EMO.

    • Untuk video panjang (>20 detik) dengan gerakan kepala sederhana, seperti laporan berita, pertimbangkan menggunakan LivePortrait.

  • Transfer gerakan video: Menjaga latar belakang foto tetap tidak berubah dan menganimasikan subjek dalam foto berdasarkan video referensi. Gunakan Wanxiang - Image-to-action.

  • Penukaran karakter video: Menjaga latar belakang video tetap tidak berubah dan mengganti subjek dalam video dengan orang dari gambar tertentu. Gunakan Wanxiang - Penukaran karakter video.

  • Penukaran karakter tari: Mengganti subjek dalam video tari dengan orang dari gambar. Untuk hasil terbaik, gunakan Wanxiang - Image-to-action dan Wanxiang - Penukaran karakter video. Untuk opsi yang lebih hemat biaya, gunakan AnimateAnyone.

  • Penggantian gerakan bibir video: Mengganti gerakan bibir dalam video yang sudah ada agar sesuai dengan voice-over baru. Gunakan VideoRetalk.

  • Pembuatan emoji: Membuat emoji dari templat gaya tetap. Gunakan Emoji.

  • Penggambaran ulang video: Untuk menggunakan templat gaya tetap, gunakan Transfer gaya video. Untuk mendeskripsikan gaya secara bebas menggunakan prompt, gunakan Wanxiang - Pengeditan video umum.

  • Pengeditan video: Untuk kebutuhan berikut, gunakan Wanxiang - Pengeditan video umum.

    • Pengeditan video lokal: Ganti subjek atau pakaian dalam video, hapus pejalan kaki, dan lakukan pengeditan serupa lainnya.

    • Perpanjangan video: Perpanjang durasi video—misalnya, dari 1 detik menjadi 5 detik.

    • Ekspansi frame video: Ubah orientasi video dari landscape menjadi portrait atau isi area kosong di tepinya.

    • Generasi referensi multi-gambar: Gabungkan gambar latar belakang dan gambar subjek untuk menghasilkan video.

Model yang didukung

Wanxiang - Text-to-video

Menghasilkan video dari prompt teks. Model ini mendukung input teks dan audio untuk menghasilkan video sinematik multi-shot.

Referensi APIHarga model|Coba online: Singapura, AS (Virginia), Beijing

Global

Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-t2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5s, 10s, 15s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-t2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.5-t2v-preview Direkomendasikan

Video dengan audio

Sinkronisasi audio-video

Teks, audio

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5s, 10s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.2-t2v-plus

Video tanpa audio

Peningkatan stabilitas keseluruhan dan tingkat keberhasilan yang lebih tinggi dibandingkan Model 2.1.

Teks

Opsi resolusi: 480P, 1080P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.1-t2v-turbo

Video tanpa audio

Teks

Opsi resolusi: 480P, 720P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.1-t2v-plus

Video tanpa audio

Teks

Opsi resolusi: 720P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

AS

Jika cakupan penerapan layanan adalah AS, data disimpan di wilayah akses AS (Virginia), dan sumber daya komputasi inferensi model dibatasi hanya di AS.

Model

Fitur

Modalitas input

Spesifikasi Video Keluaran

wan2.6-t2v-us Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5s, 10s, 15s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-t2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.5-t2v-preview Direkomendasikan

Video dengan audio

Sinkronisasi audio-video

Teks, audio

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5s, 10s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.2-t2v-plus

Video tanpa audio

Meningkatkan stabilitas dan tingkat keberhasilan secara komprehensif dibandingkan Model 2.1.

Teks

Opsi resolusi: 480P, 1080P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wanx2.1-t2v-turbo

Video tanpa audio

Teks

Opsi resolusi: 480P, 720P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wanx2.1-t2v-plus

Video tanpa audio

Teks

Opsi resolusi: 720P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

Input prompt

Video output (wan2.6, video multi-shot)

Cuplikan dari sudut rendah, dalam close-up medium, dengan nada hangat, pencahayaan campuran (lampu meja praktis menyatu dengan cahaya mendung dari jendela), pencahayaan samping, dan komposisi sentral. Di kantor detektif klasik, rak buku kayu penuh dengan berkas kasus lama dan asbak. Lampu meja hijau menerangi berkas kasus yang tersebar di tengah meja. Seekor rubah, mengenakan mantel trench coklat tua dan fedora abu-abu muda, duduk di kursi kulit, bulunya merah, ekornya terletak ringan di tepi, jarinya perlahan membalik halaman kuning. Di luar, hujan gerimis turun di bawah langit biru, menggores kaca dengan garis-garis berkelok. Ia perlahan mengangkat kepalanya, telinganya bergerak sedikit, matanya yang kuning menatap langsung ke kamera, mulutnya bergerak jelas saat berbicara dengan suara halus dan sinis: 'Kasus itu dingin, lebih dingin dari ikan di musim dingin. Tapi setiap ayam punya rahasia, dan aku, untuk satu hal, berniat menemukannya '.

Wanxiang - Image-to-video dari frame pertama

Menghasilkan video dari gambar frame pertama yang diberikan. Model ini mendukung input teks, gambar frame pertama, dan audio untuk menghasilkan video sinematik multi-shot.

Referensi APIHarga model|Coba online: Singapura, AS (Virginia), Beijing

Global

Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5 s, 10 s, 15 s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v-flash Direkomendasikan

Video dengan audio, video tanpa audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.6-i2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.5-i2v-preview

Video dengan audio

Sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5s, 10s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.2-i2v-flash

Video tanpa audio

50% lebih cepat daripada model 2.1

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.2-i2v-plus

Video tanpa audio

Model ini menawarkan peningkatan komprehensif dalam stabilitas dan tingkat keberhasilan dibandingkan model 2.1.

Teks, gambar

Opsi resolusi: 480P, 1080P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.1-i2v-plus

Video tanpa audio

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.1-i2v-turbo

Video tanpa audio

Teks, gambar

Opsi resolusi: 480P, 720P

Durasi video: 3s, 4s, 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

AS

Jika cakupan penerapan layanan adalah AS, data disimpan di wilayah akses AS (Virginia), dan sumber daya komputasi inferensi model dibatasi hanya di AS.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v-us Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: 5s, 10s, 15s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-i2v-flash Direkomendasikan

Video dengan audio, video tanpa audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.6-i2v Direkomendasikan

Video dengan audio

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 15s] (bilangan bulat)

Spesifikasi yang ditetapkan: 30 fps, MP4 (encoding H.264)

wan2.5-i2v-preview

Video dengan audio

Sinkronisasi audio-video

Teks, gambar, audio

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5 detik, 10 detik

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.2-i2v-flash

Video tanpa audio

50% lebih cepat daripada model 2.1

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5 detik

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wan2.2-i2v-plus

Video tanpa audio

Stabilitas dan tingkat keberhasilan telah ditingkatkan secara komprehensif dibandingkan dengan Model 2.1.

Teks, gambar

Opsi resolusi: 480P, 1080P

Durasi video: 5 detik

Spesifikasi yang ditetapkan: 30 fps, MP4 (encoding H.264)

wanx2.1-i2v-plus

Video tanpa audio

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5 dtk

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

wanx2.1-i2v-turbo

Video tanpa audio

Teks, gambar

Opsi resolusi: 480P, 720P

Durasi video: 3s, 4s, 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264) 

Input prompt

Input first frame image and audio

Output video (wan2.6, multi-shot video)

Sebuah adegan seni fantasi urban. Karakter seni grafiti yang dinamis. Seorang anak laki-laki yang terbuat dari cat semprot hidup dari dinding beton. Ia membawakan lagu rap berbahasa Inggris dengan kecepatan tinggi sambil mengambil pose rapper klasik yang penuh energi. Adegan ini berlatar di bawah jembatan rel kereta perkotaan pada malam hari. Cahaya berasal dari satu lampu jalan, menciptakan suasana sinematik yang penuh energi dan detail luar biasa. Audio video ini sepenuhnya terdiri dari rap-nya, tanpa dialog atau kebisingan lainnya.

rap-转换自-png

Input audio:

Wanxiang - Image-to-video dari frame pertama dan terakhir

Menghasilkan video dengan transisi alami antara gambar frame pertama dan frame terakhir yang diberikan. Model ini mendukung input berupa teks, gambar frame pertama, gambar frame terakhir, dan audio untuk menghasilkan video sinematik multi-shot.

Referensi APIHarga modelCoba online

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di Wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalities input

Spesifikasi video output

wan2.2-kf2v-flash Recommended

Video tanpa audio

Stabilitas keseluruhan dan tingkat keberhasilan telah meningkat dibandingkan model 2.1.

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5 detik

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wan2.1-kf2v-plus

Video tanpa audio

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5 detik

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di Wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalities input

Spesifikasi video output

wan2.2-kf2v-flash Recommended

Video tanpa audio

Stabilitas keseluruhan dan tingkat keberhasilan telah meningkat dibandingkan model 2.1.

Teks, gambar

Opsi resolusi: 480P, 720P, 1080P

Durasi video: 5 detik

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

wanx2.1-kf2v-plus

Video tanpa audio

Teks, gambar

Opsi resolusi: 720P

Durasi video: 5 detik

Spesifikasi tetap: 30 fps, MP4 (encoding H.264)

Gambar frame pertama input

Masukkan gambar bingkai terakhir

Prompt input

Video output

first_frame

last_frame

Gaya fotorealistik. Seekor kucing hitam kecil menatap langit dengan rasa ingin tahu. Kamera mulai dari ketinggian mata, perlahan naik, dan berakhir dengan bidikan dari atas ke bawah yang menangkap tatapan penasaran kucing tersebut.

Wanxiang - Reference-to-Video

Menjadikan karakter dari video tertentu melakukan aksi. Model ini mengambil video dan prompt teks sebagai input untuk menghasilkan video yang menjaga konsistensi karakter.

Referensi APIHarga model

Global

Ketika cakupan penerapan layanan adalah Global, penyimpanan data berada di wilayah akses AS (Virginia) atau Jerman (Frankfurt). Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v Direkomendasikan

Video dengan audio

Karakter tunggal atau jamak ke dalam video

Narasi multi-shot, sinkronisasi audio-video

Teks, video

Opsi resolusi: 720P, 1080P

Durasi video: 5s, 10s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v-flash Direkomendasikan

Video dengan atau tanpa audio

Karakter tunggal atau multi menjadi video

Narasi multi-shot, sinkronisasi audio-video

Cepat dan hemat biaya

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.6-r2v

Video dengan audio

Reference-to-video multi-peran

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.6-r2v-flash Direkomendasikan

Video dengan atau tanpa audio

Konversi karakter tunggal atau multi menjadi video

Narasi multi-shot, sinkronisasi audio-video

Cepat dan hemat biaya

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

wan2.6-r2v

Video dengan audio

Konversi karakter tunggal atau multi-karakter menjadi video

Narasi multi-shot, sinkronisasi audio-video

Teks, gambar, video

Opsi resolusi: 720P, 1080P

Durasi video: [2s, 10s] (bilangan bulat)

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Video referensi input 1 (peran: anak perempuan kecil)

Video referensi input 2 (peran: jam alarm)

Input prompt

Video output (dialog multi-peran)

character1 berkata kepada character2: "Aku akan mengandalkanmu besok pagi!" character2 menjawab: "Kamu bisa mengandalkanku!"

Wanxiang - Pengeditan video umum

Model pengeditan video tujuan umum. Model ini mendukung input multi-modal seperti teks, gambar, dan video untuk melakukan berbagai tugas generasi dan pengeditan video.

Referensi APIHarga model

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.1-vace-plus

Video tanpa audio

Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video

Teks, gambar, video

Opsi resolusi: 720P

Durasi video: Hingga 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wanx2.1-vace-plus

Video tanpa audio

Referensi multi-gambar, penggambaran ulang video, pengeditan lokal, perpanjangan video, ekspansi frame video

Teks, gambar, video

Opsi resolusi: 720P

Durasi video: Hingga 5s

Spesifikasi yang ditentukan: 30 fps, MP4 (encoding H.264)

  • Fitur 1: Referensi multi-gambar

    Referensi 1 (entitas)

    Referensi 2 (Latar Belakang)

    Prompt input

    Video output

    image

    image

    Dalam video, seorang gadis berjalan anggun dari kedalaman hutan berkabut kuno. Langkah-langkahnya ringan, dan kamera menangkap setiap gerakan lincahnya. Ketika ia berhenti dan melihat sekeliling ke hutan yang rindang, senyum kejutan dan sukacita merekah di wajahnya. Adegan ini merekam pertemuannya yang indah dengan alam.

  • Fitur 2: Penggambaran ulang video

    Video input

    Input prompt

    Video output

    Video menunjukkan sebuah mobil bergaya steampunk hitam yang dikendarai seorang pria, dihiasi roda gigi dan pipa tembaga. Latar belakangnya adalah pabrik permen berbasis uap dengan elemen retro, menciptakan adegan vintage dan menyenangkan.

  • Fitur 3: Pengeditan video lokal

    Video masukan

    Gambar mask input (area putih menunjukkan area pengeditan)

    Prompt input

    Video output

    mask

    Video menunjukkan kafe Prancis bergaya Paris. Seekor singa berjas dengan elegan menyesap kopi. Ia memegang cangkir kopi dan minum dengan ekspresi puas. Kafenya didekorasi dengan selera. Nuansa lembut dan cahaya hangat menerangi singa tersebut.

  • Fitur 4: Perpanjangan video

    Segmen video input pertama (1 detik)

    Prompt input

    Video output (video yang diperpanjang menjadi 5 detik)

    Seekor anjing memakai kacamata hitam berseluncur di jalan. Gaya kartun 3D.

  • Fitur 5: Ekspansi frame video

    Video input

    Prompt input

    Video output

    Seorang wanita elegan bermain biola dengan penuh semangat. Orkestra simfoni lengkap berada di belakangnya.

Wanxiang - Manusia Digital

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Sinkronisasi bibir manusia digital: menganimasikan orang atau karakter kartun dalam gambar untuk berbicara, bernyanyi, bercerita, atau tampil (menghasilkan video pertunjukan dan narasi dari gambar). Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, serta gerakan kepala dan tubuh yang sesuai untuk orang atau karakter kartun tersebut.

Referensi API deteksi gambarReferensi API generasi videoHarga model

Model

Fitur

Modalitas input

Detail Keluaran

wan2.2-s2v-detect

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

wan2.2-s2v

Generasi video

Video dengan audio

Gambar, audio

Opsi resolusi: 480P, 720P

Durasi video: Hingga 20s (sesuai durasi audio)

Spesifikasi yang ditentukan:

  • 480P: 16 fps, MP4 (encoding H.264)

  • 720P: 30 fps, MP4 (encoding H.264)

Contoh input (gambar orang + audio)

Video output (sinkronisasi bibir)

mix_input_image

Audio input:

Wanxiang - Image-to-action

Menganimasikan orang dalam gambar berdasarkan video referensi. Model ini mengambil gambar dan video sebagai input dan menghasilkan video di mana latar belakang gambar tetap tidak berubah sementara orang tersebut melakukan aksi dari video referensi.

Referensi APIHarga model

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-move

Video dengan atau tanpa audio (tergantung pada video input)

  • Mode Standar wan-std: Generasi cepat dan hemat biaya

  • Mode Profesional wan-pro: Hasil lebih mirip rekaman nyata

Gambar, video

Opsi resolusi: 720P

Durasi video: 2s < durasi < 30s

Spesifikasi yang ditentukan:

  • Mode Standar wan-std: 15 fps, MP4 (encoding H.264)

  • Mode Profesional wan-pro: 25 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-move

Video dengan atau tanpa audio (tergantung pada video input)

  • Mode Standar wan-std: Generasi cepat dan hemat biaya

  • Mode Profesional wan-pro: Hasil lebih mirip rekaman nyata

Gambar, video

Opsi resolusi: 720P

Durasi video: 2s < durasi < 30s

Spesifikasi:

  • Mode Standar wan-std: 15 fps, MP4 (encoding H.264)

  • Mode Profesional wan-pro: 25 fps, MP4 (encoding H.264)

Input gambar orang

Video referensi input

Video output (Mode Standar wan-std)

Video output (Mode Profesional wan-pro)

move_input_image

Wanxiang - Penukaran karakter video

Mengganti orang dalam video dengan orang dari gambar. Model ini mengambil video dan gambar pengganti sebagai input dan menghasilkan video yang mempertahankan latar belakang asli, memungkinkan fitur seperti penukaran wajah dan penggantian karakter.

Referensi APIHarga model

Internasional

Jika cakupan penerapan layanan adalah Internasional, data disimpan di wilayah akses Singapura, dan sumber daya komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-mix

Video dengan atau tanpa audio (tergantung pada video input)

  • Mode Standar wan-std: Generasi cepat dan hemat biaya

  • Mode Profesional wan-pro: Hasil lebih mirip rekaman nyata

Gambar, video

Opsi resolusi: 720P

Durasi video: 2s < durasi < 30s

Spesifikasi yang ditentukan:

  • Mode Standar wan-std: 15 fps, MP4 (encoding H.264)

  • Mode Profesional wan-pro: 25 fps, MP4 (encoding H.264)

Tiongkok daratan

Jika cakupan penerapan layanan adalah Tiongkok daratan, data disimpan di wilayah akses Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Model

Fitur

Modalitas input

Spesifikasi video output

wan2.2-animate-mix

Video dengan atau tanpa audio (tergantung pada video input)

  • Mode Standar wan-std: Generasi cepat dan hemat biaya

  • Mode Profesional wan-pro: Hasil lebih mirip rekaman nyata

Gambar, video

Opsi resolusi: 720P

Durasi video: 2s < durasi < 30s

Spesifikasi yang ditentukan:

  • Mode Standar wan-std: 15 fps, MP4 (encoding H.264)

  • Mode Profesional wan-pro: 25 fps, MP4 (encoding H.264)

Video input

Gambar orang yang akan ditukar

Video output (Mode Standar wan-std)

Video output (Mode Profesional wan-pro)

mix_input_image

AnimateAnyone

Catatan
  • Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

  • Kami menyarankan menggunakan Wanxiang - Image-to-action dan Wanxiang - Penukaran karakter video untuk menggantikan AnimateAnyone. Model-model tersebut memberikan hasil yang lebih baik, sedangkan AnimateAnyone lebih hemat biaya.

Penukaran karakter tari: dirancang khusus untuk menari, model ini mengganti penari dalam video dengan orang dari gambar. Model ini mengambil gambar dan video sebagai input dan mendukung dua metode output: 1. Mempertahankan latar belakang gambar. 2. Mempertahankan latar belakang video.

Referensi API deteksi gambar | Referensi API generasi templat aksi | Referensi API generasi videoHarga model

Model

Fitur

Modalitas input

Detail output

animate-anyone-detect-gen2

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

animate-anyone-template-gen2

Generasi templat video tari

Menambang templat aksi dari video tari.

Video

Menghasilkan ID templat aksi tari

animate-anyone-gen2

Generasi video

Video tanpa audio

Gambar, video, ID templat aksi tari

Opsi resolusi video: 720P

Durasi video: 2sdurasi60s

Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264)

Gambar orang input

Masukkan video tarian

Video output (dihasilkan dengan latar belakang gambar)

Video output (dihasilkan dengan latar belakang video)

05-9_16

EMO

Catatan
  • Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

  • Kami menyarankan menggunakan Wanxiang - Manusia Digital untuk menggantikan EMO. Yang pertama memberikan hasil yang lebih baik, sedangkan EMO lebih hemat biaya.

Menghasilkan video bernyanyi atau pertunjukan dari gambar: menganimasikan orang dalam gambar untuk bernyanyi atau tampil. Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan gerakan kepala yang sesuai.

Referensi API deteksi gambarReferensi API generasi videoHarga model

Model

Fitur

Modalitas input

Detail output

emo-detect-v1

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

emo-v1

Generasi video

Video dengan audio

Gambar, audio

Resolusi video:

  • Aspek rasio 1:1: Tetap pada 512×512

  • Aspek rasio 3:4: Tetap pada 512×704

Durasi video: Hingga 60s

Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264)

Contoh input (gambar potret + audio)

Video output (sinkronisasi bibir bernyanyi)

15_原图

Audio input:

LivePortrait

Catatan
  • Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

  • Kami menyarankan menggunakan Wanxiang - Manusia Digital untuk menggantikan LivePortrait. Yang pertama memberikan hasil yang lebih baik, sedangkan LivePortrait lebih hemat biaya. Perhatikan bahwa LivePortrait dapat dipilih untuk video panjang (>20 detik).

Menghasilkan video narasi dari gambar: menganimasikan orang dalam gambar untuk melaporkan berita atau bercerita. Model ini mengambil gambar dan file audio sebagai input dan secara otomatis menghasilkan video dengan gerakan bibir, ekspresi wajah, dan sedikit gerakan kepala yang sesuai.

Referensi API deteksi gambarReferensi API generasi videoHarga model

Model

Fitur

Modalitas input

Detail output

liveportrait-detect

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

liveportrait

Generasi video

Video dengan audio

Gambar, audio

Resolusi video: Sesuai gambar input, hingga hampir 4K (4096×4096)

Durasi video: 1s < durasi < 180s

Laju frame video: 15 fps ≤ laju frame ≤ 30 fps

Format video: MP4 (encoding H.264)

Contoh input (gambar potret + audio)

Video output (sinkronisasi bibir voice-over)

Emoji男孩

Audio input:

Emoji

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Membuat emoji dari templat emoji tetap. Model ini mengambil gambar dan ID emoji tertentu sebagai input untuk menghasilkan video emoji.

Referensi API deteksi gambarReferensi API generasi videoHarga model

Model

Fitur

Modalitas input

Detail output

emoji-detect-v1

Deteksi gambar

Gambar

Status deteksi output: Lulus atau Gagal

emoji-v1

Generasi video

Video tanpa audio

Gambar, ID templat emoji

Resolusi video: Tetap pada 512×512

Durasi video: Hingga 5s (sesuai durasi templat)

Spesifikasi yang ditentukan: 15 fps, MP4 (encoding H.264)

Masukkan gambar potret

Video output ("emoji jijik")

image.png

VideoRetalk

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Penggantian gerakan bibir video: mengganti gerakan bibir dalam video agar sesuai dengan voice-over baru. Model ini mengambil video dan file audio sebagai input dan menghasilkan video di mana gerakan bibir orang tersebut disinkronkan dengan audio.

Referensi APIHarga model

Model

Fitur

Modalitas input

Spesifikasi video output

videoretalk

Video dengan audio

Video, audio

Resolusi video: Sesuai video input, hingga hampir 2K (2048×2048)

Durasi video: 2s < durasi < 120s

Laju frame video: 15 fps ≤ laju frame ≤ 60 fps

Format video: MP4 (encoding H.264)

Contoh input (video orang berbicara + audio)

Video output (penggantian sinkronisasi bibir)

Audio input:

Transfer gaya video

Catatan

Hanya cakupan penerapan layanan Tiongkok daratan yang didukung. Penyimpanan data berada di wilayah akses Beijing. Sumber daya komputasi inferensi model dibatasi hanya di Tiongkok daratan.

Menggambar ulang video berdasarkan templat gaya tetap. Menghasilkan video yang digambar ulang dari video input dan ID gaya tertentu.

Referensi APIHarga model

Model

Fitur

Modalitas input

Spesifikasi video output

video-style-transform

Video dengan atau tanpa audio

Tergantung pada video input.

Video, ID gaya gambar ulang

Resolusi video: Sesuai video input, hingga hampir 4K (4096×4096)

Durasi video: Hingga 30s

Laju frame video: 15 fps ≤ laju frame ≤ 25 fps

Format video: MP4 (encoding H.264)

Video input

Video output (opsi transfer gaya: "manga Jepang")