Oleh Farruh
Di era AI Generatif (GenAI), Model Bahasa Besar (LLM) tidak lagi terbatas pada teks. Model multimodal seperti Qwen2.5 Omni menjembatani celah antara teks, gambar, audio, dan video, yang memungkinkan AI untuk berpikir, melihat, mendengar, dan berbicara - seperti kita manusia.
1. Pengodean Posisional TMRoPE:
2. Arsitektur Thinker-Talker:
3. Efisiensi Streaming:
Tugas | Qwen 2.5-Omni | Qwen2.5-VL | GPT-4o-Mini | Mutakhir |
---|---|---|---|---|
Gambar→Teks | 59,2 (MMMUval) | 58,6 | 60,0 | 53,9 (Lainnya) |
Video→Teks | 72,4 (Video-MME) | 65,1 | 64,8 | 63,9 (Lainnya) |
Penalaran Multimodal | 81,8 (MMBench) | T/A | 76,0 | 80,5 (Lainnya) |
Pembuatan Ucapan | 1,42% WER (Mandarin) | T/A | T/A | 2,33% (Inggris) |
1. Buka Model Studio Alibaba Cloud atau tautan Halaman pendahuluan Model Studio.
2. Cari "Qwen2.5-Omni" dan buka halamannya.
3. Otorisasi akses ke model (gratis untuk penggunaan dasar).
Pengaturan yang memprioritaskan keamanan:
1. Buat lingkungan virtual (disarankan):
python -m venv qwen-env
source qwen-env/bin/activate # Linux/MacOS | Windows: qwen-env\Scripts\activate
2. Instal dependensi:
pip install openai
3. Simpan kunci API dengan aman:
Buat file .env
di direktori proyek Anda:
DASHSCOPE_API_KEY=your_api_key_here
Gunakan pustaka OpenAI untuk berinteraksi dengan Qwen2.5-Omni:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
# Example: Text + Audio Output
completion = client.chat.completions.create(
model="qwen2.5-omni-7b",
messages=[{"role": "user", "content": "Siapa Anda?"}],
modalities=["text", "audio"], # Tentukan format output (teks/audio)
audio={"voice": "Chelsie", "format": "wav"},
stream=True, # Aktifkan streaming real-time
stream_options={"include_usage": True},
)
# Proses respons streaming
untuk potongan saat selesai:
if chunk.choices:
print("Partial response:", chunk.choices[0].delta)
else:
print("Usage stats:", chunk.usage)
Fitur | Detail |
---|---|
Jenis Input | Teks, gambar, audio, video (melalui URL/Base64) |
Modalitas Output | Tentukan parameter modalitas (misalnya, ["text", "audio"] untuk output ganda) |
Dukungan Streaming | Hasil real-time melalui stream=True
|
Keamanan | Variabel lingkungan untuk kunci API (file .env ) |
Kasus Penggunaan: Pemberian keterangan acara siaran langsung dengan deteksi emosi.
Kasus Penggunaan: Membuat deskripsi produk dari gambar dan ulasan pengguna.
# Input: Gambar produk + "Tulis ulasan bintang 5 dalam bahasa Spanyol"
# Output: Ulasan teks + versi audio dalam bahasa Spanyol.
1. Batas Ukuran Berkas:
2. Optimal untuk Streaming:
stream = True
untuk output real time.Seiring perkembangan GenAI, kemampuan multimodal akan mendominasi industri dari perawatan kesehatan hingga hiburan. Dengan menguasai Qwen2.5 Omni, Anda memasuki era berikutnya dari kolaborasi manusia dengan AI.
Mulailah bereksperimen hari ini dan bergabunglah dengan revolusi!
Artikel ini diterjemahkan dari bahasa Inggris. Lihat artikel asli di sini.
106 posts | 4 followers
FollowFarruh - April 8, 2025
Alibaba Cloud Community - March 27, 2025
Regional Content Hub - April 29, 2025
Regional Content Hub - April 21, 2025
Regional Content Hub - April 14, 2025
Regional Content Hub - April 14, 2025
106 posts | 4 followers
FollowTop-performance foundation models from Alibaba Cloud
Learn MoreA one-stop generative AI platform to build intelligent applications that understand your business, based on Qwen model series such as Qwen-Max and other popular models
Learn MoreAccelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn MoreAccelerate innovation with generative AI to create new business success
Learn MoreMore Posts by Regional Content Hub