Do Farruh viết

Trong kỷ nguyên AI tạo sinh (GenAI), Mô hình ngôn ngữ lớn (LLM) không còn giới hạn ở văn bản nữa. Các mô hình đa phương thức như Qwen2.5 Omni thu hẹp khoảng cách giữa văn bản, hình ảnh, âm thanh và video, hỗ trợ AI suy nghĩ, nhìn, nghe và nói - giống như con người chúng ta vậy.


1. Mã hóa vị trí TMRoPE:
2. Kiến trúc Thinker-Talker
3. Hiệu quả phát trực tiếp:

| Task | Qwen2.5-Omni | Qwen2.5-VL | GPT-4o-Mini | State-of-the-Art |
|---|---|---|---|---|
| Image→Text | 59.2 (MMMUval) | 58.6 | 60.0 | 53.9 (Khác) |
| Video→Text | 72.4 (Video-MME) | 65.1 | 64.8 | 63.9 (Khác) |
| Lý luận đa phương thức | 81.8 (MMBench) | Không có | 76.0 | 80.5 (Khác) |
| Tạo lời nói | 1,42% WER (tiếng Trung Quốc) | Không có | Không có | 2,33% (Tiếng Anh) |
1. Truy cập Alibaba Cloud ModelStudio hoặc trang giới thiệu Model Studio.
2. Tìm “Qwen2.5-Omni” và điều hướng đến trang đó.

3. Cho phép truy cập vào mô hình (miễn phí cho mục đích sử dụng cơ bản).
Thiết lập ưu tiên bảo mật:
1. Tạo môi trường ảo (khuyến nghị):
python -m venv qwen-env
source qwen-env/bin/activate # Linux/MacOS | Windows: qwen-env\Scripts\activate
2. Cài đặt các phần phụ thuộc:
pip install openai
3. Lưu trữ khóa API một cách bảo mật:
Tạo tập tin .env trong thư mục dự án của bạn:
DASHSCOPE_API_KEY=your_api_key_here
Sử dụng thư viện OpenAI để tương tác với Qwen2.5-Omni:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
# Example: Text + Audio Output
completion = client.chat.completions.create(
model="qwen2.5-omni-7b",
messages=[{"role": "user", "content": "Who are you?"}],
modalities=["text", "audio"], # Specify output formats (text/audio)
audio={"voice": "Chelsie", "format": "wav"},
stream=True, # Enable real-time streaming
stream_options={"include_usage": True},
)
# Process streaming responses
for chunk in completion:
if chunk.choices:
print("Partial response:", chunk.choices[0].delta)
else:
print("Usage stats:", chunk.usage)
| Tính năng | Chi tiết |
|---|---|
| Loại dữ liệu đầu vào | Văn bản, hình ảnh, âm thanh, video (thông qua URL/Base64) |
| Phương thức đầu ra | Chọn tham số modalities (ví dụ: ["text", "audio"] cho đầu ra kép) |
| Hỗ trợ phát trực tiếp | Kết quả thời gian thực qua stream=True
|
| Bảo mật | Biến môi trường cho khóa API (tập tin .env) |
Trường hợp sử dụng: Ghi chú sự kiện trực tiếp với tính năng phát hiện cảm xúc.
Trường hợp sử dụng: Tạo mô tả sản phẩm từ hình ảnh và bài đánh giá của người dùng.
# Đầu vào: Hình ảnh sản phẩm + "Viết bài đánh giá 5 sao bằng tiếng Tây Ban Nha"
# Đầu ra: Bài đánh giá văn bản + phiên bản âm thanh bằng tiếng Tây Ban Nha.
1. Giới hạn dung lượng tập tin:
2. Tối ưu hóa cho phát trực tiếp:
stream=True để nhận đầu ra theo thời gian thực.
Khi GenAI phát triển, các chức năng đa phương thức sẽ thống trị các ngành công nghiệp, từ y tế đến giải trí. Khi thành thạo Qwen2.5 Omni, bạn sẽ bước vào kỷ nguyên tiếp theo của sự hợp tác giữa con người và AI.
Hãy bắt đầu thử nghiệm ngay hôm nay và tham gia cuộc cách mạng này!
Bài viết này được dịch từ tiếng Anh. Xem bài viết gốc tại đây.
125 posts | 4 followers
FollowRegional Content Hub - December 15, 2025
Regional Content Hub - July 14, 2025
Alibaba Cloud Vietnam - September 13, 2023
Tran Phuc Hau - July 12, 2024
Regional Content Hub - July 28, 2025
Alibaba Cloud Vietnam - November 23, 2023
125 posts | 4 followers
Follow
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
Bastionhost
A unified, efficient, and secure platform that provides cloud-based O&M, access control, and operation audit.
Learn More
Managed Service for Grafana
Managed Service for Grafana displays a large amount of data in real time to provide an overview of business and O&M monitoring.
Learn More
AI Acceleration Solution
Accelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn MoreMore Posts by Regional Content Hub