Qwen2.5 Omni: Cỗ máy AI đa mô hình toàn năng

Bài viết này giới thiệu về Qwen2.5 Omni của Alibaba Cloud, một mô hình AI đa phương thức tiên tiến tích hợp chức năng xử lý văn bản, hình ảnh, âm than.

Do Farruh viết

Qwen2.5 Omni của Alibaba Cloud: GenAI kết hợp đa phương thức

Trong kỷ nguyên AI tạo sinh (GenAI), Mô hình ngôn ngữ lớn (LLM) không còn giới hạn ở văn bản nữa. Các mô hình đa phương thức như Qwen2.5 Omni thu hẹp khoảng cách giữa văn bản, hình ảnh, âm thanh và video, hỗ trợ AI suy nghĩ, nhìn, nghe và nói - giống như con người chúng ta vậy.

Lý do đa phương thức lại quan trọng

Sự phổ biến của dữ liệu đa phương thức: 90% lưu lượng truy cập internet là nội dung hình ảnh/âm thanh (ví dụ: video TikTok, podcast).
Tương tác như con người: Người dùng mong muốn AI xử lý nhiều loại dữ liệu đầu vào (ví dụ: ảnh và truy vấn bằng giọng nói).
Sự gián đoạn trong ngành: Từ chẩn đoán y tế đến thương mại điện tử, AI đa phương thức đã trở thành tiêu chuẩn mới.

Qwen2.5 Omni: Được thiết kế cho đa phương thức toàn diện

Không chỉ dừng lại ở văn bản: Trong khi các LLM như Qwen2.5-VL nổi trội về văn bản và hình ảnh thì Qwen2.5 Omni bổ sung tính năng phát trực tiếp âm thanh/video như một bước tiến tới AI toàn diện.
Kiến trúc thống nhất: Không giống như các công cụ tách biệt, Qwen2.5 Omni là một mô hình duy nhất cho đầu vào/đầu ra trên nhiều phương thức.

Hiểu về Qwen2.5 Omni: Lợi thế kỹ thuật

Tổng quan về các mô-đun Thinker (xử lý văn bản/âm thanh/video) và Talker (tạo lời nói)

Những đổi mới quan trọng từ Báo cáo kỹ thuật

Tổng quan về Qwen2.5-Omni với Kiến trúc Thinker-Talker

1. Mã hóa vị trí TMRoPE:

Công nghệ RoPE đa phương thức được điều chỉnh theo thời gian đảm bảo các khung hình âm thanh và video được xử lý đồng bộ (ví dụ: nhép môi trong video).
Kỹ thuật phân chia xen kẽ chia video thành các đoạn 2 giây, kết hợp dữ liệu hình ảnh/âm thanh để giảm độ trễ.

2. Kiến trúc Thinker-Talker

Thinker: LLM về tạo văn bản và lý luận.
Talker: Mô hình đường đôi để tạo lời nói theo thời gian thực, giảm độ trễ âm thanh tới 40% so với Qwen2-Audio.

3. Hiệu quả phát trực tiếp:

Tính năn gmã hóa theo khối xử lý âm thanh/video thành từng phần, hỗ trợ suy luận theo thời gian thực.
Sliding Window Diffusion Transformer (DiT) làm giảm độ trễ âm thanh ban đầu bằng cách giới hạn trường tiếp nhận.

Hiệu suất vượt trội của Qwen2.5 Omni so với các mô hình đa phương thức khác

Task	Qwen2.5-Omni	Qwen2.5-VL	GPT-4o-Mini	State-of-the-Art
Image→Text	59.2 (MMMUval)	58.6	60.0	53.9 (Khác)
Video→Text	72.4 (Video-MME)	65.1	64.8	63.9 (Khác)
Lý luận đa phương thức	81.8 (MMBench)	Không có	76.0	80.5 (Khác)
Tạo lời nói	1,42% WER (tiếng Trung Quốc)	Không có	Không có	2,33% (Tiếng Anh)

Lý do Qwen2.5 Omni vượt trội

Mô hình hợp nhất: Bạn không cần phải chuyển đổi giữa các mô hình âm thanh và video như Qwen2-Audio và Qwen2.5-VL.
Độ trễ thấp: Qwen2.5 Omni xử lý các đoạn video dài 2 giây theo thời gian thực, lý tưởng cho các ứng dụng và dịch vụ có nội dung theo thời gian thực.
Linh hoạt: Qwen2.5 Omni xử lý cả hướng dẫn bằng giọng nói và văn bản (ví dụ: “Tóm tắt video này và đọc lớn”).

Hướng dẫn nhanh cho Qwen2.5 Omni trên Alibaba Cloud

Bước 1: Chọn mô hình

1. Truy cập Alibaba Cloud ModelStudio hoặc trang giới thiệu Model Studio.

2. Tìm “Qwen2.5-Omni” và điều hướng đến trang đó.

3. Cho phép truy cập vào mô hình (miễn phí cho mục đích sử dụng cơ bản).

Bước 2: Chuẩn bị môi trường của bạn

Thiết lập ưu tiên bảo mật:

1. Tạo môi trường ảo (khuyến nghị):

python -m venv qwen-env
source qwen-env/bin/activate  # Linux/MacOS | Windows: qwen-env\Scripts\activate

2. Cài đặt các phần phụ thuộc:

pip install openai

3. Lưu trữ khóa API một cách bảo mật:
Tạo tập tin .env trong thư mục dự án của bạn:

DASHSCOPE_API_KEY=your_api_key_here

Bước 3: Thực hiện lệnh gọi API với khả năng tương thích OpenAI

Sử dụng thư viện OpenAI để tương tác với Qwen2.5-Omni:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# Example: Text + Audio Output
completion = client.chat.completions.create(
    model="qwen2.5-omni-7b",
    messages=[{"role": "user", "content": "Who are you?"}],
    modalities=["text", "audio"],  # Specify output formats (text/audio)
    audio={"voice": "Chelsie", "format": "wav"},
    stream=True,  # Enable real-time streaming
    stream_options={"include_usage": True},
)

# Process streaming responses
for chunk in completion:
    if chunk.choices:
        print("Partial response:", chunk.choices[0].delta)
    else:
        print("Usage stats:", chunk.usage)

Các tính năng chính của API

Tính năng	Chi tiết
Loại dữ liệu đầu vào	Văn bản, hình ảnh, âm thanh, video (thông qua URL/Base64)
Phương thức đầu ra	Chọn tham số `modalities` (ví dụ: `["text", "audio"]` cho đầu ra kép)
Hỗ trợ phát trực tiếp	Kết quả thời gian thực qua `stream=True`
Bảo mật	Biến môi trường cho khóa API (tập tin `.env`)

Trường hợp sử dụng nâng cao: Đẩy lùi ranh giới

1. Phân tích video thời gian thực

Trường hợp sử dụng: Ghi chú sự kiện trực tiếp với tính năng phát hiện cảm xúc.

Đầu vào: Một đoạn video clip dài 10 giây.
Đầu ra: Tóm tắt văn bản + bình luận bằng âm thanh (ví dụ: “Đám đông đang reo hò热烈!”).

2. Thương mại điện tử đa phương thức

Trường hợp sử dụng: Tạo mô tả sản phẩm từ hình ảnh và bài đánh giá của người dùng.

# Đầu vào: Hình ảnh sản phẩm + "Viết bài đánh giá 5 sao bằng tiếng Tây Ban Nha"
# Đầu ra: Bài đánh giá văn bản + phiên bản âm thanh bằng tiếng Tây Ban Nha.

Tại sao nên học Qwen2.5 Omni?

Kỹ năng áp dụng cho tương lai: Các mô hình đa phương thức là tiêu chuẩn thế hệ mới cho các ứng dụng AI.
Lợi thế cạnh tranh: Các doanh nghiệp sử dụng Qwen2.5 Omni có thể:

Giảm chi phí: Một mô hình cho tất cả tác vụ văn bản/âm thanh/video.
Rút ngắn thời gian đổi mới: Triển khai các ứng dụng thời gian thực (ví dụ: trợ lý ảo, giám sát thông minh).

Xử lý sự cố & biện pháp tốt nhất

1. Giới hạn dung lượng tập tin:

Hình ảnh: ≤10MB mỗi tập tin.
Tổng số token: Tuân thủ giới hạn 32k token của mô hình (văn bản + nhúng hình ảnh/âm thanh).

2. Tối ưu hóa cho phát trực tiếp:

Sử dụng OSS của Alibaba Cloud cho tập tin lớn.
Bật stream=True để nhận đầu ra theo thời gian thực.

Kết luận: Đa phương thức chính là tương lai

Khi GenAI phát triển, các chức năng đa phương thức sẽ thống trị các ngành công nghiệp, từ y tế đến giải trí. Khi thành thạo Qwen2.5 Omni, bạn sẽ bước vào kỷ nguyên tiếp theo của sự hợp tác giữa con người và AI.

Hãy bắt đầu thử nghiệm ngay hôm nay và tham gia cuộc cách mạng này!

Tham khảo

Trợ giúp Model Studio: Hướng dẫn bắt đầu
Trang sản phẩm Model Studio: Khám phá các tính năng
Blog Qwen2.5-Omni: Tổng quan chi tiết
Báo cáo kỹ thuật: Báo cáo của ArXiv
GitHub: Mã & tài liệu
HuggingFace: Tải mô hình về
Wan Visual Generation: Tạo video hấp dẫn

Bài viết này được dịch từ tiếng Anh. Xem bài viết gốc tại đây.

Community