本記事の作成者:Farruh
生成 AI (GenAI) の時代では、大規模言語モデル (LLM) はもはやテキストに限定されません。 Qwen2.5 Omni のようなマルチモーダルモデルは、テキスト、画像、オーディオ、およびビデオの間のギャップを埋め、AI が人間のように考え、見、聞き、話すことを可能にします。
1. TMRoPE 位置符号化:
2. Thinker-Talker アーキテクチャ:
3. ストリーミング効率:
タスク | Qwen2.5-Omni | Qwen2.5-VL | GPT-4o-Mini | SOTA |
---|---|---|---|---|
画像 → テキスト | 59.2 (MMMUval) | 58.6 | 60.0 | 53.9 (その他) |
ビデオ → テキスト | 72.4 (Video-MME) | 65.1 | 64.8 | 63.9 (その他) |
マルチモーダル推論 | 81.8 (MMBench) | 非該当 | 76.0 | 80.5 (その他) |
スピーチ生成 | 1.42% WER (中国語) | 非該当 | 非該当 | 2.33% (英語) |
1. Alibaba Cloud ModelStudio または Model Studio 紹介ページに移動します。
2. “Qwen2.5-Omni” を検索してページに移動します。
3. モデルへのアクセスを許可します (基本機能の使用は無料) 。
セキュリティ優先のセットアップ:
1. 仮想環境を作成する (推奨):
python -m venv qwen-env
source qwen-env/bin/activate # Linux/MacOS | Windows: qwen-env\Scripts\activate
2. 依存関係をインストールする
pip install openai
3. API キーを安全に保存する: .env
ファイルをプロジェクトディレクトリに作成します:
DASHSCOPE_API_KEY=your_api_key_here
OpenAI ライブラリを使用して Qwen2.5-Omni と対話します:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
# Example: Text + Audio Output
completion = client.chat.completions.create(
model="qwen2.5-omni-7b",
messages=[{"role": "user", "content": "Who are you?"}],
modalities=["text", "audio"], # Specify output formats (text/audio)
audio={"voice": "Chelsie", "format": "wav"},
stream=True, # Enable real-time streaming
stream_options={"include_usage": True},
)
# Process streaming responses
for chunk in completion:
if chunk.choices:
print("Partial response:", chunk.choices[0].delta)
else:
print("Usage stats:", chunk.usage)
機能 | 詳細 |
---|---|
入力タイプ | テキスト、画像、オーディオ、ビデオ (URL / Base64 経由) |
出力モダリティ |
modalities パラメーターの指定 (例:デュアル出力の場合は ["text", "audio"] ) |
ストリーミングのサポート |
stream=True によるリアルタイムの結果 |
セキュリティ | API キーの環境変数 (.env ファイル) |
ユースケース:感情検出ありのライブイベントキャプション生成。
ユースケース:画像とユーザーレビューから製品の説明を生成する。
# Input: Product image + "Write a 5-star review in Spanish"
# Output: Text review + audio version in Spanish.
1. ファイルサイズの制限:
2. ストリーミングのための最適化:
stream=True
を有効化します。生成 AI が進化するにつれて、マルチモーダル機能がヘルスケアからエンターテインメントまでの業界を支配するようになります。 Qwen2.5 Omni をマスターすることで、人間と AI によるコラボレーションの次の時代に進むことができます。
今すぐ実験を始めて、革命に参加しましょう!
この記事は英語から翻訳されました。 元の記事は、こちらからご覧いただけます。
109 posts | 4 followers
FollowRegional Content Hub - May 13, 2024
Regional Content Hub - November 25, 2024
Regional Content Hub - August 5, 2024
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - January 19, 2024
Regional Content Hub - May 7, 2025
109 posts | 4 followers
FollowTop-performance foundation models from Alibaba Cloud
Learn MoreAccelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn MoreAccelerate innovation with generative AI to create new business success
Learn MoreA platform that provides enterprise-level data modeling services based on machine learning algorithms to quickly meet your needs for data-driven operations.
Learn MoreMore Posts by Regional Content Hub