すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:モデル関連の発表

最終更新日:Jun 25, 2025

このトピックでは、モデル関連の発表と新しくリリースされたモデルを紹介します。

お知らせ

モデルの更新

新しくリリースされたモデル

タイプ

日付

名前

機能の説明

視覚理解

2025-06-04

qwen-vl-plus-2025-05-07

数学、推論、および監視ビデオコンテンツの理解において大幅な改善を備えた視覚理解モデル。視覚理解

テキストから画像への変換

2025-05-22

wan2.1-t2i-turbo、wan2.1-t2i-plus

1 つの文から画像を生成します。このモデルは、任意の解像度、任意の縦横比、最大 200 万ピクセルの画像の生成をサポートしており、turbo バージョンとプロフェッショナルバージョンの両方で利用できます。テキストから画像への変換

ビデオ編集

2025-05-19

wan2.1-vace-plus

テキスト、画像、ビデオを含む複数の入力モダリティをサポートする汎用ビデオ編集モデルであり、画像からビデオへの生成(参照被写体または背景)、ビデオの再ペイント(入力ビデオのモーションアウトラインに基づいてビデオを生成する)などのさまざまなタスクを実行できます。詳細については、「汎用ビデオ編集」をご参照ください。

視覚的理解

2025-05-16

qwen-vl-max-2025-04-08

数学的および推論能力が強化された視覚的理解モデル。応答スタイルは人間の好みに合わせて調整されており、応答の包括性およびフォーマットの明確さが大幅に向上しています。視覚的理解

視覚理解

2025-05-16

qwen-vl-plus-2025-01-25

Qwen2.5-VL シリーズの視覚理解モデル。以前のバージョンと比較して、コンテキストの長さが 128k に拡張され、画像とビデオの理解機能が大幅に向上しています。

推論モデル

2025-04-28

Qwen3 商用モデル

qwen-plus-2025-04-28、qwen-turbo-2025-04-28

Qwen3 オープンソースモデル

qwen3-235b-a22b、qwen3-30b-a3b、qwen3-32b、qwen3-14b、qwen3-8b、qwen3-4b、qwen3-1.7b、qwen3-0.6b

Qwen3 は、思考モードと非思考モードの両方で応答でき、enable_thinking パラメーターを使用して 2 つのモードを切り替えることができます。これに加えて、モデルの機能が大幅に強化されています。

  1. 推論機能:数学、コーディング、論理的推論の評価において、同じサイズの QwQ および非推論モデルを大幅に上回り、そのサイズで SOTA パフォーマンスに達しました。

  2. 人間の好みのフォロー:クリエイティブライティング、ロールプレイング、複数ターンの会話、指示のフォローにおける能力が大幅に向上し、同規模のモデルの一般的な能力を上回っています。

  3. エージェント機能:思考モードと非思考モードの両方で業界をリードするレベルを実現し、正確な外部ツール呼び出しを可能にします。

  4. 多言語機能:100 以上の言語と方言をサポートし、多言語翻訳、指示理解、常識推論能力が著しく向上しています。

  5. 応答形式の修正: 以前のバージョンにおける応答形式の問題(異常な Markdown、テキストの途中での切り捨て、誤ったボックス出力など)が修正されました。

思考モードについては、「ディープ思考」をご参照ください。非思考モードについては、「テキスト生成」をご参照ください。

テキストから動画

2025-04-21

wan2.1-t2v-turbo、wan2.1-t2v-plus

  • 1 つの文章から動画を生成します。

  • 強力な指示追従機能を備え、複雑な動きと現実的な物理をサポートします。豊かな芸術的スタイルと映画のような視覚品質のビデオを生成します。使用方法については、「Wan テキストからビデオへの変換」をご参照ください。

イメージから動画

2025-04-21

wan2.1-kf2v-plus、wan2.1-i2v-turbo、wan2.1-i2v-plus

ビジュアル推論

2025-03-28

qvq-max, qvq-max-latest, qvq-max-2025-03-25

視覚入力と連鎖的思考出力をサポートするビジュアル推論モデル。数学、コーディング、視覚分析、創造性、および一般的なタスクにおいて、より強力な機能を示します。ビジュアル推論

オムニモーダル

2025-03-26

qwen2.5-omni-7b

テキスト、画像、音声、ビデオ入力をサポートし、2 つの自然な音声オプションでテキストと音声を生成するオムニモーダル理解および生成モデル。使用方法については、「オムニモダリティ」をご参照ください。

ビジュアル理解

2025-03-24

qwen2.5-vl-32b-instruct

数学の問題を解く際に Qwen2.5VL-72B に近いレベルを達成するビジュアル理解モデルです。応答スタイルは人間の好みに合わせて大幅に調整されており、特に数学、論理的推論、知識 Q&A などの客観的な質問に適しています。モデルの応答の包括性とフォーマットの明確さが大幅に向上しました。 ビジュアル理解

推論モデル

2025-03-06

qwq-plus

Qwen2.5 に基づいてトレーニングされた QwQ 推論モデルは、強化学習によって推論機能が大幅に改善されています。コアとなる数学およびコーディングメトリック(AIME 24/25、LiveCodeBench)と一般的なメトリック(IFEval、LiveBench など)に対するパフォーマンスは、DeepSeek-R1 のレベルに達しています。深層思考

ビジュアル理解

2025-01-27

qwen2.5-vl-3b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-72b-instruct

  • Qwen2-VL と比較して、以下の点が改善されています。

    • 指示への追従、数学的計算、コード生成、および構造化出力(JSON 出力)機能が大幅に改善されました。

    • 画像内のテキスト、チャート、レイアウト、その他の視覚コンテンツの統合解析をサポートし、視覚要素の正確な位置特定機能が強化され、検出ボックスと座標点表現方式をサポートしています。

    • 最大 10 分の長いビデオファイルの理解をサポートし、秒単位のイベントタイミング位置特定機能、および時間的シーケンス、速度、期間の理解を備えています。

  • 使用方法については、「視覚理解」をご参照ください。

テキストからテキスト

2025-01-27

qwen-max-2025-01-25

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct-1m

  • qwen-max-2025-01-25 モデル(Qwen2.5-Max とも呼ばれます):Qwen シリーズで最高のパフォーマンスを誇るモデルであり、コードの記述と理解機能、論理能力、多言語機能が大幅に改善されています。応答スタイルは人間の好みに合わせて大幅に調整されており、応答の包括性と形式の明確さが著しく向上しています。コンテンツ作成、JSON 形式の準拠、ロールプレイング機能が特に強化されています。使用方法については、「テキスト生成」をご参照ください。

  • qwen2.5-14b-instruct-1m、qwen2.5-7b-instruct-1m モデル:qwen2.5-14b-instruct および qwen2.5-7b-instruct と比較して、コンテキストの長さが 1,000,000 に増加しています。使用方法については、「テキスト生成」をご参照ください。

テキストからテキストへ

2025-01-17

qwen-plus-2025-01-12

  • qwen-plus-2024-12-20 と比較して、中国語と英語の全体的な機能が向上し、中国語と英語の常識と読解力がより大幅に向上しています。さまざまな言語、方言、スタイルを自然に切り替える機能が大幅に強化され、中国語の指示追従機能が大幅に改善されています。使用方法については、qwen-plus-2025-01-12 をご参照ください。

多言語翻訳

2024-12-25

qwen-mt-plus

qwen-mt-turbo

  • Qwen-MT は、Qwen モデルに基づいて最適化された機械翻訳大規模言語モデルです。中国語と英語の翻訳、および中国語/英語と日本語、韓国語、フランス語、スペイン語、ドイツ語、ポルトガル語(ブラジル)、タイ語、インドネシア語、ベトナム語、アラビア語など、他の 16 の言語間の多言語翻訳に優れています。多言語翻訳に加えて、用語介入、ドメインプロンプト、翻訳メモリなどの機能を提供し、複雑なシナリオでの翻訳品質を向上させます。詳細については、「翻訳機能」をご参照ください。

視覚的理解

2024-12-18

qwen2-vl-72b-instruct

  • 複数の視覚理解ベンチマークで SOTA の結果を達成し、マルチモーダルタスク処理機能を大幅に強化しました。使用方法については、「視覚理解」をご参照ください。