すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:QwQ-32B のデプロイ、ファインチューニング、および評価

最終更新日:Mar 21, 2025

モデルの概要

2025 年 3 月 6 日、Alibaba Cloud はオープンソースの推論モデル QwQ-32B をリリースしました。これは、スケーリング強化学習を通じて数学、コーディング、および一般的な能力において飛躍的な進歩を遂げました。 QwQ-32B の全体的なパフォーマンスは DeepSeek-R1 に匹敵しますが、デプロイと使用のコストが大幅に削減されています。

  • 数学的能力の AIME24 とコーディング能力の LiveCodeBench では、QwQ-32B は DeepSeek-R1 と同等のパフォーマンスを示し、同規模の DeepSeek-R1 に基づく o1-mini モデルと蒸留モデルをはるかに上回っています。

  • LiveBench、IFEval、および BFCL では、QwQ-32B は DeepSeek-R1 を上回っています。

  • QwQ-32B は、エージェント関連の機能を革新的に統合しており、ツールを使用しながら批判的に思考し、環境からのフィードバックに基づいて推論プロセスを調整できます。

PAI-モデルギャラリーは、QwQ-32B のワンクリックデプロイ、ファインチューニング、および評価機能と、モデルの量子化バージョンを完全にサポートしています。 QwQ-32B のデプロイには 96 GB のビデオメモリが必要です。量子化された QwQ-32B-GGUF および QwQ-32B-AWQ のデプロイには、単一の A10 などの低コスト GPU が必要です。

モデルのデプロイ

  1. モデルギャラリーページに移動します。

    1. PAI コンソール にログオンします。左上隅でリージョンを選択します。リージョンを切り替えて、適切な計算リソースを見つけることができます。

    2. 左側のナビゲーションウィンドウで、[ワークスペース] を選択し、目的のワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。

  2. モデルギャラリーページで、QwQ-32B モデルカードを見つけてクリックし、詳細ページに入ります。

  3. 右上隅にある [デプロイ] をクリックします。

    1. [デプロイ方法] を選択し、サービス名とリソース情報を構成します。

      デプロイ方法には、SGLang アクセラレーションデプロイ、vLLM アクセラレーションデプロイ、BladeLLM アクセラレーションデプロイが含まれます。

    2. 次に、[デプロイ] をクリックして、PAI の Elastic Algorithm Service(EAS)にモデルをデプロイします。

      image.png

  4. 推論サービスを呼び出します。デプロイ後、サービスページの [呼び出し情報を表示] をクリックして、[エンドポイント][トークン] を取得します。 [事前学習済みモデル] の横にあるリンクをクリックすると、モデルの詳細ページに戻り、モデルの呼び出し方法に関する詳細情報を確認できます。

    image.png

    デプロイされた QwQ-32B サービスを EAS でオンラインでテストすることもできます。

    image.png

モデルのファインチューニング

PAI-モデルギャラリーは、LoRA ファインチューニングと完全パラメーターファインチューニングの 2 つの方法で、QwQ-32B の教師ありファインチューニング(SFT)をサポートしています。すぐに使える方法でモデルをファインチューニングできます。

  1. トレーニングデータを準備します。 SFT アルゴリズムは、JSON および JSONL 形式のトレーニング データセットをサポートしています。例:

    {"messages": [{"role": "system", "content": "You are a useful and harmless assistant"}, {"role": "user", "content": "Who are you?"}, {"role": "assistant", "content": "I am Xiaopai, an AI assistant trained by PAI. My goal is to provide users with useful, accurate, and timely information and to help users communicate effectively in various ways. Please let me know how I can assist you."}]} // {"messages": [{"role": "system", "content": "役に立ち、無害なアシスタントです"}, {"role": "user", "content": "あなたは誰ですか?"}, {"role": "assistant", "content": "私はPAIによって訓練されたAIアシスタント、Xiaopaiです。私の目標は、ユーザーに役立つ正確でタイムリーな情報を提供し、ユーザーがさまざまな方法で効果的にコミュニケーションできるように支援することです。どのようにお手伝いできるかお知らせください。"}]}
    {"messages": [{"role": "system", "content": "You are a useful and harmless assistant"}, {"role": "user", "content": "Who are you!"}, {"role": "assistant", "content": "Hello! I am an AI language model developed by PAI, named Xiaopai. I can answer your questions, provide information, engage in conversation, and help solve problems. If you have any questions or need assistance, please feel free to let me know!"}]} // {"messages": [{"role": "system", "content": "役に立ち、無害なアシスタントです"}, {"role": "user", "content": "あなたは誰ですか!"}, {"role": "assistant", "content": "こんにちは! 私はPAIによって開発されたAI言語モデルで、Xiaopaiという名前です。 質問に答えたり、情報を提供したり、会話に参加したり、問題の解決を支援したりできます。 質問がある場合やサポートが必要な場合は、お気軽にお知らせください!"}]}

  2. トレーニングパラメーターを構成します。データの準備後、データを Object Storage Service(OSS)バケットにアップロードできます。 32B モデルのサイズが大きいため、アルゴリズムでは少なくとも 96 GB のビデオメモリの GPU リソースが必要です。使用するリソースクォータに十分なリソースがあることを確認してください。

    image.png

    アルゴリズムは、次のハイパーパラメーターをサポートしています。計算リソースに基づいてハイパーパラメーターを調整するか、デフォルト設定を使用できます。

    パラメーター

    説明

    注記

    learning_rate

    学習率。モデルの重みの調整範囲を制御するために使用されます。

    学習率が大きすぎると、トレーニングプロセスが不安定になる可能性があります。損失が急激に変動し、より小さい値に収束しない可能性があります。

    学習率が小さすぎると、損失の減少が遅くなり、収束に時間がかかる場合があります。

    適切な学習率により、モデルは迅速かつ安定して収束できます。

    num_train_epochs

    トレーニング データセットが再利用される回数。

    値が小さすぎると、アンダーフィッティングにつながる可能性があります。値が大きすぎると、オーバーフィッティングにつながる可能性があります。

    サンプルサイズが小さい場合は、エポック数を増やしてアンダーフィッティングを回避できます。

    学習率が小さいほど、通常はより多くのエポックが必要です。

    per_device_train_batch_size

    1 回のトレーニング反復で各 GPU カードによって処理されるサンプル数。

    バッチサイズを大きくすると、トレーニング速度は向上しますが、ビデオメモリへの需要も増加します。

    理想的なバッチサイズは通常、ビデオメモリのオーバーフローを引き起こさない最大値です。タスク詳細ページの監視タブで GPU メモリ使用量を確認できます。

    gradient_accumulation_steps

    勾配累積ステップ数。

    バッチサイズが小さいと、勾配推定の分散が大きくなり、収束速度に影響します。勾配累積を導入すると、gradient_accumulation_steps バッチ後にモデルが最適化されます。値は GPU 数の倍数である必要があります。

    max_length

    1 回のトレーニングセッションでモデルによって処理される入力データの最大トークン長。

    トレーニングデータは、トークナイザーによってトークンシーケンスに変換されます。トークン推定ツールを使用して、トレーニングデータのテキストのトークン長を推定できます。

    lora_rank

    トレーニングする低ランク行列の内部次元。

    lora_alpha

    低ランク行列のスケーリング係数。

    通常、lora_rank × 2 に設定されます。

    lora_dropout

    ドロップアウト確率。ニューロンをランダムにドロップアウトすると、ニューラルネットワークのオーバーフィッティングを防ぎます。

    lorap_lr_ratio

    LoRA+ 学習率比(λ = ηB/ηA)。 ηA と ηB は、それぞれアダプター行列 A と B の学習率です。

    LoRA と比較して、LoRA+ はプロセスの主要部分に異なる学習率を使用できるため、計算要件を増やすことなく、より良いパフォーマンスとより高速なファインチューニングを実現できます。 lorap_lr_ratio が 0 に設定されている場合、LoRA+ の代わりに LoRA が使用されます。

    advanced_settings

    上記のパラメーターに加えて、カスタムパラメーターもサポートしています。 --key1 value1 --key2 value2 の形式でこのフィールドに構成できます。必要ない場合は、この項目を空白のままにします。

    • save_strategy: モデル保存戦略。

      有効な値: steps、epoch、no。

      デフォルト値: steps。

    • save_steps: モデル保存間隔。

      デフォルト値: 500。

    • save_total_limit: 保存されるチェックポイントの最大数。期限切れのチェックポイントは削除されます。

      デフォルト値: 2。

      なしの場合、すべてのチェックポイントが保存されます。

    • warmup_ratio: 学習率のウォームアップフェーズを制御します。トレーニングの開始時に、学習率が小さい値から設定された初期学習率まで徐々に増加します。ウォームアップ率は、トレーニングプロセス全体におけるこのウォームアップフェーズの割合を決定します。

      デフォルト値: 0。

  3. [トレーニング] をクリックして開始します。トレーニングステータスとトレーニングログを表示できます。完成したモデルは、オンラインサービスとしてデプロイすることもできます。

モデルの評価

PAI-モデルギャラリーには、事前学習済みモデルとファインチューニング済みモデルを簡単に評価するための一般的なアルゴリズムが組み込まれています。また、複数のモデル間の比較もサポートしており、最適なモデルを選択するのに役立ちます。

モデル評価エントリ:

事前学習済みモデルを直接評価する

image.png

トレーニング詳細ページでファインチューニング済みモデルを評価する

image.png

カスタム データセットまたはパブリック データセットに基づく評価をサポートしています。

image.png

image.png

  • カスタム データセット

    モデル評価では、BLEU/ROUGE などの NLP タスクで一般的に使用されるテキストマッチングメトリックと、モデル評価の判断(プロフェッショナルモードでのみサポート)がサポートされています。選択したモデルが独自のシナリオとデータに適しているかどうかを評価できます。

    評価には、評価セットとして JSONL ファイルが必要です。各データ行は JSON です。ファイル例: evaluation_test.jsonl

  • パブリック データセット

    さまざまなドメインのオープンソース評価データセットを使用して、モデルの包括的な機能を評価します。 PAI は現在、CMMLUGSM8KTriviaQAMMLUC-EvalTruthfulQAHellaSwag などのデータセットを管理しており、数学、知識、推論を網羅しています。今後、他のパブリック データセットも利用可能になる予定です。注: GSM8K、TriviaQA、および HellaSwag データセットの評価には時間がかかる場合があります。

評価結果の出力パスを選択し、システムの推奨事項に基づいて適切なリソースを選択します。次に、評価タスクを送信します。

タスクが完了するまで待って、評価結果を表示します。複数のデータセットを選択した場合、モデルは 1 つずつ実行されるため、待ち時間が長くなります。ログから手順を確認できます。

image.png

評価レポートの表示: カスタム データセットとパブリック データセットの結果例を次に示します

image.webp

image.webp

お問い合わせ

プラットフォームは継続的に SOTA モデルを公開します。ご要望がございましたら、モデルギャラリーユーザーグループまでご連絡ください。DingTalk グループ番号は 79680024618 です。