DeepSeek-R1 は、DeepSeek によって開発された第 1 世代の推論モデルであり、数学、コーディング、および推論タスクに優れています。 DeepSeek は、DeepSeek-R1 モデルと、Llama および Qwen に基づいて DeepSeek-R1 から蒸留された 6 つの密モデルをオープンソース化しており、これらはすべてさまざまなベンチマークで優れたパフォーマンスを示しています。 このトピックでは、DeepSeek-R1-Distill-Qwen-7B を例として、Platform for AI (PAI) のモデルギャラリーでこれらのモデルを微調整する方法について説明します。
サポートされているモデル
PAI モデルギャラリーは、6 つの Distill モデルの LoRA 教師あり微調整 (SFT) トレーニングをサポートしています。 次の表は、デフォルトのパラメーターとデータセットでの推奨最小構成を示しています。
Distill モデル | ベースモデル | トレーニング方法 | 最小構成 |
DeepSeek-R1-Distill-Qwen-1.5B | LoRA 教師あり微調整 | 1 x A10 (24 GB ビデオメモリ) | |
DeepSeek-R1-Distill-Qwen-7B | 1 x A10 (24 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Llama-8B | 1 x A10 (24 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Qwen-14B | 1 x GU8IS (48 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Qwen-32B | 2 x GU8IS (48 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Llama-70B | 8 x GU100 (80 GB ビデオメモリ) |
モデルのトレーニング
モデルギャラリーページに移動します。
PAI コンソール にログインします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 ワークスペースページで、使用するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。
モデルギャラリーページで、[deepseek-r1-distill-qwen-7b] モデルカードをクリックして詳細ページに移動します。
このページでは、SFT データ形式や呼び出し方法など、モデルのデプロイとトレーニングに関する詳細情報を提供します。

右上隅にある [トレーニング] をクリックし、次の主要パラメーターを構成します。
データセットの構成: データを準備した後、Object Storage Service (OSS) バケットにデータをアップロードします。
計算リソース: 適切なリソースを選択します。 デフォルト設定で必要な最小構成は、サポートされているモデル に記載されています。 ハイパーパラメーターを調整する必要がある場合は、より多くのビデオメモリが必要になる場合があります。
ハイパーパラメーター: 次の表は、LoRA SFT でサポートされているハイパーパラメーターを示しています。 データと計算リソースに基づいてこれらを調整します。 詳細については、「LLM の微調整ガイド」をご参照ください。
ハイパーパラメーター
タイプ
デフォルト値
(7B モデルを例とする)
説明
learning_rate
float
5e-6
学習率。モデルの重み調整の大きさを制御します。
num_train_epochs
int
6
トレーニングデータセットが再利用される回数。
per_device_train_batch_size
int
2
1 回のトレーニング反復で各 GPU によって処理されるサンプル数。 値が高いほど、トレーニング効率とメモリ使用量が高くなります。
gradient_accumulation_steps
int
2
勾配累積ステップ数。
max_length
int
1024
1 回のトレーニングセッションでモデルによって処理される入力データの最大トークン長。
lora_rank
int
8
LoRA ディメンション。
lora_alpha
int
32
LoRA 重み。
lora_dropout
float
0
LoRA ドロップアウト率。 トレーニングプロセス中にニューロンをランダムにドロップアウトすると、過剰適合を防ぐのに役立ちます。
lorap_lr_ratio
float
16
LoRA+ の学習率は λ = ηB/ηA として定義されます。ここで、ηA と ηB はそれぞれアダプター行列 A と B の学習率です。 標準の LoRA と比較して、LoRA+ ではプロセスの重要な部分に異なる学習率を使用できるため、計算需要を増やすことなく、パフォーマンスが向上し、微調整が高速になります。
lorap_lr_ratioが 0 に設定されている場合、LoRA+ ではなく標準の LoRA が使用されています。
[トレーニング] をクリックします。 モデルトレーニングページにリダイレクトされ、トレーニングが開始されます。 ここでは、トレーニングジョブのステータスとログを表示できます。

トレーニングが成功すると、モデルは [AI アセット管理 - モデル] に自動的に登録され、そこで表示またはデプロイできます。 詳細については、「モデルの登録と管理」をご参照ください。
トレーニングが失敗した場合は、
[ステータス] の横にある タスクログ使用上の注意モデルギャラリーに関する FAQ をクリックして原因を調べたり、 タブに移動して詳細を確認したりできます。 一般的なトレーニングエラーとその解決策については、「」および「」をご参照ください。トレーニングページの下部にある [メトリックカーブ] セクションには、トレーニング中の損失の進行状況が表示されます。

トレーニングが成功したら、右上隅にある [デプロイ] をクリックして、トレーニング済みモデルを EAS サービスとしてデプロイします。 デプロイされたモデルの呼び出し方法は、元の Distill モデルと同じです。 モデル詳細ページまたは「DeepSeek-V3 および DeepSeek-R1 のワンクリックデプロイ」を参照できます。

課金
モデルギャラリーでのトレーニングでは、Deep Learning Containers (DLC) のトレーニング機能を使用します。 DLC は、トレーニングジョブの期間に基づいて課金されます。 トレーニングジョブが終了すると、リソースの消費は自動的に停止するため、手動で停止する必要はありません。 DLC の課金 についてご確認ください。
使用上の注意
ジョブの失敗のトラブルシューティング
トレーニングを行うときは、適切な
max_length(トレーニング構成のハイパーパラメーター) を設定します。 トレーニングアルゴリズムは、max_lengthを超えるデータをすべて削除し、タスクログには次のメッセージが表示されます。

次のエラーログが発生する場合があります:
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold。 これは、トレーニングジョブが同時に 2 つの GPU コアに制限されていることを示しています。 この制限を超えると、リソース制限が発生します。 実行中のジョブが完了するまで待ってから新しいジョブを開始するか、チケットを送信 してクォータの増加をリクエストしてください。次のエラーログが発生する場合があります:
the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match。 これは、現在のゾーンで一部の仕様のリソースが不足していることを示しています。 次の解決策を試すことができます。vSwitch を選択しないでください。 DLC は、インベントリに基づいて vSwitch を自動的に選択します。
他の仕様を使用してください。
トレーニング済みモデルをダウンロードする方法
トレーニングジョブを作成するときに、モデル出力パスを OSS パスに設定できます。 トレーニング後、トレーニング済みモデルを OSS からダウンロードできます。
