DeepSeek-R1 は、DeepSeek 社が開発した、数学、コーディング、推論タスクに優れたモデルです。このトピックでは、DeepSeek-R1-Distill-Qwen-7B 蒸留モデルを例に、このシリーズのモデルをファインチューニングする方法について説明します。
サポートされるモデル
モデルギャラリーでは、6 種類の蒸留モデルに対する LoRA 教師ありファインチューニング (SFT) をサポートしています。次の表は、デフォルトのハイパーパラメーターと提供されたデータセットを使用する場合に推奨される最小コンピューティングリソース構成を示しています。
蒸留モデル | ベースモデル | サポートされるトレーニング手法 | 最小構成 |
DeepSeek-R1-Distill-Qwen-1.5B | LoRA 教師ありファインチューニング | 1 × A10 (24 GB ビデオメモリ) | |
DeepSeek-R1-Distill-Qwen-7B | 1 × A10 (24 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Llama-8B | 1 × A10 (24 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Qwen-14B | 1 × GU8IS (48 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Qwen-32B | 2 × GU8IS (48 GB ビデオメモリ) | ||
DeepSeek-R1-Distill-Llama-70B | 8 × GU100 (80 GB ビデオメモリ) |
クイックスタート
モデルギャラリーページに移動します。
Platform for AI (PAI) コンソールにログインします。左側のナビゲーションウィンドウで、対象の Workspace を選択します。
左側のナビゲーションウィンドウで、QuickStart > [モデルギャラリー] を選択します。

モデルギャラリーページで、DeepSeek-R1-Distill-Qwen-7B モデルカードを検索してクリックし、モデル詳細ページを開きます。このページには、SFT に必要なデータ形式やモデルの呼び出しメソッドなど、モデルのトレーニングとデプロイに関する詳細が記載されています。

右上隅にある Train をクリックします。次の主要なパラメーターを設定します。
Dataset configuration:この例では、デフォルトのデータセットを使用します。モデル詳細ページの形式要件に従ってカスタムデータセットを準備し、それを Object Storage Service (OSS) バケットにアップロードすることもできます。
Model output path:ファインチューニングされたモデルを保存する OSS パスを選択します。
Computing Resources:Source で [パブリックリソース] を選択します。[インスタンスタイプ] で
ecs.gn7i-c16g1.4xlargeを選択します。[ハイパーパラメーター]: 次の表では、LoRA 教師ありファインチューニングでサポートされるハイパーパラメーターについて説明します。必要に応じて調整できます。詳細については、「大規模言語モデル向けファインチューニングガイド」をご参照ください。
Train をクリックします。PAI は自動的にトレーニングジョブページにリダイレクトし、そこでジョブのステータスをモニターしたり、ログを表示したりできます。

トレーニングジョブが成功すると、システムはファインチューニングされたモデルを [AI アセット管理 - モデル] に自動的に登録します。その後、モデルを表示またはデプロイできます。詳細については、「モデルの登録と管理」をご参照ください。
トレーニングが完了したら、右上隅の Deploy をクリックして、ファインチューニングされたモデルを Elastic Algorithm Service (EAS) サービスとしてデプロイします。呼び出し方法は、元の蒸留モデルと同じです。詳細については、モデル詳細ページまたは「DeepSeek-V3 および DeepSeek-R1 モデルのデプロイ」をご参照ください。

課金
モデルギャラリーでのモデルトレーニングには Data Science and AI (DLC) が使用されます。DLC はトレーニングジョブの持続時間に基づいて課金されます。詳細については、「DLC の課金」をご参照ください。
よくある質問
Q:トレーニングジョブが失敗した場合のトラブルシューティング方法は?
トレーニング構成で適切な
max_lengthを設定してください。トレーニングアルゴリズムはmax_lengthを超えるデータを破棄し、その操作をタスクログに記録します。
破棄されるデータが多すぎると、トレーニングまたは検証データセットが空になり、トレーニングジョブが失敗する可能性があります。
エラーログ
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the thresholdは、ジョブがリソース制限をトリガーしたことを示しています。デフォルトでは、トレーニングジョブで同時に実行できる GPU は最大 2 つです。実行中のジョブが完了するのを待ってから新しいジョブを開始するか、チケットを送信してクォータの引き上げをリクエストしてください。エラーログ
the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not matchは、指定されたインスタンスタイプが VSwitch のあるアベイラビリティゾーンで在庫切れであることを示しています。次のソリューションを試すことができます:1. VSwitch を指定しない。DLC は在庫が十分なアベイラビリティゾーンの VSwitch を自動的に選択します。2. 別のインスタンスタイプに切り替える。
Q:トレーニング後にモデルをダウンロードできますか?
はい。トレーニングジョブを作成する際に、モデルの出力パスを OSS ディレクトリに設定できます。ジョブが完了した後、指定された OSS パスからモデルをダウンロードできます。

Q:モデルのパフォーマンスが低い場合はどうすればよいですか?
次のソリューションを検討してください。
より高いパラメーター数を持つ DeepSeek または Qwen3 シリーズのモデルなど、ベースラインパフォーマンスが優れたモデルを使用します。
プロンプトを改良します。
max_tokensの値を増やします。複雑なタスクを、モデルが個別に処理できるより小さなサブタスクに分割します。