DeepSeek-R1 adalah model penalaran generasi pertama yang dikembangkan oleh DeepSeek dan unggul dalam tugas matematika, pemrograman, serta penalaran. DeepSeek telah membuka sumber model DeepSeek-R1 dan enam model padat yang disuling dari DeepSeek-R1 berdasarkan Llama dan Qwen, semuanya menunjukkan kinerja mengesankan di berbagai benchmark. Topik ini menggunakan contoh DeepSeek-R1-Distill-Qwen-7B untuk menjelaskan cara melakukan fine-tuning pada model-model ini di Model Gallery Platform for AI (PAI).
Model yang didukung
PAI-Model Gallery mendukung pelatihan LoRA supervised fine-tuning (SFT) untuk enam model distill. Tabel berikut menjelaskan konfigurasi minimum yang direkomendasikan berdasarkan parameter dan dataset default:
Model distill | Model dasar | Metode pelatihan | Konfigurasi minimum |
DeepSeek-R1-Distill-Qwen-1.5B | LoRA supervised fine-tuning | 1 x A10 (24 GB memori video) | |
DeepSeek-R1-Distill-Qwen-7B | 1 x A10 (24 GB memori video) | ||
DeepSeek-R1-Distill-Llama-8B | 1 x A10 (24 GB memori video) | ||
DeepSeek-R1-Distill-Qwen-14B | 1 x GU8IS (48 GB memori video) | ||
DeepSeek-R1-Distill-Qwen-32B | 2 x GU8IS (48 GB memori video) | ||
DeepSeek-R1-Distill-Llama-70B | 8 x GU100 (80 GB memori video) |
Pelatihan model
Buka halaman Model Gallery.
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih wilayah sesuai kebutuhan bisnis Anda.
Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin digunakan.
Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.
Di halaman Model Gallery, klik kartu model DeepSeek-R1-Distill-Qwen-7B untuk masuk ke halaman detail.
Halaman ini menyediakan informasi rinci tentang penerapan model dan pelatihan, seperti format data SFT dan metode pemanggilan.

Klik Train di pojok kanan atas dan konfigurasikan parameter utama berikut:
Konfigurasi Dataset: Setelah menyiapkan data, unggah data ke bucket Object Storage Service (OSS).
Sumber Daya Komputasi: Pilih sumber daya yang sesuai. Konfigurasi minimum yang diperlukan berdasarkan pengaturan default tercantum di Model yang Didukung. Jika perlu menyesuaikan hyperparameter, lebih banyak memori video mungkin diperlukan.
Hyperparameter: Tabel berikut menjelaskan hyperparameter yang didukung oleh LoRA SFT. Sesuaikan berdasarkan data dan sumber daya komputasi Anda. Untuk informasi lebih lanjut, lihat Panduan Fine-tuning LLM.
Hyperparameter
Tipe
Nilai default
(untuk model 7B sebagai contoh)
Deskripsi
learning_rate
float
5e-6
Tingkat pembelajaran, yang mengontrol besarnya penyesuaian bobot model.
num_train_epochs
int
6
Jumlah kali set data pelatihan digunakan kembali.
per_device_train_batch_size
int
2
Jumlah sampel yang diproses oleh setiap GPU dalam satu iterasi pelatihan. Nilai yang lebih tinggi menghasilkan efisiensi pelatihan yang lebih tinggi dan penggunaan memori yang lebih tinggi.
gradient_accumulation_steps
int
2
Jumlah langkah akumulasi gradien.
max_length
int
1024
Panjang token maksimum dari data input yang diproses oleh model dalam satu sesi pelatihan.
lora_rank
int
8
Dimensi LoRA.
lora_alpha
int
32
Bobot LoRA.
lora_dropout
float
0
Tingkat dropout LoRA. Menjatuhkan neuron secara acak selama proses pelatihan membantu mencegah overfitting.
lorap_lr_ratio
float
16
Rasio laju pembelajaran di LoRA+ didefinisikan sebagai λ = ηB/ηA, di mana ηA dan ηB adalah laju pembelajaran untuk matriks adapter A dan B, masing-masing. Dibandingkan dengan LoRA standar, LoRA+ memungkinkan penggunaan laju pembelajaran yang berbeda untuk bagian-bagian penting dari proses, menghasilkan performa yang lebih baik dan fine-tuning yang lebih cepat tanpa meningkatkan permintaan komputasi. Saat
lorap_lr_ratiodiatur ke 0, LoRA standar digunakan alih-alih LoRA+.
Klik Train. Anda akan diarahkan ke halaman pelatihan model, dan proses pelatihan akan dimulai. Di halaman ini, Anda dapat memantau status serta log dari pekerjaan pelatihan.

Jika pelatihan berhasil, model akan otomatis didaftarkan di AI Asset Management - Models, di mana Anda dapat melihat atau menerapkannya. Untuk informasi lebih lanjut, lihat Daftar dan Kelola Model.
Jika pelatihan gagal, klik
di sebelah Status untuk mengetahui penyebabnya atau buka tab Task log untuk informasi lebih lanjut. Untuk kesalahan pelatihan umum dan solusinya, lihat Catatan Penggunaan dan FAQ tentang Model Gallery.Bagian Metric Curve di bagian bawah halaman pelatihan menampilkan perkembangan loss selama pelatihan.

Setelah pelatihan berhasil, klik Deploy di pojok kanan atas untuk menerapkan model yang telah dilatih sebagai layanan EAS. Metode pemanggilan untuk model yang diterapkan sama dengan model distill aslinya. Anda dapat merujuk ke halaman detail model atau Satu-klik Penerapan DeepSeek-V3 dan DeepSeek-R1.

Penagihan
Pelatihan di Model Gallery menggunakan kapasitas pelatihan dari Deep Learning Containers (DLC). DLC membebankan biaya berdasarkan durasi pekerjaan pelatihan. Setelah pekerjaan pelatihan selesai, konsumsi sumber daya akan berhenti secara otomatis dan tidak perlu dihentikan secara manual. Pelajari tentang Penagihan DLC.
Catatan penggunaan
Pemecahan masalah kegagalan tugas
Saat melatih, atur
max_length(hyperparameter dalam konfigurasi pelatihan) yang sesuai. Algoritma pelatihan akan menghapus data apa pun yang melebihimax_length, dan log tugas akan menampilkan pesan berikut:
Penghapusan data yang berlebihan dapat mengakibatkan dataset pelatihan/validasi kosong, yang mengarah pada kegagalan tugas pelatihan:
Anda mungkin menemui log kesalahan berikut:
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold. Ini menunjukkan bahwa pekerjaan pelatihan dibatasi hingga 2 core GPU simultan. Melebihi batas ini akan memicu pembatasan sumber daya. Harap tunggu pekerjaan yang sedang berlangsung selesai sebelum memulai yang baru, atau ajukan tiket untuk meminta peningkatan kuota Anda.Anda mungkin menemui log kesalahan berikut:
the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match. Ini menunjukkan bahwa beberapa spesifikasi kehabisan sumber daya di zona saat ini. Anda dapat mencoba solusi berikut:Jangan pilih vSwitch. DLC akan secara otomatis memilih vSwitch berdasarkan inventaris.
Gunakan spesifikasi lain.
Bagaimana cara mengunduh model yang telah dilatih?
Saat membuat pekerjaan pelatihan, Anda dapat mengatur jalur keluaran model ke jalur OSS. Setelah pelatihan, Anda dapat mengunduh model yang telah dilatih dari OSS.
