全部产品
Search
文档中心

Platform For AI:Satu-klik fine-tuning model distill DeepSeek-R1

更新时间:Jun 22, 2025

DeepSeek-R1 adalah model penalaran generasi pertama yang dikembangkan oleh DeepSeek dan unggul dalam tugas matematika, pemrograman, serta penalaran. DeepSeek telah membuka sumber model DeepSeek-R1 dan enam model padat yang disuling dari DeepSeek-R1 berdasarkan Llama dan Qwen, semuanya menunjukkan kinerja mengesankan di berbagai benchmark. Topik ini menggunakan contoh DeepSeek-R1-Distill-Qwen-7B untuk menjelaskan cara melakukan fine-tuning pada model-model ini di Model Gallery Platform for AI (PAI).

Model yang didukung

PAI-Model Gallery mendukung pelatihan LoRA supervised fine-tuning (SFT) untuk enam model distill. Tabel berikut menjelaskan konfigurasi minimum yang direkomendasikan berdasarkan parameter dan dataset default:

Model distill

Model dasar

Metode pelatihan

Konfigurasi minimum

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

LoRA supervised fine-tuning

1 x A10 (24 GB memori video)

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

1 x A10 (24 GB memori video)

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

1 x A10 (24 GB memori video)

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

1 x GU8IS (48 GB memori video)

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

2 x GU8IS (48 GB memori video)

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

8 x GU100 (80 GB memori video)

Pelatihan model

  1. Buka halaman Model Gallery.

    1. Masuk ke Konsol PAI.

    2. Di pojok kiri atas, pilih wilayah sesuai kebutuhan bisnis Anda.

    3. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin digunakan.

    4. Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.

  2. Di halaman Model Gallery, klik kartu model DeepSeek-R1-Distill-Qwen-7B untuk masuk ke halaman detail.

    Halaman ini menyediakan informasi rinci tentang penerapan model dan pelatihan, seperti format data SFT dan metode pemanggilan.

    image

  3. Klik Train di pojok kanan atas dan konfigurasikan parameter utama berikut:

    • Konfigurasi Dataset: Setelah menyiapkan data, unggah data ke bucket Object Storage Service (OSS).

    • Sumber Daya Komputasi: Pilih sumber daya yang sesuai. Konfigurasi minimum yang diperlukan berdasarkan pengaturan default tercantum di Model yang Didukung. Jika perlu menyesuaikan hyperparameter, lebih banyak memori video mungkin diperlukan.

    • Hyperparameter: Tabel berikut menjelaskan hyperparameter yang didukung oleh LoRA SFT. Sesuaikan berdasarkan data dan sumber daya komputasi Anda. Untuk informasi lebih lanjut, lihat Panduan Fine-tuning LLM.

      Hyperparameter

      Tipe

      Nilai default

      (untuk model 7B sebagai contoh)

      Deskripsi

      learning_rate

      float

      5e-6

      Tingkat pembelajaran, yang mengontrol besarnya penyesuaian bobot model.

      num_train_epochs

      int

      6

      Jumlah kali set data pelatihan digunakan kembali.

      per_device_train_batch_size

      int

      2

      Jumlah sampel yang diproses oleh setiap GPU dalam satu iterasi pelatihan. Nilai yang lebih tinggi menghasilkan efisiensi pelatihan yang lebih tinggi dan penggunaan memori yang lebih tinggi.

      gradient_accumulation_steps

      int

      2

      Jumlah langkah akumulasi gradien.

      max_length

      int

      1024

      Panjang token maksimum dari data input yang diproses oleh model dalam satu sesi pelatihan.

      lora_rank

      int

      8

      Dimensi LoRA.

      lora_alpha

      int

      32

      Bobot LoRA.

      lora_dropout

      float

      0

      Tingkat dropout LoRA. Menjatuhkan neuron secara acak selama proses pelatihan membantu mencegah overfitting.

      lorap_lr_ratio

      float

      16

      Rasio laju pembelajaran di LoRA+ didefinisikan sebagai λ = ηB/ηA, di mana ηA dan ηB adalah laju pembelajaran untuk matriks adapter A dan B, masing-masing. Dibandingkan dengan LoRA standar, LoRA+ memungkinkan penggunaan laju pembelajaran yang berbeda untuk bagian-bagian penting dari proses, menghasilkan performa yang lebih baik dan fine-tuning yang lebih cepat tanpa meningkatkan permintaan komputasi. Saat lorap_lr_ratio diatur ke 0, LoRA standar digunakan alih-alih LoRA+.

  4. Klik Train. Anda akan diarahkan ke halaman pelatihan model, dan proses pelatihan akan dimulai. Di halaman ini, Anda dapat memantau status serta log dari pekerjaan pelatihan.

    image

    • Jika pelatihan berhasil, model akan otomatis didaftarkan di AI Asset Management - Models, di mana Anda dapat melihat atau menerapkannya. Untuk informasi lebih lanjut, lihat Daftar dan Kelola Model.

    • Jika pelatihan gagal, klik image di sebelah Status untuk mengetahui penyebabnya atau buka tab Task log untuk informasi lebih lanjut. Untuk kesalahan pelatihan umum dan solusinya, lihat Catatan Penggunaan dan FAQ tentang Model Gallery.

    • Bagian Metric Curve di bagian bawah halaman pelatihan menampilkan perkembangan loss selama pelatihan.

      image

  5. Setelah pelatihan berhasil, klik Deploy di pojok kanan atas untuk menerapkan model yang telah dilatih sebagai layanan EAS. Metode pemanggilan untuk model yang diterapkan sama dengan model distill aslinya. Anda dapat merujuk ke halaman detail model atau Satu-klik Penerapan DeepSeek-V3 dan DeepSeek-R1.

    image

Penagihan

Pelatihan di Model Gallery menggunakan kapasitas pelatihan dari Deep Learning Containers (DLC). DLC membebankan biaya berdasarkan durasi pekerjaan pelatihan. Setelah pekerjaan pelatihan selesai, konsumsi sumber daya akan berhenti secara otomatis dan tidak perlu dihentikan secara manual. Pelajari tentang Penagihan DLC.

Catatan penggunaan

Pemecahan masalah kegagalan tugas

  • Saat melatih, atur max_length (hyperparameter dalam konfigurasi pelatihan) yang sesuai. Algoritma pelatihan akan menghapus data apa pun yang melebihi max_length, dan log tugas akan menampilkan pesan berikut:

    imagePenghapusan data yang berlebihan dapat mengakibatkan dataset pelatihan/validasi kosong, yang mengarah pada kegagalan tugas pelatihan:

    image

  • Anda mungkin menemui log kesalahan berikut: failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold. Ini menunjukkan bahwa pekerjaan pelatihan dibatasi hingga 2 core GPU simultan. Melebihi batas ini akan memicu pembatasan sumber daya. Harap tunggu pekerjaan yang sedang berlangsung selesai sebelum memulai yang baru, atau ajukan tiket untuk meminta peningkatan kuota Anda.

  • Anda mungkin menemui log kesalahan berikut: the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match. Ini menunjukkan bahwa beberapa spesifikasi kehabisan sumber daya di zona saat ini. Anda dapat mencoba solusi berikut:

    • Jangan pilih vSwitch. DLC akan secara otomatis memilih vSwitch berdasarkan inventaris.

    • Gunakan spesifikasi lain.

Bagaimana cara mengunduh model yang telah dilatih?

Saat membuat pekerjaan pelatihan, Anda dapat mengatur jalur keluaran model ke jalur OSS. Setelah pelatihan, Anda dapat mengunduh model yang telah dilatih dari OSS.

image

Referensi