全部产品
Search
文档中心

Platform For AI:Solusi pre-training berkelanjutan untuk model besar

更新时间:Jan 29, 2026

Dalam artificial intelligence dan pemrosesan bahasa alami, large language model (LLM) merupakan pendorong utama kemajuan teknologi. Untuk aplikasi dunia nyata, pre-training berkelanjutan pada tugas atau domain tertentu menjadi kunci peningkatan performa model. Solusi ini menggunakan model Qwen2 sebagai contoh untuk menjelaskan cara melakukan pre-training berkelanjutan.

Persiapkan data untuk pre-training berkelanjutan

Solusi pre-training berkelanjutan untuk model besar menggunakan toolkit Pai-Megatron-Patch. Toolkit ini menyederhanakan pelatihan LLM dan vision language model (VLM) dengan framework Megatron serta memungkinkan penggunaan daya komputasi GPU secara efisien. Dengan Pai-Megatron-Patch, developer dapat dengan mudah menerapkan berbagai teknik akselerasi dari Megatron-LM untuk melatih large language model umum.

Selain itu, Pai-Megatron-Patch menggunakan data pre-training dalam format MMAP. Format ini telah dipre-tokenisasi, sehingga secara signifikan mengurangi waktu pemuatan data, terutama untuk dataset besar. Konversi data mentah ke format MMAP dengan mengikuti tutorial transformasi data. PAI-Designer juga menyediakan Komponen bawaan Convert text data to mmap format. Baik Anda menggunakan tutorial transformasi data maupun Komponen Designer, PAI-QuickStart mensyaratkan nama file data MMAP harus berupa dataset.bin dan dataset.idx. Untuk tujuan uji coba, PAI menyediakan dataset kecil yang telah diproses sebelumnya. Unduh dan gunakan langsung:

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.bin
wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.idx
mv wudao_llama3bpe_content_document.bin dataset.bin
mv wudao_llama3bpe_content_document.idx dataset.idx

Gunakan PAI-QuickStart untuk pre-training model berkelanjutan

Setelah data disiapkan, Anda dapat langsung melakukan pre-training berkelanjutan pada model di PAI-QuickStart. Solusi ini menggunakan model Qwen2-72B sebagai contoh untuk menjelaskan cara melatih model dengan data pelatihan yang telah disiapkan.

  1. Buka halaman Model Gallery.

    1. Login ke PAI console.

    2. Di pojok kiri atas, pilih Wilayah sesuai kebutuhan.

    3. Di panel navigasi sebelah kiri, pilih Workspaces, lalu klik nama ruang kerja untuk masuk.

    4. Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.

  2. Di halaman Model Gallery, temukan daftar model di sebelah kanan. Klik kartu model Qwen2-72B-Pretrained (Megatron Version) untuk membuka halaman detail model.

  3. Di halaman detail model, klik Train di pojok kanan atas. Konfigurasi utamanya adalah sebagai berikut:

    • Konfigurasi output pelatihan: Hanya dataset Storage Terlampir Jaringan (NAS) (Buat dataset) yang didukung sebagai saluran output. Di folder output, subfolder checkpoint menyimpan Megatron checkpoint yang disimpan selama proses pelatihan.

    • Konfigurasi sumber daya komputasi: Pre-training berkelanjutan untuk model Qwen2-72B memerlukan sumber daya komputasi empat node dengan 32 × GPU A100/A800/H800 (80 GB) atau spesifikasi lebih tinggi.

    • Pengaturan hiperparameter: Tabel berikut menjelaskan hiperparameter yang didukung oleh algoritma pelatihan. Sesuaikan hiperparameter berdasarkan data dan sumber daya komputasi Anda, atau gunakan konfigurasi default.

      Hyperparameter

      Nilai default

      Tipe

      Deskripsi

      job_name

      qwen2-72b-cpt

      string

      Menentukan tipe task Pelatihan model. Jangan ubah parameter ini.

      batch_size

      1

      int

      Jumlah data yang diproses oleh setiap kartu GPU dalam satu iterasi pelatihan.

      global_batch_size

      32

      int

      Jumlah total data yang diproses oleh semua kartu GPU dalam satu iterasi pelatihan. Dihitung sebagai batch_size × jumlah kartu GPU.

      learning_rate

      5e-5

      float

      Tingkat pembelajaran untuk pelatihan model.

      min_learning_rate

      5e-6

      float

      Tingkat pembelajaran minimum untuk pelatihan model.

      sequence_length

      1024

      int

      Panjang urutan teks.

      pad_length

      128

      int

      Panjang padding urutan teks.

      save_interval

      1000

      int

      Jumlah iterasi pelatihan antara penyimpanan setiap checkpoint.

      train_tokens

      1638400

      int

      Jumlah total token yang dikonsumsi oleh task pelatihan. Jumlah token yang dikonsumsi per iterasi dihitung sebagai global_batch_size × sequence_length.

      warmup_tokens

      163840

      int

      Jumlah total token yang dikonsumsi selama fase warmup task pelatihan.

  4. Klik Train. PAI-QuickStart akan secara otomatis mengarahkan Anda ke halaman pelatihan model dan memulai pelatihan. Anda dapat melihat status dan log task pelatihan.

(Opsional) Konversi checkpoint model ke format Hugging Face

Format pre-training model Qwen2-72B adalah Megatron Dense Checkpoint. Untuk mengonversi checkpoint dalam format ini ke format model Hugging Face, lihat Konversi format model Megatron-Core.