All Products
Search
Document Center

Platform For AI:Pre-training lanjutan untuk LLM

Last Updated:Apr 11, 2026

Lakukan pre-training lanjutan pada model Qwen2 di PAI-QuickStart untuk meningkatkan performa model pada domain atau tugas tertentu.

Persiapkan data untuk pre-training lanjutan

Pre-training lanjutan menggunakan toolkit Pai-Megatron-Patch. Toolkit ini menyederhanakan pelatihan large language models (LLM) dan vision language models (VLM) dengan framework Megatron, menerapkan teknik akselerasi dari Megatron-LM untuk melatih berbagai large language models umum serta memanfaatkan daya komputasi GPU secara optimal.

Pai-Megatron-Patch menggunakan data pre-training dalam format MMAP. Format yang telah di-tokenisasi ini mengurangi waktu pemuatan data, terutama untuk set data berukuran besar. Konversi data mentah ke format MMAP dengan mengikuti tutorial konversi data atau menggunakan komponen bawaan "Convert text data to mmap format" di PAI-Designer. Baik Anda menggunakan tutorial konversi data maupun PAI-Designer, PAI-QuickStart memerlukan file data MMAP dengan nama dataset.bin dan dataset.idx. Untuk percobaan, PAI menyediakan set data sampel kecil yang telah diproses sebelumnya:

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.bin
wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.idx
mv wudao_llama3bpe_content_document.bin dataset.bin
mv wudao_llama3bpe_content_document.idx dataset.idx

Gunakan PAI-QuickStart untuk pre-training lanjutan

Setelah data disiapkan, lakukan pre-training lanjutan pada model di PAI-QuickStart. Prosedur berikut menggunakan model Qwen2-72B sebagai contoh.

  1. Buka halaman Model Gallery.

    1. Login ke Konsol PAI.

    2. Di pojok kiri atas, pilih Wilayah.

    3. Di panel navigasi sebelah kiri, pilih Workspaces, lalu klik nama ruang kerja.

    4. Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.

  2. Di halaman Model Gallery, temukan dan klik Qwen2-72B-Pre-trained (Megatron Edition).

  3. Di halaman Model Details, klik Train di pojok kanan atas. Konfigurasikan pengaturan utama berikut:

    • Training output: Tetapkan output ke dataset NAS. Untuk informasi lebih lanjut, lihat Buat dataset. Checkpoint Megatron disimpan ke subfolder checkpoint di folder output.

    • Compute resources: Qwen2-72B memerlukan minimal 32 GPU A100/A800/H100/H800 (80 GB) yang tersebar di empat node.

    • Hyperparameters: Sesuaikan hiperparameter berdasarkan dataset dan sumber daya komputasi Anda, atau gunakan nilai default.

      Parameter

      Default

      Tipe

      Deskripsi

      job_name

      qwen2-72b-cpt

      string

      Menentukan jenis tugas pelatihan. Jangan ubah.

      batch_size

      1

      int

      Jumlah sampel data yang diproses per GPU per iterasi.

      global_batch_size

      32

      int

      Total sampel data yang diproses di seluruh GPU per iterasi. Dihitung sebagai batch_size * jumlah GPU.

      learning_rate

      5e-5

      float

      Tingkat pembelajaran.

      min_learning_rate

      5e-6

      float

      Tingkat pembelajaran minimum.

      sequence_length

      1024

      int

      Panjang urutan teks.

      pad_length

      128

      int

      Panjang padding untuk urutan teks.

      save_interval

      1000

      int

      Jumlah iterasi pelatihan antar checkpoint.

      train_tokens

      1638400

      int

      Total token untuk pelatihan. Token yang dikonsumsi per iterasi = global_batch_size * sequence_length.

      warmup_tokens

      163840

      int

      Total token untuk fase warmup.

  4. Klik Train. PAI-QuickStart akan mengarahkan Anda ke halaman pelatihan dan memulai proses pelatihan. Lihat status dan log tugas pelatihan di halaman ini.

(Opsional) Konversi checkpoint model ke format Hugging Face

Output pre-training Qwen2-72B menggunakan format Megatron Dense Checkpoint. Untuk mengonversi format ini ke format Hugging Face, lihat Konversi format model Megatron-Core.