Lakukan pre-training lanjutan pada model Qwen2 di PAI-QuickStart untuk meningkatkan performa model pada domain atau tugas tertentu.
Persiapkan data untuk pre-training lanjutan
Pre-training lanjutan menggunakan toolkit Pai-Megatron-Patch. Toolkit ini menyederhanakan pelatihan large language models (LLM) dan vision language models (VLM) dengan framework Megatron, menerapkan teknik akselerasi dari Megatron-LM untuk melatih berbagai large language models umum serta memanfaatkan daya komputasi GPU secara optimal.
Pai-Megatron-Patch menggunakan data pre-training dalam format MMAP. Format yang telah di-tokenisasi ini mengurangi waktu pemuatan data, terutama untuk set data berukuran besar. Konversi data mentah ke format MMAP dengan mengikuti tutorial konversi data atau menggunakan komponen bawaan "Convert text data to mmap format" di PAI-Designer. Baik Anda menggunakan tutorial konversi data maupun PAI-Designer, PAI-QuickStart memerlukan file data MMAP dengan nama dataset.bin dan dataset.idx. Untuk percobaan, PAI menyediakan set data sampel kecil yang telah diproses sebelumnya:
wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.bin
wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.idx
mv wudao_llama3bpe_content_document.bin dataset.bin
mv wudao_llama3bpe_content_document.idx dataset.idxGunakan PAI-QuickStart untuk pre-training lanjutan
Setelah data disiapkan, lakukan pre-training lanjutan pada model di PAI-QuickStart. Prosedur berikut menggunakan model Qwen2-72B sebagai contoh.
Buka halaman Model Gallery.
Login ke Konsol PAI.
Di pojok kiri atas, pilih Wilayah.
Di panel navigasi sebelah kiri, pilih Workspaces, lalu klik nama ruang kerja.
Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.
Di halaman Model Gallery, temukan dan klik Qwen2-72B-Pre-trained (Megatron Edition).
Di halaman Model Details, klik Train di pojok kanan atas. Konfigurasikan pengaturan utama berikut:
Training output: Tetapkan output ke dataset NAS. Untuk informasi lebih lanjut, lihat Buat dataset. Checkpoint Megatron disimpan ke subfolder
checkpointdi folder output.Compute resources: Qwen2-72B memerlukan minimal 32 GPU A100/A800/H100/H800 (80 GB) yang tersebar di empat node.
Hyperparameters: Sesuaikan hiperparameter berdasarkan dataset dan sumber daya komputasi Anda, atau gunakan nilai default.
Parameter
Default
Tipe
Deskripsi
job_name
qwen2-72b-cpt
string
Menentukan jenis tugas pelatihan. Jangan ubah.
batch_size
1
int
Jumlah sampel data yang diproses per GPU per iterasi.
global_batch_size
32
int
Total sampel data yang diproses di seluruh GPU per iterasi. Dihitung sebagai
batch_size* jumlah GPU.learning_rate
5e-5
float
Tingkat pembelajaran.
min_learning_rate
5e-6
float
Tingkat pembelajaran minimum.
sequence_length
1024
int
Panjang urutan teks.
pad_length
128
int
Panjang padding untuk urutan teks.
save_interval
1000
int
Jumlah iterasi pelatihan antar checkpoint.
train_tokens
1638400
int
Total token untuk pelatihan. Token yang dikonsumsi per iterasi =
global_batch_size*sequence_length.warmup_tokens
163840
int
Total token untuk fase warmup.
Klik Train. PAI-QuickStart akan mengarahkan Anda ke halaman pelatihan dan memulai proses pelatihan. Lihat status dan log tugas pelatihan di halaman ini.
(Opsional) Konversi checkpoint model ke format Hugging Face
Output pre-training Qwen2-72B menggunakan format Megatron Dense Checkpoint. Untuk mengonversi format ini ke format Hugging Face, lihat Konversi format model Megatron-Core.