Solusi pre-training berkelanjutan untuk model besar - Platform For AI

Dalam artificial intelligence dan pemrosesan bahasa alami, large language model (LLM) merupakan pendorong utama kemajuan teknologi. Untuk aplikasi dunia nyata, pre-training berkelanjutan pada tugas atau domain tertentu menjadi kunci peningkatan performa model. Solusi ini menggunakan model Qwen2 sebagai contoh untuk menjelaskan cara melakukan pre-training berkelanjutan.

Persiapkan data untuk pre-training berkelanjutan

Solusi pre-training berkelanjutan untuk model besar menggunakan toolkit Pai-Megatron-Patch. Toolkit ini menyederhanakan pelatihan LLM dan vision language model (VLM) dengan framework Megatron serta memungkinkan penggunaan daya komputasi GPU secara efisien. Dengan Pai-Megatron-Patch, developer dapat dengan mudah menerapkan berbagai teknik akselerasi dari Megatron-LM untuk melatih large language model umum.

Selain itu, Pai-Megatron-Patch menggunakan data pre-training dalam format MMAP. Format ini telah dipre-tokenisasi, sehingga secara signifikan mengurangi waktu pemuatan data, terutama untuk dataset besar. Konversi data mentah ke format MMAP dengan mengikuti tutorial transformasi data. PAI-Designer juga menyediakan Komponen bawaan Convert text data to mmap format. Baik Anda menggunakan tutorial transformasi data maupun Komponen Designer, PAI-QuickStart mensyaratkan nama file data MMAP harus berupa dataset.bin dan dataset.idx. Untuk tujuan uji coba, PAI menyediakan dataset kecil yang telah diproses sebelumnya. Unduh dan gunakan langsung:

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.bin
wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama3-datasets/wudao_llama3bpe_content_document.idx
mv wudao_llama3bpe_content_document.bin dataset.bin
mv wudao_llama3bpe_content_document.idx dataset.idx

Gunakan PAI-QuickStart untuk pre-training model berkelanjutan

Setelah data disiapkan, Anda dapat langsung melakukan pre-training berkelanjutan pada model di PAI-QuickStart. Solusi ini menggunakan model Qwen2-72B sebagai contoh untuk menjelaskan cara melatih model dengan data pelatihan yang telah disiapkan.

Buka halaman Model Gallery.
1. Login ke PAI console.
2. Di pojok kiri atas, pilih Wilayah sesuai kebutuhan.
3. Di panel navigasi sebelah kiri, pilih Workspaces, lalu klik nama ruang kerja untuk masuk.
4. Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.
Di halaman Model Gallery, temukan daftar model di sebelah kanan. Klik kartu model Qwen2-72B-Pretrained (Megatron Version) untuk membuka halaman detail model.

Di halaman detail model, klik Train di pojok kanan atas. Konfigurasi utamanya adalah sebagai berikut:

Konfigurasi output pelatihan: Hanya dataset Storage Terlampir Jaringan (NAS) (Buat dataset) yang didukung sebagai saluran output. Di folder output, subfolder checkpoint menyimpan Megatron checkpoint yang disimpan selama proses pelatihan.
Konfigurasi sumber daya komputasi: Pre-training berkelanjutan untuk model Qwen2-72B memerlukan sumber daya komputasi empat node dengan 32 × GPU A100/A800/H800 (80 GB) atau spesifikasi lebih tinggi.

Pengaturan hiperparameter: Tabel berikut menjelaskan hiperparameter yang didukung oleh algoritma pelatihan. Sesuaikan hiperparameter berdasarkan data dan sumber daya komputasi Anda, atau gunakan konfigurasi default.

Hyperparameter	Nilai default	Tipe	Deskripsi
job_name	qwen2-72b-cpt	string	Menentukan tipe task Pelatihan model. Jangan ubah parameter ini.
batch_size	1	int	Jumlah data yang diproses oleh setiap kartu GPU dalam satu iterasi pelatihan.
global_batch_size	32	int	Jumlah total data yang diproses oleh semua kartu GPU dalam satu iterasi pelatihan. Dihitung sebagai batch_size × jumlah kartu GPU.
learning_rate	5e-5	float	Tingkat pembelajaran untuk pelatihan model.
min_learning_rate	5e-6	float	Tingkat pembelajaran minimum untuk pelatihan model.
sequence_length	1024	int	Panjang urutan teks.
pad_length	128	int	Panjang padding urutan teks.
save_interval	1000	int	Jumlah iterasi pelatihan antara penyimpanan setiap checkpoint.
train_tokens	1638400	int	Jumlah total token yang dikonsumsi oleh task pelatihan. Jumlah token yang dikonsumsi per iterasi dihitung sebagai global_batch_size × sequence_length.
warmup_tokens	163840	int	Jumlah total token yang dikonsumsi selama fase warmup task pelatihan.

Klik Train. PAI-QuickStart akan secara otomatis mengarahkan Anda ke halaman pelatihan model dan memulai pelatihan. Anda dapat melihat status dan log task pelatihan.

(Opsional) Konversi checkpoint model ke format Hugging Face

Format pre-training model Qwen2-72B adalah Megatron Dense Checkpoint. Untuk mengonversi checkpoint dalam format ini ke format model Hugging Face, lihat Konversi format model Megatron-Core.