Gunakan gambar kontainer AI Intel untuk menerapkan model Qwen-7B-Chat - Alibaba Cloud Linux

Topik ini menjelaskan cara menggunakan gambar kontainer Kecerdasan Buatan (AI) dari Alibaba Cloud AI Containers (AC2) untuk menerapkan model Qwen-7B-Chat pada instance Elastic Compute Service (ECS) dengan prosesor Intel guna membuat chatbot.

Langkah 1: Buat instance ECS

Buka halaman pembelian instance di konsol ECS.
Konfigurasikan parameter sesuai petunjuk untuk membuat instance ECS.
Catat parameter berikut. Untuk informasi lebih lanjut tentang konfigurasi parameter lainnya di halaman pembelian instance ECS, lihat Buat Instance di Tab Peluncuran Kustom.
- Instance: Model Qwen-7B-Chat membutuhkan sekitar 30 GiB memori. Untuk memastikan stabilitas, pilih ecs.g8i.4xlarge atau tipe instance lain dengan memori minimal 64 GiB.
- Image: Pilih gambar Alibaba Cloud Linux 3.2104 LTS 64-bit.
- Public IP Address: Untuk mempercepat unduhan model, pilih Assign Public IPv4 Address, atur Metode Penagihan Bandwidth ke Pay-by-traffic, dan setel Bandwidth Maksimum ke 100 Mbit/s.
- Data Disk: Beberapa file model Qwen-7B-Chat memerlukan ruang penyimpanan besar. Untuk memastikan performa optimal, tambahkan disk data 100-GiB.

Langkah 2: Buat lingkungan runtime Docker

Instal Docker.
Untuk panduan instalasi Docker pada instance ECS yang menjalankan Alibaba Cloud Linux 3, lihat Instal Docker.
Jalankan perintah berikut untuk memverifikasi bahwa daemon Docker telah dimulai:
```
sudo systemctl status docker
```
Jalankan perintah berikut untuk membuat dan menjalankan kontainer AI PyTorch.
AC2 menyediakan berbagai gambar kontainer AI, termasuk gambar PyTorch yang dioptimalkan untuk perangkat keras dan perangkat lunak Intel, sehingga memungkinkan Anda membuat lingkungan runtime PyTorch dengan cepat.
```
sudo docker pull ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/pytorch:2.0.1-3.2304
sudo docker run -itd --name pytorch --net host -v $HOME/workspace:/workspace \
  ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/pytorch:2.0.1-3.2304
```

Langkah 3: Terapkan Qwen-7B-Chat

Jalankan perintah berikut untuk masuk ke lingkungan kontainer:
```
sudo docker exec -it -w /workspace pytorch /bin/bash
```
Gunakan lingkungan kontainer untuk menjalankan perintah selanjutnya. Jika keluar secara tidak sengaja, masuk kembali menggunakan perintah sebelumnya. Jalankan cat /proc/1/cgroup | grep docker untuk memeriksa apakah lingkungan saat ini adalah kontainer. Jika ada output, maka lingkungan tersebut adalah kontainer.
Jalankan perintah berikut untuk menginstal dan mengonfigurasi perangkat lunak yang diperlukan:
```
yum install -y tmux git git-lfs wget
```
Jalankan perintah berikut untuk mengaktifkan Git Large File Storage (LFS).
Aktivasi Git LFS diperlukan untuk mengunduh model yang telah dilatih sebelumnya.
```
git lfs install
```
Unduh kode sumber dan model.
1. Jalankan perintah berikut untuk membuat sesi tmux:
```
tmux
```
  Catatan
  Proses pengunduhan model yang telah dilatih sebelumnya memerlukan waktu lama, dan tingkat keberhasilannya bergantung pada kondisi jaringan. Untuk mempertahankan koneksi ke instance ECS dan melanjutkan proses unduhan, disarankan menggunakan sesi tmux.
2. Jalankan perintah berikut untuk mengunduh kode sumber dan model yang telah dilatih sebelumnya dari proyek Qwen-7B:
```
git clone https://github.com/QwenLM/Qwen.git
git clone https://www.modelscope.cn/qwen/Qwen-7B-Chat.git qwen-7b-chat --depth=1
```
3. Jalankan perintah berikut untuk melihat direktori kerja saat ini:
```
ls -l
```
Jalankan perintah berikut untuk menerapkan lingkungan runtime.
Sejumlah dependensi Python AI terintegrasi dalam AC2. Gunakan Yellowdog Updater Modified (YUM) atau Dandified YUM (DNF) untuk menginstal dependensi runtime Python.
```
yum install -y python3-{transformers{,-stream-generator},tiktoken,accelerate} python-einops
```
Berinteraksi dengan chatbot.
1. Jalankan perintah berikut untuk memodifikasi parameter muatan model.
  Skrip terminal sampel disediakan dalam kode sumber proyek, memungkinkan Anda menjalankan model Qwen-7B-Chat untuk berinteraksi dengan chatbot secara lokal. Sebelum menjalankan skrip, modifikasi parameter muatan model untuk memuat model dengan presisi BFloat16 dan mempercepat proses pemuatan menggunakan set instruksi AVX-512 untuk CPU.
```
cd /workspace/Qwen
grep "torch.bfloat16" cli_demo.py 2>&1 >/dev/null || sed -i "57i\torch_dtype=torch.bfloat16," cli_demo.py
```
2. Jalankan perintah berikut untuk memulai chatbot:
```
cd /workspace/Qwen
python3 cli_demo.py -c ../qwen-7b-chat --cpu-only
```
  Setelah penyebaran selesai, masukkan teks di prompt User> untuk berinteraksi dengan model Qwen-7B-Chat secara real-time.
  Catatan
  Jalankan perintah :exit untuk keluar dari chatbot.