Bagian ini menjelaskan cara membaca dan menulis checkpoint (status model yang disimpan selama pelatihan model pada titik waktu tertentu) langsung dari bucket OSS menggunakan OssCheckpoint.
Prasyarat
OSS Connector untuk AI/ML telah diinstal dan dikonfigurasi. Untuk informasi lebih lanjut, lihat Instal OSS Connector untuk AI/ML dan Konfigurasikan OSS Connector untuk AI/ML.
OssCheckpoint
OssCheckpoint cocok untuk skenario yang melibatkan pembacaan dan penulisan hasil selama proses pelatihan data.
Contoh berikut menunjukkan cara membaca dan menulis checkpoint menggunakan OssCheckpoint.
import torch
from osstorchconnector import OssCheckpoint
ENDPOINT = "endpoint"
CRED_PATH = "/root/.alibabacloud/credentials"
CONFIG_PATH = "/etc/oss-connector/config.json"
# Buat checkpoint menggunakan OssCheckpoint
checkpoint = OssCheckpoint(endpoint=ENDPOINT, cred_path=CRED_PATH, config_path=CONFIG_PATH)
# Baca checkpoint
CHECKPOINT_READ_URI = "oss://checkpoint/epoch.0"
with checkpoint.reader(CHECKPOINT_READ_URI) as reader:
state_dict = torch.load(reader)
# Tulis checkpoint
CHECKPOINT_WRITE_URI = "oss://checkpoint/epoch.1"
with checkpoint.writer(CHECKPOINT_WRITE_URI) as writer:
torch.save(state_dict, writer)
Tipe data
Objek checkpoint yang dibuat menggunakan OssCheckpoint menyediakan operasi I/O umum. Untuk informasi lebih lanjut, lihat Tipe Data di OSS Connector untuk AI/ML.
Parameter
Tabel berikut menjelaskan parameter yang perlu dikonfigurasi saat menggunakan OssCheckpoint.
Parameter | Tipe | Diperlukan | Deskripsi |
endpoint | string | Ya | Titik akhir yang digunakan untuk mengakses OSS. Untuk informasi lebih lanjut, lihat titik akhir dan pusat data. |
cred_path | string | Ya | Jalur file autentikasi. Nilai default adalah |
config_path | string | Ya | Jalur file konfigurasi OSS Connector. Nilai default adalah |