全部产品
Search
文档中心

Object Storage Service:Gunakan OSS Connector untuk AI/ML untuk mengakses dan menyimpan data OSS dalam pekerjaan pelatihan PyTorch

更新时间:Jul 06, 2025

Object Storage Service (OSS) Connector untuk AI/ML adalah pustaka Python yang digunakan untuk mengakses dan menyimpan data OSS secara efisien dalam pekerjaan pelatihan PyTorch.

Manfaat

Item

Jangan gunakan OSS Connector untuk AI/ML

Gunakan OSS Connector untuk AI/ML

Kinerja

Anda harus mengoptimalkan kinerja secara manual, yang mungkin tidak efisien.

OSS Connector untuk AI/ML secara otomatis mengoptimalkan kinerja unduhan data OSS dan penyimpanan checkpoint.

Metode pemuatan data

Anda harus mengunduh data terlebih dahulu, yang meningkatkan biaya dan beban kerja manajemen.

OSS Connector untuk AI/ML mendukung stream load untuk mengurangi biaya dan kompleksitas manajemen.

Akses data

Anda harus membaca dan menulis data menggunakan adaptor, yang meningkatkan kompleksitas akses.

OSS Connector untuk AI/ML langsung membaca dan menulis data di OSS untuk menyederhanakan akses.

Tingkat kesulitan konfigurasi

Anda harus mengompilasi kode, yang membuat konfigurasi sulit.

OSS Connector untuk AI/ML menyediakan item konfigurasi sederhana untuk meningkatkan efisiensi pengembangan.

Cara kerjanya

Gambar berikut menunjukkan cara OSS Connector untuk AI/ML menjalankan pekerjaan pelatihan PyTorch dengan menggunakan data di OSS.

Deskripsi fitur

Tabel berikut menjelaskan fitur utama dari OSS Connector untuk AI/ML.

Item

Fitur

Kelas

Metode

Dataset gaya peta

Cocok untuk akses acak untuk memfasilitasi akses cepat ke data tertentu selama pelatihan.

OssMapDataset

Kelas OssMapDataset dan OssIterableDataset menyediakan metode yang sama untuk membangun dataset.

  • from_prefix()

    Gunakan prefix OSS_URI untuk membangun dataset. Metode ini cocok untuk skenario di mana jalur penyimpanan data OSS memiliki aturan seragam.

  • from_objects()

    Gunakan daftar OSS_URI di OSS untuk membangun dataset. Metode ini cocok untuk skenario di mana jalur penyimpanan data OSS jelas tetapi tersebar.

  • from_manifest_file()

    Buat file manifest dan gunakan file manifest untuk membangun dataset. Metode ini cocok untuk skenario di mana dataset yang ingin Anda buat berisi sejumlah besar file, seperti puluhan juta, dataset sering dimuat, dan pengindeksan data diaktifkan untuk bucket.

Dataset gaya iterable

Cocok untuk pembacaan streaming berurutan dan memungkinkan Anda memproses sejumlah besar aliran data kontinu secara efisien.

OssIterableDataset

Operasi API checkpoint

Memuat checkpoint dari OSS selama pelatihan model dan menyimpan checkpoint ke OSS setelah pelatihan model periodik. Dengan cara ini, alur kerja disederhanakan.

OssCheckpoint

  • OssCheckpoint()

    Inisialisasi objek OssCheckpoint yang digunakan untuk membaca dan menulis checkpoint selama pelatihan model.

  • reader()

    Baca checkpoint dari OSS.

  • writer()

    Tulis checkpoint ke OSS.

Prosedur

Casus penggunaan

  • Jika ingin dengan cepat mempelajari cara menggunakan data OSS untuk menjalankan pekerjaan pelatihan PyTorch dan menyimpan hasil pelatihan ke OSS, kami menyediakan demo yang menggunakan OSS Connector untuk AI/ML untuk melatih model pengenalan digit tulisan tangan. Untuk informasi lebih lanjut, lihat Mulai dengan OSS Connector untuk AI/ML.

  • Untuk lebih meningkatkan kinerja OSS Connector untuk AI/ML, disarankan menggunakan titik akhir dipercepat dari Akselerator OSS daripada titik akhir internal OSS. Untuk informasi lebih lanjut tentang perbandingan kinerja antara OSS Connector untuk AI/ML yang menggunakan titik akhir internal OSS dan yang menggunakan titik akhir dipercepat dari Akselerator OSS, lihat Pengujian kinerja.

  • Jika ingin menggunakan OSS Connector untuk AI/ML dalam lingkungan terkontainerisasi, Anda dapat menggunakan gambar Docker yang berisi lingkungan OSS Connector untuk AI/ML. Untuk informasi lebih lanjut tentang cara membangun gambar Docker, lihat Bangun gambar Docker yang berisi lingkungan OSS Connector untuk AI/ML.