全部产品
Search
文档中心

Cloud Parallel File Storage:Tugas Dataflow

更新时间:Jul 02, 2025

Cloud Parallel File Storage (CPFS) untuk Lingjun mendukung tugas dataflow batch dan streaming. Anda dapat memilih tipe tugas sesuai dengan kebutuhan bisnis Anda.

Tugas Batch

Tugas batch memungkinkan Anda mengimpor semua file dari satu direktori ke direktori lain secara bersamaan. Tipe tugas ini cocok untuk memuat dataset sebelum pelatihan dimulai.

Tugas Streaming

Tugas streaming memungkinkan Anda mengimpor file dari satu direktori ke direktori lain satu per satu. Tipe tugas ini cocok untuk membaca dan menulis beberapa file checkpoint secara terus-menerus selama komputasi pelatihan model.

Catatan
  • Hanya CPFS untuk Lingjun V2.6.0 dan versi lebih baru yang mendukung tugas streaming.

  • Anda hanya dapat menggunakan tugas streaming dengan memanggil operasi API. Untuk informasi lebih lanjut, lihat Praktik Terbaik Tugas Dataflow Streaming.

Deskripsi Tugas

Tugas dataflow diklasifikasikan menjadi tipe berikut: Impor, Ekspor, StreamImpor, dan StreamEkspor berdasarkan operasi data.

Tipe

Deskripsi

Impor

Mengimpor data dari Bucket Object Storage Service (OSS) sumber ke sistem file CPFS untuk Lingjun sekaligus.

  • Blok data dan metadata sebuah objek dapat diimpor.

  • Path impor adalah path sebuah objek dalam bucket OSS. Tugas dataflow mengimpor data dari path objek dalam bucket OSS ke sistem file CPFS untuk Lingjun.

Ekspor

Mengekspor data yang ditentukan dari sistem file CPFS untuk Lingjun ke bucket OSS sekaligus.

Path ekspor adalah path sebuah file atau direktori dalam sistem file CPFS untuk Lingjun. Tugas dataflow mengekspor data dari path file atau direktori dalam sistem file CPFS untuk Lingjun ke bucket OSS.

Peringatan
  • CPFS untuk Lingjun mengekspor atribut timestamp Modifikasi File ke metadata kustom bucket OSS. Field metadata tersebut diberi nama x-oss-meta-alihbr-sync-mtime dan tidak dapat dihapus atau dimodifikasi. Jika tidak, kesalahan akan terjadi saat Anda mengakses atribut timestamp Modifikasi File sistem file.

  • Saat dataflow sedang digunakan, jangan nonaktifkan versioning bucket OSS sumber. Jika tidak, kesalahan akan dilaporkan saat Anda menjalankan tugas ekspor. Untuk informasi lebih lanjut, lihat Versioning.

StreamImpor

Mengimpor objek yang ditentukan dari bucket OSS sumber ke sistem file CPFS untuk Lingjun satu per satu. Anda hanya dapat menggunakan tugas StreamImpor dengan memanggil operasi API.

  • Blok data dan metadata sebuah objek dapat diimpor.

  • Path impor adalah path sebuah objek dalam bucket OSS. Tugas dataflow mengimpor data dari path objek dalam bucket OSS ke sistem file CPFS untuk Lingjun.

StreamEkspor

Mengekspor file yang ditentukan dari sistem file CPFS untuk Lingjun ke bucket OSS satu per satu. Anda hanya dapat menggunakan tugas StreamEkspor dengan memanggil operasi API.

Path ekspor adalah path sebuah file atau direktori dalam sistem file CPFS untuk Lingjun. Tugas dataflow mengekspor data dari path file atau direktori dalam sistem file CPFS untuk Lingjun ke bucket OSS.