Anda dapat menggunakan set data di node, seperti node Shell, Python, dan Notebook, untuk membaca dan menulis data di NAS atau OSS. Set data juga dapat digunakan sebagai penyimpanan saat membuat instans lingkungan pengembangan pribadi.
Untuk informasi selengkapnya tentang cara membuat set data, lihat Kelola Set Data.
Latar Belakang
Saat mengembangkan data di DataWorks, Anda dapat memanfaatkan fitur set data untuk membaca dan menulis data yang disimpan di OSS dan NAS. Fitur ini mendukung pembuatan dan pengelolaan set data beserta versinya. Dengan pengelolaan versi, Anda dapat melacak perubahan data dan dengan cepat kembali ke versi sebelumnya jika terjadi masalah pada versi baru, sehingga membantu menjaga kelancaran operasi bisnis.
Batasan
Set data hanya didukung di versi baru DataStudio.
Kelompok sumber daya: Anda hanya dapat mengakses set data di node pengembangan data menggunakan kelompok sumber daya Serverless.
Objek yang didukung: Set data hanya didukung di node Shell, node Python, Notebook, dan lingkungan pengembangan pribadi. Anda dapat memasang maksimal 5 set data ke setiap objek.
Kelas penyimpanan: Set data mendukung Object Storage Service (OSS) dan Apsara File Storage NAS (NAS) yang menggunakan protokol NFS.
Izin: Jika titik pemasangan set data diatur sebagai read-only, Anda tidak dapat memodifikasi atau menghapus folder atau file dalam set data tersebut. Upaya untuk melakukannya akan menghasilkan kesalahan izin.
Gunakan set data di node
Bagian ini memberikan contoh penggunaan set data di sebuah node. Dalam contoh ini, sebuah set data OSS dibuat di DataWorks. Jalur OSS oss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/ dipasang ke jalur set data DataWorks /mnt/data/dataset01. Setelah itu, Anda dapat melakukan operasi baca dan tulis pada set data tersebut di dalam node.
Persiapan: Buat set data
Buat bucket atau buat sistem file.
Contoh ini menggunakan set data OSS. Sebuah bucket bernama
datasets-ossdibuat di wilayah Tiongkok (Shanghai), dan folder/dataset01/v1dibuat.Dalam contoh ini, sebuah set data OSS bernama
datasets-ossdibuat. Jalur OSSoss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/dipasang ke/mnt/data/dataset01.
1. Konfigurasikan set data untuk sebuah node
Konfigurasikan set data datasets-oss di Debug Configurations sebuah node Shell atau Python.
Sebelum menerbitkan, Anda harus menambahkan dan menyinkronkan set data ke Scheduling Configuration.
Anda harus mengalokasikan minimal 0,5 unit komputasi (CU) ke node tersebut untuk menggunakan set data.

Parameter | Deskripsi |
Dataset | Konfigurasikan set data yang dapat diakses dalam kode node saat ini.
Dalam contoh ini, pilih set data OSS |
Mount Path | Konfigurasikan jalur yang digunakan kode pada node saat ini untuk mengakses set data. Kolom ini secara otomatis diisi dengan Default Mount Path dari definisi set data. Penting Jalur pemasangan tidak boleh sama jika Anda memasang beberapa set data ke node yang sama. |
Advanced Configuration | Opsional. Anda dapat menentukan alat dan parameter untuk membaca dan menulis data OSS atau menentukan konfigurasi untuk membaca dan menulis sistem file NAS dalam format JSON.
|
Read-only | Secara default, Anda dapat membaca dan menulis data dalam set data pada node saat ini. Jika set data diatur sebagai read-only untuk node saat ini, Anda tidak dapat menulis data ke folder pemasangan set data dalam kode node tersebut. Jika Anda melakukan operasi tulis dalam kode, kesalahan izin akan dilaporkan. |
2. Gunakan set data di node
Bagian ini menggunakan node Shell sebagai contoh. Setelah Anda menyambungkan set data OSS ke node Shell, Anda dapat mengelola data OSS dalam kode node Shell seperti mengelola file lokal. Contoh berikut menunjukkan cara menggunakan alat ossfs 2.0 default untuk mengunggah file file01.txt ke jalur pemasangan /mnt/data/dataset01 dari set data datasets-oss dan menulis data ke file tersebut.
Kode contoh:
echo "Hello World" > /mnt/data/dataset01/file01.txt
ls -tl /mnt/data/dataset01
Jika pesan kesalahan Job Submit Failed! submit job failed directly! Caused by: execute task failed, exception: [103:ILLEGAL_TASK]:Task with dataset need 0.5cu at least! dilaporkan selama waktu proses, hal ini menunjukkan bahwa CU yang dialokasikan ke tugas tidak mencukupi. Sesuaikan CU kelompok sumber daya dan alokasikan minimal 0,5 CU.
3. Verifikasi bahwa data telah ditulis di OSS
Setelah kode di 2. Gunakan set data di node dieksekusi, file tersebut secara otomatis ditulis ke jalur penyimpanan OSS yang sesuai dengan jalur pemasangan set data. Anda dapat menavigasi ke jalur penyimpanan OSS untuk melihat file yang ditulis dari node DataWorks. Dalam contoh ini, jalur penyimpanan yang sesuai dengan jalur pemasangan /mnt/data/dataset01 dari set data OSS datasets-oss adalah oss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/. Gambar berikut menunjukkan contoh data yang ditulis ke jalur OSS.

Gunakan set data di lingkungan pengembangan pribadi
Setelah Anda mendefinisikan set data, Anda dapat memasangnya ke instans lingkungan pengembangan pribadi saat membuat atau memodifikasi instans tersebut. Selanjutnya, Anda dapat langsung membaca data dari set data tersebut di terminal atau Notebook di folder pribadi Anda.
Persiapan: Buat set data
Buat bucket atau buat sistem file.
Contoh ini menggunakan set data NAS. Sebuah set data NAS bernama
datasets-nasdibuat di wilayah Tiongkok (Shanghai). Jalur NASnas://****.cn-shanghai.nas.aliyuncs.com/mnt/dataset02/v1/dipasang ke/mnt/data/dataset02.
1. Konfigurasikan set data untuk lingkungan pengembangan pribadi
Buat instans lingkungan pengembangan pribadi dan pilih set data NAS datasets-nas yang telah Anda buat.

Parameter | Deskripsi |
Dataset | Konfigurasikan set data yang dapat diakses dalam kode node saat ini. Pastikan VPC yang dipilih untuk instans lingkungan pengembangan pribadi dapat terhubung ke titik pemasangan NAS. Dalam contoh ini, pilih set data NAS |
Mount Path | Konfigurasikan jalur untuk mengakses set data dalam kode instans lingkungan pengembangan pribadi. Dalam contoh ini, jalur set data NAS Penting Jalur pemasangan tidak boleh sama jika Anda memasang beberapa set data ke instans lingkungan pengembangan pribadi yang sama. |
Advanced Configuration | Opsional. Anda dapat menentukan konfigurasi untuk mengakses sistem file NAS yang menggunakan protokol NFS (parameter nasOptions) dalam format JSON. Kode berikut menunjukkan konfigurasi default. Anda juga dapat merujuk ke Memasang sistem file NFS secara manual untuk menyesuaikan nilai parameter. Penting
|
Read-only | Secara default, Anda dapat membaca dan menulis data dalam set data pada node saat ini. Jika set data diatur sebagai read-only untuk node saat ini, Anda tidak dapat menulis data ke folder pemasangan set data dalam kode node tersebut. Jika Anda melakukan operasi tulis dalam kode, kesalahan izin akan dilaporkan. |
2. Baca set data di Notebook
Di bagian atas halaman Data Studio, beralihlah ke instans lingkungan pengembangan pribadi dan buat Notebook.
Konfigurasikan konten berikut di Notebook.
Tulis data ke jalur tertentu dalam set data.
import os # Definisikan jalur tujuan dan nama file. file_path = "/mnt/data/dataset02/file02.txt" # Pastikan folder tersebut ada. Jika folder tidak ada, buatlah. os.makedirs(os.path.dirname(file_path),exist_ok=True) # Tulis kontennya. content = "Hello World!" try: with open(file_path, "w", encoding="utf-8") as file: file.write(content) print(f"File berhasil ditulis ke: {file_path}") except Exception as e: print(f"Gagal menulis: {str(e)}")Baca data dari jalur tertentu dalam set data.
file_path = "/mnt/data/dataset02/file02.txt" with open(file_path, "r") as file: content = file.read() content
Jalankan kedua blok kode Python tersebut secara terpisah.
CatatanSelama waktu proses, Anda harus mengonfirmasi kernel Python. Contoh ini menggunakan Python 3.11.9.

3. Konfigurasikan penjadwalan
Di sisi kanan node Notebook, klik Scheduling Settings dan tambahkan opsi terkait set data. Konfigurasi parameter harus sama dengan parameter set data yang Anda tetapkan saat membuat instans lingkungan pengembang pribadi.
Contoh konfigurasi lanjutan
Saat mengonfigurasi set data, Anda dapat mengatur konfigurasi lanjutan dalam format JSON:
Saat Anda mengonfigurasi set data untuk sebuah node, Anda dapat menggunakan konfigurasi lanjutan untuk menentukan alat dan parameter untuk membaca dan menulis data OSS, atau menentukan konfigurasi untuk membaca dan menulis sistem file NAS dalam format JSON.
Saat Anda mengonfigurasi set data untuk lingkungan pengembangan pribadi, Anda dapat mengatur parameter lanjutan untuk menentukan konfigurasi untuk membaca dan menulis sistem file NAS dalam format JSON.
Berikut beberapa contoh konfigurasi:
Gunakan ossfs 2.0 untuk memasang dan mengakses OSS
ossfs 2.0 adalah klien yang dirancang untuk akses berkinerja tinggi ke OSS melalui pemasangan. Alat ini menyediakan kemampuan baca dan tulis berurutan yang sangat baik serta dapat memanfaatkan bandwidth tinggi OSS secara optimal. Alat ini cocok untuk skenario yang memerlukan kinerja baca dan tulis berurutan tinggi, seperti pelatihan AI dan aplikasi komputasi-intensif seperti pemrosesan data. Skenario beban kerja ini terutama melibatkan pembacaan berurutan dan acak, penulisan berurutan (append-only), dan tidak memerlukan semantik POSIX lengkap.
Di , Anda dapat mengatur parameter lanjutan. Pisahkan beberapa opsi dengan koma (,). Untuk informasi selengkapnya tentang parameter lanjutan dan opsi lainnya, lihat opsi pemasangan ossfs 2.0. Berikut adalah contoh skenario umum:
Sumber data tidak berubah selama tugas: Jika tidak ada file yang akan dibaca yang dimodifikasi selama proses pembacaan, Anda dapat mengonfigurasi waktu cache yang panjang untuk mengurangi jumlah permintaan metadata. Skenario khas adalah membaca sejumlah file yang sudah ada dan menghasilkan sejumlah file baru setelah pemrosesan.
{"mountOssType":"ossfs", "attr_timeout": "7200"}Baca dan tulis cepat: Gunakan waktu cache metadata yang singkat untuk menyeimbangkan efisiensi cache dan ketepatan waktu data file.
{"mountOssType":"ossfs", "attr_timeout": "3", "negative_timeout":"0"}Konsistensi baca dan tulis untuk tugas terdistribusi: Secara default, ossfs memperbarui data file berdasarkan cache metadata. Gunakan konfigurasi berikut untuk mencapai tampilan yang disinkronkan di beberapa node.
{ "mountOssType":"ossfs","negative_timeout": "0", "close_to_open":"false"}Terlalu banyak file dibuka secara bersamaan, menyebabkan kesalahan OOM: Jika konkurensi tugas tinggi dan banyak file dibuka secara bersamaan, masalah kehabisan memori (OOM) dapat terjadi. Anda dapat menggunakan konfigurasi berikut untuk mengurangi tekanan memori.
{"mountOssType":"ossfs","readdirplus": "false", "inode_cache_eviction_threshold":"300000"}
Gunakan ossfs 1.0 untuk memasang dan mengakses OSS
ossfs 1.0 memungkinkan Anda memasang bucket OSS sebagai sistem file lokal pada sistem Linux. Dibandingkan dengan ossfs 2.0, ossfs 1.0 menyediakan dukungan operasi file yang lebih komprehensif. Jika Anda mengalami masalah ketidakcocokan operasi file setelah memasang direktori dengan ossfs 2.0, Anda dapat mencoba menggunakan ossfs 1.0.
Untuk informasi selengkapnya tentang parameter yang diperlukan untuk pemasangan dengan ossfs 1.0, lihat opsi pemasangan ossfs 1.0.
Gunakan JindoFuse untuk memasang dan mengakses OSS
Anda dapat menggunakan komponen JindoFuse untuk memasang set data OSS ke jalur tertentu dalam kontainer. Alat ini cocok untuk skenario berikut:
Anda ingin membaca data OSS seolah-olah itu adalah set data lokal, atau set data tersebut kecil dan dapat memanfaatkan cache lokal JindoFuse secara efektif untuk percepatan.
Anda perlu menulis data ke OSS.
Di , Anda dapat mengatur parameter lanjutan. Gunakan koma (,) untuk memisahkan beberapa konfigurasi. Berikut adalah contoh konfigurasi. Untuk deskripsi parameter dan konfigurasi parameter lainnya, lihat Panduan Pengguna JindoFuse dan Menggunakan JindoFuse untuk memasang dan mengakses data.
Saat ini, DataWorks hanya mendukung parameter dalam format key=value.
{
"mountOssType":"jindofuse",
"fs.oss.download.thread.concurrency": "2 × jumlah core CPU",
"fs.oss.upload.thread.concurrency": "2 × jumlah core CPU",
"attr_timeout": 3,
"entry_timeout": 0,
"negative_timeout": 0
}Gunakan set data NAS
Jika set data yang Anda tambahkan adalah set data NAS, Anda dapat menentukan konfigurasi untuk mengakses sistem file NAS yang menggunakan protokol NFS (parameter nasOptions). Kode berikut menunjukkan konfigurasi default. Untuk menyesuaikan nilai parameter, lihat Memasang sistem file NFS secara manual.
Hanya sistem file NAS yang menggunakan protokol NFS yang dapat dipasang.
Satu-satunya parameter konfigurasi lanjutan yang didukung untuk NAS adalah
nasOptions. Untuk menyesuaikan parameter pemasangan sistem file NAS, atur konfigurasi lanjutan menjadi{"nasOptions":"<ParameterName1=ParameterValue>,<ParameterName2=ParameterValue>,..."}.
{"nasOptions":"vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport"}