SmartData adalah layanan penyimpanan untuk mesin Jindo E-MapReduce (EMR). SmartData menyediakan penyimpanan terpusat, caching, dan optimasi komputasi untuk mesin komputasi EMR serta memperluas fitur penyimpanan. SmartData mencakup JindoFS, JindoTable, dan alat terkait. Topik ini menjelaskan pembaruan dalam SmartData 3.1.x.
Informasi latar belakang
Batasan pada SmartData 3.1.0:
- Anda dapat mengaktifkan sakelar meta-cache untuk mengaktifkan mode cache JindoFS guna menyimpan metadata. Namun, disarankan untuk mengaktifkan mode cache hanya dalam skenario pelatihan. Penggunaan mode cache dalam skenario analisis dengan konfigurasi parameter yang tidak tepat dapat menyebabkan kegagalan sinkronisasi data antara jalur saat ini dan jalur OSS lainnya.
- Nama namespace di JindoFS hanya dapat berisi huruf, angka, dan tanda hubung (-).
- Ukuran file besar yang ingin Anda salin menggunakan Jindo DistCp tidak boleh melebihi 78 GB.
- Meskipun JindoFS dalam mode penyimpanan blok mendukung fitur checksum, Jindo DistCp tidak mendukung fitur ini.
Pembaruan dokumentasi
Dibandingkan dengan SmartData 3.0.0, pembaruan berikut telah dilakukan pada dokumentasi SmartData 3.1.0:
Pembaruan fitur
Optimasi penyimpanan berbasis JindoFS
- JindoFS dapat melakukan checksum file menggunakan algoritma MD5MD5CRC atau COMPOSITE_CRC. Antarmuka checksum HDFS sumber terbuka diwarisi. Jika algoritma MD5MD5CRC digunakan, JindoFS menyediakan antarmuka tambahan yang mendukung input ukuran blok serta perintah Shell terkait, memudahkan perbandingan file antara JindoFS dan HDFS.
- JindoFS mendukung kompresi file transparan. Anda dapat menentukan kebijakan kompresi untuk direktori, mengompres blok data file yang baru ditulis ke direktori, lalu menyimpannya di OSS. Fitur ini secara signifikan mengurangi ruang penyimpanan dan beban kerja baca/tulis untuk data dengan rasio kompresi tinggi.
- JindoFS mendukung semantik flush untuk penulisan data. Setelah memanggil API flush untuk menyiram data dalam file, data tersebut dipersistensikan ke lokasi saat ini dan dapat dibaca.
- Masalah berikut diselesaikan: Jika file disimpan di direktori dalam yang melibatkan beberapa tingkat direktori, perintah
hadoop fs -ls -Rtidak dapat dieksekusi karena thread berada dalam keadaan menunggu. - Perintah
hadoop fs -statditingkatkan. Informasi tambahan seperti atime dan Hak istimewa dikembalikan. - Path klien HDFS untuk sistem Jindo dapat dimodifikasi, mengurangi beban kerja yang diperlukan untuk memodifikasi path saat memigrasi data kluster.
Optimasi caching berbasis JindoFS
- JindoFS mengoptimalkan caching sejumlah besar file kecil dalam skenario pelatihan pembelajaran mesin, meningkatkan efisiensi caching file kecil serta performa baca.
- Perintah
cachedapat dieksekusi untuk memuat terlebih dahulu direktori file kecil, meningkatkan efisiensi pemuatan awal. - Caching data dapat dipicu secara otomatis. Anda dapat menentukan direktori yang statusnya ingin Anda lacak dan mengonfigurasi interval waktu untuk pemeriksaan direktori. Sistem akan memeriksa direktori pada interval yang ditentukan dan memicu caching data jika ada file baru yang ditemukan.
Optimasi komputasi berbasis JindoTable
- JindoTable Dump TF mendukung larik dua dimensi.
- Perintah Jindo mc dump mendukung format kompresi GZIP. Parameter
-cdapat digunakan dalam perintah.
Manajemen sistem berbasis JindoManager
JindoManager ditambahkan untuk mengelola sistem Jindo, seperti melakukan O&M dan memantau status layanan. JindoManager menyediakan antarmuka web tempat Anda dapat melihat status setiap layanan Jindo.
Optimasi berdasarkan alat Jindo
- Jindo DistCp mengoptimalkan logika Job Committer untuk memproses file kecil. Ini mengurangi jumlah permintaan yang dikirim ke OSS dan meningkatkan performa DistCp ketika ada sejumlah besar file kecil.
- Jindo DistCp mengoptimalkan kebijakan pembagian file menjadi batch dan meningkatkan performa salinan keseluruhan.
Dukungan ekosistem untuk JindoFS
- Anda dapat menjalankan pekerjaan streaming Flink untuk menulis data ke JindoFS dan menyimpan data dalam mode penyimpanan blok atau cache. Pekerjaan streaming Flink dapat pulih secara otomatis dari kegagalan. Semantik exactly_once dapat diimplementasikan dalam pekerjaan berdasarkan kombinasi dengan sumber data yang mendukung pengiriman ulang data, seperti Kafka.
- Flink mendukung fitur injeksi entropi. Jika Anda menjalankan pekerjaan streaming Flink untuk menulis data ke OSS atau JindoFS dalam mode penyimpanan blok atau cache, Anda dapat menggunakan fitur injeksi entropi untuk mengganti bagian tertentu dari jalur tujuan dengan string acak, meningkatkan efisiensi penulisan data.
- Konektor TensorFlow JindoFS disediakan untuk mendukung TensorFlow Filesystem. Antarmuka I/O asli digunakan. Versi berikut didukung: TensorFlow 1.15 dan versi 1.x lainnya, serta versi 2.x setelah 2.3.