SmartData adalah layanan penyimpanan untuk mesin E-MapReduce (EMR) Jindo. SmartData menyediakan penyimpanan terpusat, pengoptimalan caching, dan komputasi untuk EMR serta memperluas fitur penyimpanan. SmartData mencakup JindoFS, JindoTable, dan alat terkait. Topik ini menjelaskan pembaruan dalam SmartData 3.2.X.
Skalabilitas penyimpanan OSS pada JindoFS
- JindoFS menggunakan berbagai metode bebas kata sandi untuk mendapatkan token yang digunakan mengakses OSS. Token tersebut dapat disesuaikan atau diperluas.
- Tablestore Alibaba Cloud digunakan untuk menerapkan mutual exclusion pada operasi rename yang dilakukan secara bersamaan.
- Data dapat ditulis ke OSS menggunakan Delta atau Hudi.
Optimasi caching berbasis JindoFS
JindoFS mengoptimalkan caching metadata dalam skenario pelatihan AI dengan sejumlah besar file kecil, meningkatkan kinerja operasi pramuat metadata dan operasi daftar.
Optimasi komputasi berbasis JindoTable
- JindoTable terintegrasi dengan AliORC untuk menyediakan pembaca Optimized Row Columnar (ORC) asli. JindoTable memungkinkan Spark dan Presto menggunakan pembaca ORC asli untuk membaca file ORC, mempercepat pembacaan data dan meningkatkan kinerja komputasi.
- JindoTable dapat digunakan untuk mengumpulkan statistik frekuensi akses tabel Hive untuk Presto.
Dukungan ekosistem untuk JindoFS
Saat menggunakan Spark untuk menulis data ke OSS, Anda dapat mengatur spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs ke false untuk menghindari pembuatan file _SUCCESS.