SmartData adalah layanan penyimpanan untuk mesin E-MapReduce (EMR) Jindo, yang menyediakan penyimpanan terpusat, caching, optimasi komputasi, dan ekstensi fitur untuk EMR. SmartData mencakup JindoFileSystem (JindoFS), JindoTable, serta set alat terkait. Topik ini menjelaskan pembaruan dalam SmartData 3.0.x.
Optimasi penyimpanan JindoFS
- Konfigurasi mandiri Layanan Namespace ditingkatkan, memungkinkan metadata diperbarui dan ditulis secara asinkron ke instance Tablestore.
- Konfigurasi menggunakan instance Tablestore sebagai backend penyimpanan metadata dihapus karena solusi HA berbasis Tablestore tidak lagi didukung.
- File data dapat disimpan dalam mode Arsip di OSS untuk menghemat biaya.
- Perintah penyimpanan bertingkat JindoFS Archive, Unarchive, dan Status disediakan. Perintah-perintah ini memungkinkan pengarsipan data ke direktori tertentu serta melihat kemajuan operasi dan status terkait.
- Perintah ls2 disediakan untuk melihat informasi file.
- Ekspor, analisis, dan kueri fsimage secara offline didukung.
- Akses lintas kluster ke JindoFS diimplementasikan.
Untuk informasi lebih lanjut tentang perintah penyimpanan bertingkat JindoFS, lihat Gunakan perintah penyimpanan bertingkat JindoFS.
Optimasi caching JindoFS
- Struktur disk untuk menyimpan cache data dioptimalkan dengan menghilangkan ketergantungan pada disk sistem. Disk data menjadi independen satu sama lain, dan operasi pengambilan sumber daya disk secara offline ditingkatkan.
- Layanan cache ditingkatkan dengan peningkatan toleransi kesalahan node dan operasi pemutusan node.
- Kebijakan pemilihan disk tempat data dari blok cache ditulis dioptimalkan, dengan dukungan default untuk penjadwalan round-robin.
- Proses baca dan tulis ditingkatkan dengan peningkatan toleransi kesalahan.
- Perintah penyimpanan bertingkat JindoFS Cache, Uncache, dan Status disediakan. Perintah-perintah ini memungkinkan penyimpanan cache data ke direktori tertentu, pemuatan data sebelumnya, serta melihat kemajuan cache dan status terkait.
- Masalah file kecil yang memakan banyak ruang cache diselesaikan, dengan pengukuran data deret waktu yang lebih akurat.
Optimasi komputasi JindoTable
- JindoTable menyediakan perintah -optimize untuk mengoptimalkan operasi tabel Hive, seperti penggabungan file kecil dalam partisi.
- JindoTable menyediakan perintah -archive, -unarchive, dan -status. Perintah-perintah ini memungkinkan pengarsipan data ke tabel atau partisi tertentu serta melihat kemajuan operasi dan status terkait.
- JindoTable menyediakan perintah -cache, -uncache, dan -status. Perintah-perintah ini memungkinkan penyimpanan cache data ke tabel atau partisi tertentu, pemuatan data sebelumnya, serta melihat kemajuan cache dan status terkait.
- Tabel MaxCompute dapat diekspor ke JindoFS untuk memuat data terstruktur sebelum pelatihan pembelajaran mesin.
Untuk informasi lebih lanjut tentang JindoTable, lihat Gunakan JindoTable.
Skalabilitas penyimpanan OSS pada JindoFS
- Integrasi izin Ranger pada klien didukung, memungkinkan pemeriksaan izin untuk berbagai operasi di OSS melalui catatan layanan JindoFS.
- Audit operasi pada klien didukung, dengan catatan operasi yang dihasilkan oleh JindoFS digunakan untuk audit.
- Penyedia kredensial Hadoop didukung, memungkinkan konfigurasi informasi pasangan AccessKey OSS menggunakan metode Hadoop umum.
- Konektor Flink didukung, dengan OSS berfungsi sebagai sumber, sink, atau titik pemeriksaan dalam mesin Flink.
- SDK JindoFS OSS edisi Lite, seperti konektor Hadoop, disediakan untuk lingkungan non-standar seperti pusat data yang dikelola sendiri.
Manajemen sistem JindoManager
Antarmuka web dapat diakses untuk melihat status dan statistik file pada sistem penyimpanan serta statistik data deret waktu cache pada sistem cache JindoFS.
JindoTools
Mekanisme distribusi Jindo DistCp ditingkatkan dengan paket distribusi berbeda untuk kluster EMR dan non-EMR.
Jindo DistCp menyediakan edisi Lite yang cocok untuk lingkungan non-standar seperti pusat data yang dikelola sendiri.