JindoFS adalah sistem file yang kompatibel dengan Hadoop (HCFS) yang dirancang untuk ekosistem big data open source berbasis Alibaba Cloud Object Storage Service (OSS). JindoFS menyediakan tiga mode penyimpanan untuk mengelola data di OSS: mode hanya klien (SDK), mode cache, dan mode penyimpanan blok. Mode hanya klien dan mode cache mengoptimalkan akses ke OSS dari mesin komputasi dalam ekosistem Hadoop dan Spark. Mode penyimpanan blok menawarkan kapasitas penyimpanan besar dengan menggunakan OSS sebagai backend penyimpanan serta mendukung kueri metadata yang efisien.
Mode hanya klien (SDK)

Mode cache

Mode penyimpanan blok

Perbandingan antara mode cache dan mode penyimpanan blok
Kedua mode tersebut memungkinkan JindoFS menyimpan data di OSS dan menentukan apakah akan menyimpan cache data di kluster lokal untuk mempercepat akses data berdasarkan penggunaan ruang penyimpanan lokal.
Perbedaan mendasar antara kedua mode tersebut terletak pada metode penyimpanan file di OSS. JindoFS dalam mode penyimpanan blok mengelola direktori dan metadata file serta menyimpan file sebagai blok di OSS. JindoFS dalam mode cache menyimpan file sebagai objek di OSS.
Perbandingan di antara ketiga mode
Tabel berikut menggambarkan ketiga mode dalam beberapa dimensi.
| Dimensi | Mode Hanya Klien (SDK) | Mode Cache | Mode Penyimpanan Blok |
| Biaya Penyimpanan |
|
|
|
| Skalabilitas | Tinggi | Relatif tinggi | Sedang |
| Throughput | Bergantung pada bandwidth yang digunakan oleh OSS. | Bergantung pada bandwidth yang digunakan oleh OSS dan bandwidth yang dikonsumsi untuk meng-cache data panas. | Bergantung pada bandwidth yang digunakan oleh OSS dan bandwidth yang dikonsumsi untuk meng-cache data hangat dan data panas. |
| Metadata |
|
|
|
| Beban Pemeliharaan | Rendah | Sedang Memerlukan pemeliharaan sistem cache. | Relatif tinggi Memerlukan pemeliharaan Layanan Namespace dan Layanan Penyimpanan. |
| Keamanan |
|
|
|
| Penggunaan | Hanya memungkinkan Anda menentukan direktori OSS dalam format oss://<oss_bucket>/<oss_dir>/ untuk mengakses file. Akses lintas layanan ke direktori OSS didukung. |
null Untuk informasi lebih lanjut tentang cara menggunakan JindoFS dalam mode cache, lihat dokumentasi JindoFS dalam mode cache. | Hanya memungkinkan Anda menentukan direktori JindoFS dalam format jfs://<your_namespace>/<path_of_file> untuk salah satu namespace yang diterapkan untuk mengakses data. Akses lintas layanan ke direktori JindoFS tidak didukung. Fitur caching dapat diaktifkan. null Untuk informasi lebih lanjut tentang cara menggunakan JindoFS dalam mode penyimpanan blok, lihat dokumentasi JindoFS dalam mode penyimpanan blok. |
FAQ
- P: Mode apa yang direkomendasikan untuk skenario danau data tipikal?
J: Mode hanya klien (SDK) dan mode cache sepenuhnya kompatibel dengan semantik penyimpanan objek OSS dan menyediakan pemisahan komputasi-penyimpanan lengkap serta skalabilitas fleksibel. Kami merekomendasikan Anda menggunakan mode hanya klien (SDK) atau mode cache untuk analisis big data dan percepatan Pelatihan AI dalam skenario danau data tipikal.
- P: Mengapa JindoFS dalam mode penyimpanan blok memberikan performa lebih tinggi daripada HDFS? J:
- JindoFS dalam mode penyimpanan blok dapat memproses lebih dari 1 miliar file. Namun, HDFS hanya dapat memproses maksimum 0,4 miliar file. Selain itu, performa JindoFS dalam mode penyimpanan blok lebih stabil pada jam-jam puncak bisnis kluster.
- JindoFS dalam mode penyimpanan blok tidak memiliki batasan pada memori on-heap di Java dan penggunaan memori dan dapat memproses data dalam skala lebih besar daripada HDFS. HDFS memiliki batasan pada memori on-heap di Java.
- JindoFS dalam mode penyimpanan blok memerlukan pemeliharaan ringan. Anda tidak perlu khawatir tentang disk yang rusak atau node anomali. Data memiliki satu cadangan di OSS, dan node dapat dihubungkan atau diputuskan.
- JindoFS dalam mode penyimpanan blok dapat mengompresi dan mengarsipkan data dingin secara transparan. Ini menggunakan berbagai cara untuk mengoptimalkan biaya dan terhubung ke OSS untuk mendukung eksabyte data.
- JindoFS dalam mode penyimpanan blok mendukung beberapa fitur penting HDFS, seperti HDFS AuditLog, integrasi dengan Ranger, dan enkripsi data.
- P: Apa keuntungan khusus JindoFS dalam mode penyimpanan blok? J:
- JindoFS dalam mode penyimpanan blok dapat mengelola metadata file dan mengatur data file. Oleh karena itu, ia dapat sepenuhnya memenuhi persyaratan berbagai mesin big data pada antarmuka penyimpanan. Antarmuka ini meliputi namun tidak terbatas pada antarmuka untuk mengimplementasikan atomicity dan pemrosesan transaksi operasi rename, antarmuka untuk mengimplementasikan penulisan data lokal berperforma tinggi, antarmuka untuk mengimplementasikan kompresi transparan, dan antarmuka truncate, append, flush, sync, dan snapshot. Antarmuka penyimpanan tingkat tinggi ini diperlukan untuk mencapai POSIX lengkap dan digunakan untuk menghubungkan lebih banyak mesin big data, seperti Flink, HBase, Kafka, dan Kudu, ke OSS. JindoFS dalam mode hanya klien (SDK) atau JindoFS dalam mode cache juga dapat menggunakan beberapa antarmuka untuk mengakses OSS. Namun, kemampuan dan keuntungan dari kedua mode ini kurang memadai.
- Mode penyimpanan blok lebih hemat biaya daripada dua mode lainnya. Hal ini karena dalam mode penyimpanan blok, data hangat dan data panas, yang mencakup 60% dari total jumlah data, di-cache di kluster lokal. Oleh karena itu, Anda dapat membaca sejumlah besar data dari kluster lokal Anda alih-alih OSS.