全部产品
Search
文档中心

E-MapReduce:Ikhtisar dan penggunaan JindoFS

更新时间:Jun 24, 2025

JindoFS adalah sistem file yang kompatibel dengan Hadoop (HCFS) yang dirancang untuk ekosistem big data open source berbasis Alibaba Cloud Object Storage Service (OSS). JindoFS menyediakan tiga mode penyimpanan untuk mengelola data di OSS: mode hanya klien (SDK), mode cache, dan mode penyimpanan blok. Mode hanya klien dan mode cache mengoptimalkan akses ke OSS dari mesin komputasi dalam ekosistem Hadoop dan Spark. Mode penyimpanan blok menawarkan kapasitas penyimpanan besar dengan menggunakan OSS sebagai backend penyimpanan serta mendukung kueri metadata yang efisien.

Mode hanya klien (SDK)

Dalam mode ini, JindoFS menawarkan fitur serupa dengan OSS FileSystem dan S3A FileSystem di komunitas Hadoop. JindoFS mengoptimalkan akses ke Alibaba Cloud OSS dan berbagai operasi pada data untuk kerangka kerja komputasi seperti Hive dan Spark. Mode ini tidak mengubah cara file atau objek diorganisasikan di OSS. File tetap disimpan di OSS, sementara JindoFS menyediakan koneksi klien, ekstensi, adaptasi, dan akses yang dioptimalkan untuk ekosistem Hadoop. Untuk menggunakan JindoFS dalam mode ini, cukup unggah paket JAR JindoFS SDK ke direktori classpath. Mode ini sederhana, mudah digunakan, dan tidak memerlukan penyebaran layanan terdistribusi. SDK

Mode cache

Mode ini kompatibel dengan mode hanya klien (SDK) dan mempercepat caching data untuk OSS menggunakan kemampuan caching data terdistribusi Jindo. Mode ini memenuhi kebutuhan analisis data skala besar dan persyaratan throughput untuk pelatihan. Berdasarkan mode hanya klien (SDK), mode cache mendukung caching metadata dan caching data terdistribusi serta menjaga kompatibilitas data dan sinkronisasi dengan OSS. Data dapat di-cache di memori, SSD, dan disk dasar untuk menyesuaikan dengan skenario komputasi yang berbeda. Cache

Mode penyimpanan blok

Dalam mode ini, JindoFS menawarkan fitur serupa dengan Apache Hadoop HDFS. JindoFS dapat melakukan caching data untuk mempercepat akses data, mengatur dan menyimpan data, serta mengelola metadata file. Dalam mode ini, JindoFS berfungsi sebagai sistem penyimpanan mandiri, tetapi file disimpan sebagai blok di OSS. Block

Perbandingan antara mode cache dan mode penyimpanan blok

Kedua mode tersebut memungkinkan JindoFS menyimpan data di OSS dan menentukan apakah akan menyimpan cache data di kluster lokal untuk mempercepat akses data berdasarkan penggunaan ruang penyimpanan lokal.

Perbedaan mendasar antara kedua mode tersebut terletak pada metode penyimpanan file di OSS. JindoFS dalam mode penyimpanan blok mengelola direktori dan metadata file serta menyimpan file sebagai blok di OSS. JindoFS dalam mode cache menyimpan file sebagai objek di OSS.

Perbandingan di antara ketiga mode

Tabel berikut menggambarkan ketiga mode dalam beberapa dimensi.

DimensiMode Hanya Klien (SDK)Mode CacheMode Penyimpanan Blok
Biaya Penyimpanan
  • Menyimpan seluruh data di OSS.
  • Mendukung kelas penyimpanan Arsip.
  • Menyimpan seluruh data di OSS.
  • Meng-cache data panas, mencakup 20% dari total jumlah data.
  • Mendukung kelas penyimpanan Arsip.
  • Menyimpan seluruh data di OSS.
  • Meng-cache data hangat dan data panas, mencakup 60% dari total jumlah data.
  • Mendukung kelas penyimpanan Arsip.
  • Mendukung kompresi transparan.
SkalabilitasTinggiRelatif tinggiSedang
ThroughputBergantung pada bandwidth yang digunakan oleh OSS.Bergantung pada bandwidth yang digunakan oleh OSS dan bandwidth yang dikonsumsi untuk meng-cache data panas.Bergantung pada bandwidth yang digunakan oleh OSS dan bandwidth yang dikonsumsi untuk meng-cache data hangat dan data panas.
Metadata
  • Meniru HDFS untuk mengelola metadata dan tidak mendukung penyimpanan berbasis direktori dan semantik file.
  • Mendukung eksabyte data.
  • Meniru HDFS untuk mengelola metadata dan tidak mendukung penyimpanan berbasis direktori dan semantik file. JindoFS dapat meng-cache data file.
  • Mendukung eksabyte data.
  • Memberikan performa tertinggi. Kompatibilitas JindoFS dalam mode ini mendekati HDFS.
  • Mendukung lebih dari 1 miliar file.
Beban PemeliharaanRendahSedang

Memerlukan pemeliharaan sistem cache.

Relatif tinggi

Memerlukan pemeliharaan Layanan Namespace dan Layanan Penyimpanan.

Keamanan
  • Mendukung otentikasi berbasis pasangan AccessKey.
  • Mendukung otentikasi RAM.
  • Mendukung log akses OSS.
  • Mendukung enkripsi data OSS.
  • Mendukung otentikasi berbasis pasangan AccessKey.
  • Mendukung otentikasi RAM.
  • Mendukung log akses OSS.
  • Mendukung enkripsi data OSS.
  • Mendukung otentikasi berbasis pasangan AccessKey.
  • Memungkinkan Anda menjalankan perintah UNIX atau menggunakan Ranger untuk mengelola izin JindoFS dalam mode ini.
  • Mendukung log audit yang dihasilkan oleh AuditLog.
  • Mendukung enkripsi data.
PenggunaanHanya memungkinkan Anda menentukan direktori OSS dalam format oss://<oss_bucket>/<oss_dir>/ untuk mengakses file. Akses lintas layanan ke direktori OSS didukung.
  • Memungkinkan Anda menentukan direktori OSS dalam format oss://<oss_bucket>/<oss_dir>/ untuk mengakses file. Akses lintas layanan ke direktori OSS didukung. Fitur caching dapat diaktifkan. Ini adalah metode default.
  • Memungkinkan Anda menentukan direktori JindoFS dalam format jfs://<your_namespace>/<path_of_file> untuk salah satu namespace yang diterapkan untuk mengakses data. Akses lintas layanan ke direktori JindoFS tidak didukung. Fitur caching dapat diaktifkan.
null Untuk informasi lebih lanjut tentang cara menggunakan JindoFS dalam mode cache, lihat dokumentasi JindoFS dalam mode cache.
Hanya memungkinkan Anda menentukan direktori JindoFS dalam format jfs://<your_namespace>/<path_of_file> untuk salah satu namespace yang diterapkan untuk mengakses data. Akses lintas layanan ke direktori JindoFS tidak didukung. Fitur caching dapat diaktifkan.
null Untuk informasi lebih lanjut tentang cara menggunakan JindoFS dalam mode penyimpanan blok, lihat dokumentasi JindoFS dalam mode penyimpanan blok.

FAQ

  • P: Mode apa yang direkomendasikan untuk skenario danau data tipikal?

    J: Mode hanya klien (SDK) dan mode cache sepenuhnya kompatibel dengan semantik penyimpanan objek OSS dan menyediakan pemisahan komputasi-penyimpanan lengkap serta skalabilitas fleksibel. Kami merekomendasikan Anda menggunakan mode hanya klien (SDK) atau mode cache untuk analisis big data dan percepatan Pelatihan AI dalam skenario danau data tipikal.

  • P: Mengapa JindoFS dalam mode penyimpanan blok memberikan performa lebih tinggi daripada HDFS?
    J:
    • JindoFS dalam mode penyimpanan blok dapat memproses lebih dari 1 miliar file. Namun, HDFS hanya dapat memproses maksimum 0,4 miliar file. Selain itu, performa JindoFS dalam mode penyimpanan blok lebih stabil pada jam-jam puncak bisnis kluster.
    • JindoFS dalam mode penyimpanan blok tidak memiliki batasan pada memori on-heap di Java dan penggunaan memori dan dapat memproses data dalam skala lebih besar daripada HDFS. HDFS memiliki batasan pada memori on-heap di Java.
    • JindoFS dalam mode penyimpanan blok memerlukan pemeliharaan ringan. Anda tidak perlu khawatir tentang disk yang rusak atau node anomali. Data memiliki satu cadangan di OSS, dan node dapat dihubungkan atau diputuskan.
    • JindoFS dalam mode penyimpanan blok dapat mengompresi dan mengarsipkan data dingin secara transparan. Ini menggunakan berbagai cara untuk mengoptimalkan biaya dan terhubung ke OSS untuk mendukung eksabyte data.
    • JindoFS dalam mode penyimpanan blok mendukung beberapa fitur penting HDFS, seperti HDFS AuditLog, integrasi dengan Ranger, dan enkripsi data.
  • P: Apa keuntungan khusus JindoFS dalam mode penyimpanan blok?
    J:
    • JindoFS dalam mode penyimpanan blok dapat mengelola metadata file dan mengatur data file. Oleh karena itu, ia dapat sepenuhnya memenuhi persyaratan berbagai mesin big data pada antarmuka penyimpanan. Antarmuka ini meliputi namun tidak terbatas pada antarmuka untuk mengimplementasikan atomicity dan pemrosesan transaksi operasi rename, antarmuka untuk mengimplementasikan penulisan data lokal berperforma tinggi, antarmuka untuk mengimplementasikan kompresi transparan, dan antarmuka truncate, append, flush, sync, dan snapshot. Antarmuka penyimpanan tingkat tinggi ini diperlukan untuk mencapai POSIX lengkap dan digunakan untuk menghubungkan lebih banyak mesin big data, seperti Flink, HBase, Kafka, dan Kudu, ke OSS. JindoFS dalam mode hanya klien (SDK) atau JindoFS dalam mode cache juga dapat menggunakan beberapa antarmuka untuk mengakses OSS. Namun, kemampuan dan keuntungan dari kedua mode ini kurang memadai.
    • Mode penyimpanan blok lebih hemat biaya daripada dua mode lainnya. Hal ini karena dalam mode penyimpanan blok, data hangat dan data panas, yang mencakup 60% dari total jumlah data, di-cache di kluster lokal. Oleh karena itu, Anda dapat membaca sejumlah besar data dari kluster lokal Anda alih-alih OSS.