全部产品
Search
文档中心

E-MapReduce:Gunakan JindoFS dalam mode cache

更新时间:Jun 24, 2025

Ketika menggunakan JindoFS dalam mode cache, file disimpan sebagai objek di Object Storage Service (OSS), dan file yang sering digunakan disimpan dalam kluster EMR untuk meningkatkan efisiensi akses data. Dalam mode ini, JindoFS dapat mengakses file di OSS tanpa perlu mengonversi format file serta sepenuhnya kompatibel dengan klien OSS. Topik ini menjelaskan cara menggunakan JindoFS dalam mode cache.

Informasi latar belakang

Dalam mode cache, JindoFS mendukung semantik objek dari OSS dan sepenuhnya kompatibel dengan berbagai klien OSS. Hal ini memastikan Anda dapat mengakses file di OSS tanpa perlu memigrasikan data atau mengonversi format data. File yang sering digunakan disimpan dalam kluster EMR, meningkatkan kinerja baca-tulis serta mengurangi tekanan pada bandwidth.

Metode untuk mengakses file di OSS

(Direkomendasikan) Konfigurasikan Skema OSS

Skema OSS adalah metode asli untuk mengakses file di OSS. Anda dapat menggunakan perintah oss://<bucket_name>/<path_of_your_file> untuk mengakses file di OSS. Setelah membuat kluster EMR, Anda dapat langsung mengakses file di OSS tanpa konfigurasi tambahan. Anda juga dapat menjalankan pekerjaan yang ada untuk membaca atau menulis data dari atau ke OSS tanpa memodifikasi konfigurasi.

Konfigurasikan Skema JFS

  1. Pergi ke layanan SmartData.
    1. Masuk ke Konsol EMR Alibaba Cloud.
    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada. Pilih grup sumber daya sesuai kebutuhan. Secara default, semua sumber daya akun muncul.
    3. Klik tab Cluster Management.
    4. Di halaman Cluster Management, temukan kluster target dan klik Details di kolom Tindakan.
    5. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData.
  2. Konfigurasikan parameter bigboot.
    1. Klik tab Configure.
    2. Klik tab bigboot di bagian Konfigurasi Layanan.
      bigboot
  3. Konfigurasikan parameter yang diperlukan.
    JindoFS memungkinkan Anda mengonfigurasi beberapa namespace. Namespace bernama test digunakan dalam topik ini.
    1. Atur jfs.namespaces menjadi test.
      Jika Anda mengonfigurasi beberapa namespace, pisahkan mereka dengan koma (,).
    2. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsiContoh
      jfs.namespaces.test.oss.uriBackend penyimpanan namespace test.oss://<oss_bucket>/<oss_dir>/
      null Atur parameter ini ke direktori untuk bucket OSS tertentu atau direktori root.
      jfs.namespaces.test.modeMode penyimpanan namespace test. Atur parameter ini ke cache.cache
  4. Di sudut kanan atas bagian Konfigurasi Layanan, klik Save.
  5. Pilih Restart Jindo Namespace Service dari daftar drop-down Actions di sudut kanan atas.
    Setelah layanan dimulai ulang, Anda dapat menggunakan perintah jfs://test/<path_to_your_file> untuk mengakses file di OSS. File untuk namespace test diatur berdasarkan pengaturan parameter jfs.namespaces.test.oss.uri. Sebagai contoh, jfs://test/hello.txt sesuai dengan oss://<oss_bucket>/<oss_dir>/hello.txt.

Aktifkan cache lokal

Setelah mengaktifkan cache lokal, blok data panas disimpan di disk lokal. Secara default, fitur ini dinonaktifkan, dan EMR langsung membaca data dari OSS.

  1. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab client.
  2. Atur jfs.cache.data-cache.enable menjadi 1 untuk mengaktifkan cache lokal.
    Konfigurasi ini segera berlaku pada klien, tanpa perlu memulai ulang layanan SmartData.

Setelah mengaktifkan cache lokal, Jindo secara otomatis mengelola data yang disimpan dalam cache. Jindo membersihkan cache berdasarkan watermark tinggi dan rendah yang telah dikonfigurasi. Untuk informasi lebih lanjut tentang cara mengonfigurasi watermark, lihat Kontrol Penggunaan Ruang Disk.

Kontrol penggunaan ruang disk

JindoFS menggunakan OSS sebagai backend penyimpanan data, yang memungkinkan Anda menyimpan volume data yang besar. Namun, kapasitas disk lokal terbatas. JindoFS secara otomatis menghapus data dingin di disk lokal. Parameter storage.watermark.high.ratio dan storage.watermark.low.ratio digunakan untuk menyesuaikan penggunaan ruang disk lokal. Anda dapat mengatur parameter ini ke angka desimal antara 0 dan 1.

  1. Ubah konfigurasi penggunaan disk.
    Di bagian Service Configuration untuk layanan SmartData, klik tab storage dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.storage
    ParameterDeskripsi
    storage.watermark.high.ratioBatas atas penggunaan disk. Ketika penggunaan disk data JindoFS melebihi batas ini, JindoFS secara otomatis menghapus data di disk. Nilai default: 0.4.
    storage.watermark.low.ratioBatas bawah penggunaan disk. Setelah penghapusan data otomatis dipicu, JindoFS mulai menghapus data hingga penggunaan disk data JindoFS dikurangi ke batas ini. Nilai default: 0.2.
    null Anda dapat mengonfigurasi batas atas dan batas bawah untuk menyesuaikan ruang disk yang dialokasikan untuk JindoFS. Pastikan bahwa batas atas lebih besar dari batas bawah.
  2. Simpan konfigurasi.
    1. Di sudut kanan atas bagian Konfigurasi Layanan, klik Save.
    2. Dalam kotak dialog Confirm Changes, tentukan Deskripsi dan aktifkan opsi Auto-update Configuration.
    3. Klik OK.
  3. Mulai ulang Layanan Penyimpanan Jindo untuk menerapkan konfigurasi.
    1. Pilih Restart Jindo Storage Service dari daftar drop-down Actions di sudut kanan atas.
    2. Di kotak dialog Cluster Activities, tentukan parameter terkait.
    3. Klik OK.
    4. Di pesan Confirm, klik OK.

Akses bucket OSS

Jika Anda mengakses bucket OSS yang berada di bawah akun Alibaba Cloud yang sama dan di wilayah yang sama dengan kluster EMR Anda, Anda tidak perlu mengonfigurasi pasangan AccessKey. Dalam kasus lain, Anda harus mengonfigurasi pasangan AccessKey dan titik akhir bucket OSS. Konfigurasikan parameter berdasarkan metode yang Anda gunakan untuk mengakses file di OSS:

  • Skema OSS
    1. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab smartdata-site.
    2. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsi
      fs.jfs.cache.oss-accessKeyIdID AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      fs.jfs.cache.oss-accessKeySecretRahasia AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      fs.jfs.cache.oss-endpointTitik akhir dari bucket OSS yang berfungsi sebagai backend penyimpanan.
  • Skema JFS
    1. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab bigboot.
    2. Atur jfs.namespaces ke test.
    3. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsi
      jfs.namespaces.test.oss.uriBackend penyimpanan namespace test. Contoh: oss://<oss_bucket.endpoint>/<oss_dir>.

      Titik akhir bucket OSS ditentukan dalam parameter ini.

      jfs.namespaces.test.oss.access.keyID AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      jfs.namespaces.test.oss.access.secretRahasia AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.

Konfigurasi lanjutan

Anda dapat mengonfigurasi beberapa parameter lanjutan untuk mengoptimalkan kinerja cache. Setelah mengonfigurasi parameter, Anda tidak perlu memulai ulang layanan SmartData karena konfigurasi tersebut segera berlaku pada klien.

  • Di bagian Service Configuration, klik tab client dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
    ParameterDeskripsi
    client.oss.upload.threadsJumlah thread unggah OSS untuk setiap aliran penulisan data. Nilai default: 4.
    client.oss.upload.max.parallelismJumlah maksimum thread unggah OSS bersamaan dari suatu proses. Parameter ini mencegah thread unggah menguasai bandwidth dan memori secara berlebihan. Nilai default: 16.
  • Di bagian Service Configuration, klik tab smartdata-site dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
    ParameterDeskripsi
    fs.jfs.cache.copy.simple.max.byteAmbang batas untuk ukuran file yang diubah nama melalui antarmuka salinan umum. Jika ukuran file lebih kecil dari ambang ini, antarmuka salinan umum digunakan. Jika ukurannya lebih besar dari ambang ini, antarmuka Multipart Copy digunakan untuk meningkatkan efisiensi salinan.
    null Jika Anda telah mengaktifkan fitur salinan cepat OSS, atur parameter ini ke -1. Nilai ini menunjukkan bahwa semua file diubah nama melalui antarmuka salinan umum. Dengan cara ini, Anda dapat memperoleh kinerja penggantian nama optimal.
    fs.jfs.cache.write.buffer.sizeUkuran buffer aliran penulisan data. Unit: byte. Anda harus mengatur parameter ini ke pangkat dua. Nilai maksimum adalah 8388608 (8 MB). Jika terlalu banyak memori digunakan oleh aliran penulisan, kami sarankan Anda mengatur parameter ini ke nilai kecil. Nilai default: 1048576.
    fs.oss.committer.magic.enabledMenentukan apakah akan mengaktifkan Jindo Job Committer. Job Committer ini tidak memerlukan operasi penggantian nama dan meningkatkan kinerja commit pekerjaan. Nilai default: true.
    null Dalam mode cache, kinerja penggantian nama file di OSS kurang dari standar. Kami sarankan Anda menggunakan Jindo Job Committer.