全部产品
Search
文档中心

E-MapReduce:Gunakan JindoFS dalam mode cache

更新时间:Jun 24, 2025

Saat menggunakan JindoFS dalam mode cache, file disimpan sebagai objek di Object Storage Service (OSS), dan file yang sering digunakan disimpan di kluster EMR untuk meningkatkan efisiensi akses data. Dalam mode ini, JindoFS dapat mengakses file di OSS tanpa perlu mengonversi format file serta sepenuhnya kompatibel dengan klien OSS. Topik ini menjelaskan cara menggunakan JindoFS dalam mode cache.

Informasi latar belakang

Dalam mode cache, JindoFS mendukung semantik objek dari OSS dan sepenuhnya kompatibel dengan berbagai klien OSS. Hal ini memastikan Anda dapat mengakses file di OSS tanpa perlu memigrasikan data atau mengonversi format data. File yang sering digunakan disimpan di kluster EMR, meningkatkan performa baca dan tulis serta mengurangi tekanan pada bandwidth.

Metode untuk mengakses file di OSS

(Direkomendasikan) Konfigurasikan OSS Scheme

OSS Scheme adalah metode asli untuk mengakses file di OSS. Anda dapat menggunakan perintah oss://<bucket_name>/<path_of_your_file> untuk mengakses file di OSS. Setelah membuat kluster EMR, Anda dapat menggunakan metode ini untuk mengakses file di OSS tanpa konfigurasi tambahan. Anda juga dapat menjalankan pekerjaan yang ada untuk membaca atau menulis data dari atau ke OSS tanpa perlu memodifikasi konfigurasi.

Konfigurasikan JFS Scheme

  1. Pergi ke layanan SmartData.
    1. Masuk ke Konsol EMR Alibaba Cloud.
    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada. Pilih grup sumber daya sesuai kebutuhan. Secara default, semua sumber daya akun muncul.
    3. Klik tab Cluster Management.
    4. Di halaman Cluster Management, temukan kluster target dan klik Details di kolom Tindakan.
    5. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData.
  2. Pergi ke tab namespace untuk layanan SmartData.
    1. Klik tab Configure.
    2. Klik tab namespace di bagian Konfigurasi Layanan.
      namespace
  3. Konfigurasikan parameter yang diperlukan.
    JindoFS memungkinkan Anda mengonfigurasi beberapa namespace. Namespace bernama test digunakan dalam topik ini.
    1. Atur jfs.namespaces menjadi test.
      Jika Anda mengonfigurasi beberapa namespace, pisahkan mereka dengan koma (,).
    2. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsiContoh
      jfs.namespaces.test.oss.uriBackend penyimpanan namespace test.oss://<oss_bucket>/<oss_dir>/
      null Atur parameter ini ke direktori untuk bucket OSS tertentu atau direktori root.
      jfs.namespaces.test.modeMode penyimpanan namespace test. Atur parameter ini menjadi cache.cache
  4. Di pojok kanan atas bagian Konfigurasi Layanan, klik Save.
  5. Pilih Restart Jindo Namespace Service dari daftar drop-down Actions di pojok kanan atas.
    Setelah Layanan Namespace dimulai ulang, Anda dapat menggunakan jfs://test/<path_of_file> untuk mengakses file di JindoFS.

Aktifkan cache lokal

Setelah mengaktifkan cache lokal, blok data panas disimpan di disk lokal. Secara default, fitur ini dinonaktifkan, dan EMR langsung membaca data dari OSS.

  1. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab client.
  2. Atur jfs.cache.data-cache.enable menjadi 1 untuk mengaktifkan cache lokal.
    Konfigurasi ini langsung berlaku pada klien, tanpa perlu memulai ulang layanan SmartData.

Setelah mengaktifkan cache lokal, Jindo secara otomatis mengelola data yang disimpan dalam cache. Jindo membersihkan cache berdasarkan watermark tinggi dan rendah yang telah dikonfigurasi. Untuk informasi lebih lanjut tentang cara mengonfigurasi watermark, lihat Kontrol Penggunaan Ruang Disk.

Kontrol penggunaan ruang disk

JindoFS menggunakan OSS sebagai backend penyimpanan data, yang memungkinkan Anda menyimpan volume data yang besar. Namun, kapasitas disk lokal terbatas. JindoFS secara otomatis menghapus data dingin di disk lokal. Parameter storage.watermark.high.ratio dan storage.watermark.low.ratio digunakan untuk menyesuaikan penggunaan ruang disk lokal. Anda dapat mengatur parameter ini ke angka desimal antara 0 dan 1.

  1. Ubah konfigurasi penggunaan disk.
    Di bagian Service Configuration untuk layanan SmartData, klik tab storage dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.storage
    ParameterDeskripsi
    storage.watermark.high.ratioBatas maksimum penggunaan disk. Saat penggunaan disk data JindoFS melebihi batas ini, JindoFS secara otomatis menghapus data di disk. Nilai default: 0.4.
    storage.watermark.low.ratioBatas minimum penggunaan disk. Setelah penghapusan data otomatis dipicu, JindoFS mulai menghapus data hingga penggunaan disk data JindoFS dikurangi ke batas ini. Nilai default: 0.2.
    null Anda dapat mengonfigurasi batas atas dan batas bawah untuk menyesuaikan ruang disk yang dialokasikan untuk JindoFS. Pastikan bahwa batas atas lebih besar dari batas bawah.
  2. Simpan konfigurasi.
    1. Di pojok kanan atas bagian Konfigurasi Layanan, klik Save.
    2. Di kotak dialog Confirm Changes, tentukan Deskripsi dan aktifkan Auto-update Configuration.
    3. Klik OK.
  3. Mulai ulang Layanan Penyimpanan Jindo untuk menerapkan konfigurasi.
    1. Pilih Restart Jindo Storage Service dari daftar drop-down Actions di pojok kanan atas.
    2. Di kotak dialog Cluster Activities, tentukan parameter terkait.
    3. Klik OK.
    4. Di pesan Confirm, klik OK.

Akses bucket OSS

Jika Anda mengakses bucket OSS yang berada di bawah akun Alibaba Cloud yang sama dan di wilayah yang sama dengan kluster EMR Anda, Anda tidak perlu mengonfigurasi pasangan AccessKey. Dalam kasus lain, Anda harus mengonfigurasi pasangan AccessKey dan titik akhir bucket OSS. Konfigurasikan parameter berdasarkan metode yang Anda gunakan untuk mengakses file di OSS:

  • OSS Scheme
    1. Di panel navigasi di sebelah kiri, klik Cluster Service lalu SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab smartdata-site.
    2. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsi
      fs.jfs.cache.oss-accessKeyIdID AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      fs.jfs.cache.oss-accessKeySecretRahasia AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      fs.jfs.cache.oss-endpointTitik akhir dari bucket OSS yang berfungsi sebagai backend penyimpanan.
  • JFS Scheme
    1. Di panel navigasi di sebelah kiri, pilih Cluster Service > SmartData. Di halaman SMARTDATA, klik tab Configure. Di bagian Konfigurasi Layanan, klik tab namespace.
    2. Atur jfs.namespaces menjadi test.
    3. Klik Custom Configuration. Di kotak dialog Add Configuration Item, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK.
      ParameterDeskripsi
      jfs.namespaces.test.oss.uriBackend penyimpanan namespace test. Contoh: oss://<oss_bucket.endpoint>/<oss_dir>.

      Titik akhir bucket OSS ditentukan dalam parameter ini.

      jfs.namespaces.test.oss.access.keyID AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.
      jfs.namespaces.test.oss.access.secretRahasia AccessKey dari bucket OSS yang berfungsi sebagai backend penyimpanan.

Konfigurasi lanjutan

Anda dapat mengonfigurasi beberapa parameter lanjutan untuk mengoptimalkan performa cache. Setelah mengonfigurasi parameter, Anda tidak perlu memulai ulang layanan SmartData karena konfigurasi tersebut langsung berlaku pada klien.

  • Di bagian Service Configuration, klik tab client dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
    ParameterDeskripsi
    client.oss.upload.threadsJumlah thread unggah OSS untuk setiap aliran data tulis. Nilai default: 4.
    client.oss.upload.max.parallelismJumlah maksimum thread unggah OSS konkuren dari sebuah proses. Parameter ini mencegah thread unggah memonopoli bandwidth dan memori secara berlebihan. Nilai default: 16.
  • Di bagian Service Configuration, klik tab smartdata-site dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
    ParameterDeskripsi
    fs.jfs.cache.copy.simple.max.byteAmbang batas ukuran file yang direname melalui antarmuka salinan umum. Jika ukuran file lebih kecil dari ambang ini, antarmuka salinan umum digunakan. Jika ukurannya lebih besar dari ambang ini, antarmuka Multipart Copy digunakan untuk meningkatkan efisiensi salinan.
    null Jika Anda telah mengaktifkan fitur salinan cepat OSS, atur parameter ini menjadi -1. Nilai ini menunjukkan bahwa semua file direname melalui antarmuka salinan umum. Dengan cara ini, Anda dapat memperoleh performa rename optimal.
    fs.jfs.cache.write.buffer.sizeUkuran buffer aliran data tulis. Unit: byte. Anda harus mengatur parameter ini ke pangkat dua. Nilai maksimum adalah 8388608 (8 MB). Jika terlalu banyak memori digunakan oleh aliran tulis, kami sarankan Anda mengatur parameter ini ke nilai kecil. Nilai default: 1048576.
    fs.oss.committer.magic.enabledMenentukan apakah akan mengaktifkan Jindo Job Committer. Job Committer ini tidak memerlukan operasi rename dan meningkatkan performa commit pekerjaan. Nilai default: true.
    null Dalam mode cache, performa rename file di OSS kurang dari standar. Kami sarankan Anda menggunakan Jindo Job Committer.