全部产品
Search
文档中心

E-MapReduce:Gunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS

更新时间:Jul 06, 2025

Topik ini menjelaskan cara menggunakan fitur caching transparan JindoCache untuk mempercepat akses ke Alibaba Cloud Object Storage Service (OSS). Sumber daya penyimpanan kluster E-MapReduce (EMR) digunakan untuk menyimpan cache objek OSS.

Prasyarat

  • Kluster EMR telah dibuat dengan JindoCache dipilih saat pembuatan kluster. Untuk informasi lebih lanjut, lihat Buat kluster.

  • OSS telah diaktifkan. Untuk informasi lebih lanjut, lihat Aktifkan OSS.

Batasan

File disimpan di OSS sebagai objek.

Prosedur

JindoCache menggunakan CacheSets untuk mengelola berbagai kebijakan caching. Anda dapat memilih kebijakan caching yang berbeda untuk data yang disimpan di jalur berbeda sesuai dengan kebutuhan bisnis Anda. JindoCache mendukung satu atau lebih CacheSets.

  1. Pilih kebijakan caching.

    1. Masuk ke kluster Anda. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.

    2. Tambahkan file cacheset.xml.

      Dalam contoh ini, file cacheset.xml disimpan di direktori /path.

      <?xml version="1.0" encoding="UTF-8"?>
      <cachesets>
          <cacheset>
              <name>name1</name>
              <path>oss://emr-test/dir1</path>
              <cacheStrategy>DISTRIBUTED</cacheStrategy>
              <metaPolicy>
                  <type>ALWAYS</type>
              </metaPolicy>
              <readPolicy>CACHE_ASIDE</readPolicy>
              <writePolicy>WRITE_AROUND</writePolicy>
          </cacheset>
          <cacheset>
              <name>name2</name>
              <path>oss://emr-test/dir2</path>
              <cacheStrategy>DHT</cacheStrategy>
              <metaPolicy>
                  <type>ONCE</type>
              </metaPolicy>
              <readPolicy>CACHE_ASIDE</readPolicy>
              <writePolicy>WRITE_AROUND</writePolicy>
          </cacheset>
      </cachesets>

      Parameter

      Deskripsi

      Contoh

      name

      Nama dari CacheSet. Nama harus unik. Jika CacheSet sudah ada, konfigurasi yang ada akan ditimpa.

      name1

      path

      Jalur induk untuk menyimpan CacheSet. Kebijakan yang dikelola oleh CacheSet digunakan untuk data di jalur anak di bawah jalur induk ini.

      oss://emr-test/dir1

      cacheStrategy

      Kebijakan caching. Nilai valid: DISTRIBUTED dan DHT. DHT adalah singkatan dari distributed hash table. Kebijakan caching DHT digunakan untuk mempercepat akses ke file berukuran kecil yang hanya bisa dibaca.

      Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.

      DISTRIBUTED

      metaPolicy

      Kebijakan caching metadata. Nilai valid:

      • ALWAYS: Metadata tidak dicache dan dibaca dari penyimpanan jarak jauh.

      • ONCE: Metadata dicache. Metadata selalu dibaca dari penyimpanan lokal setelah metadata dibaca dari penyimpanan jarak jauh untuk pertama kalinya.

      Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.

      Catatan

      Jika parameter cacheStrategy diatur ke DHT, parameter ini harus diatur ke ONCE.

      ALWAYS

      readPolicy

      Kebijakan untuk membaca file. Parameter ini hanya dapat diatur ke CACHE_ASIDE, yang menunjukkan bahwa file dibaca secara prioritas dari cache.

      CACHE_ASIDE

      writePolicy

      Kebijakan untuk menulis file. Nilai valid:

      • WRITE_AROUND: menulis file ke penyimpanan jarak jauh.

      • CACHE_ONLY: menulis file ke cache.

        Catatan

        Jika Anda mengatur parameter ini ke CACHE_ONLY, parameter metaPolicy harus diatur ke ONCE.

      • WRITE_THROUGH: menulis file ke cache dan penyimpanan jarak jauh.

      WRITE_AROUND

    3. Jalankan perintah berikut untuk menyegarkan CacheSets di JindoCache:

      jindocache -refreshCacheSet -path /path/cacheset.xml

      Jika eksekusi berhasil, keluaran mencakup informasi Successfully refresh cacheset !!!. Untuk informasi tentang perintah terkait JindoCache, lihat Catatan Penggunaan CLI JindoCache.

    4. Jalankan perintah berikut untuk melihat informasi tentang CacheSets di sistem:

      jindocache -listCacheSet
  2. Konfigurasikan JindoSDK.

    Konfigurasikan kelas implementasi OSS JindoCache di Hadoop-Common. Pergi ke tab core-site.xml pada tab Configure halaman layanan Hadoop-Common di konsol EMR dan modifikasi item konfigurasi yang dijelaskan dalam tabel berikut. Untuk informasi lebih lanjut, lihat Kelola Item Konfigurasi.

    Item konfigurasi

    Deskripsi

    fs.xengine

    Nilainya tetap sebagai jindocache.

    Jika Anda meninggalkan item konfigurasi ini kosong, klien tidak lagi menyimpan cache data, tetapi langsung berkomunikasi dengan backend.

    Catatan

    Pada langkah ini, item konfigurasi dikonfigurasi pada klien. Konfigurasi berlaku tanpa perlu me-restart JindoCache.

    Setelah konfigurasi selesai, Anda dapat menjalankan pekerjaan untuk mengakses OSS menggunakan fitur caching. Fitur caching transparan JindoCache memungkinkan Anda mengakses OSS tanpa perlu memodifikasi konfigurasi pekerjaan. Setelah Anda menjalankan pekerjaan untuk membaca data dari OSS, data tersebut secara otomatis disimpan ke JindoCache. Kemudian, ketika Anda mengakses data yang sama, cache dapat digunakan dan kinerja pembacaan data dapat ditingkatkan.

FAQ

Bagaimana cara mengonfigurasi pasangan AccessKey yang digunakan untuk mengakses OSS?

JindoCache memungkinkan Anda mengakses OSS dalam mode bebas kata sandi. Jika Anda ingin mengakses OSS lintas akun, Anda harus mengonfigurasi informasi seperti ID AccessKey, Rahasia AccessKey, dan Titik Akhir untuk otorisasi.

  1. Pergi ke tab common pada tab Configure halaman layanan JindoCache.

    1. Masuk ke konsol EMR. Di panel navigasi di sebelah kiri, klik EMR on ECS.

    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.

    3. Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.

    4. Di tab Layanan, temukan layanan JindoCache dan klik Configure.

    5. Di tab Konfigurasi, klik tab common.

  2. Tambahkan item konfigurasi dan buat konfigurasi berlaku.

    1. Di tab common, klik Add Configuration Item.

    2. Dalam kotak dialog Add Configuration Item, tambahkan item konfigurasi sesuai dengan yang dijelaskan dalam tabel berikut.

      Untuk informasi lebih lanjut tentang cara menambahkan item konfigurasi dan membuat konfigurasi berlaku, lihat Kelola Item Konfigurasi.

      Catatan

      XXX menentukan nama Bucket OSS.

      Item konfigurasi

      Deskripsi

      jindocache.oss.bucket.XXX.accessKeyId

      ID AccessKey yang digunakan untuk mengakses OSS.

      jindocache.oss.bucket.XXX.accessKeySecret

      Rahasia AccessKey yang digunakan untuk mengakses OSS. Contoh: oss-cn-hangzhou-internal.aliyuncs.com.

      jindocache.oss.bucket.XXX.endpoint

      Titik akhir OSS.