全部产品
Search
文档中心

E-MapReduce:Gunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS-HDFS

更新时间:Jul 02, 2025

Topik ini menjelaskan cara menggunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS-HDFS. Sumber daya penyimpanan kluster E-MapReduce (EMR) digunakan untuk menyimpan cache objek OSS-HDFS.

Prasyarat

  • Kluster EMR telah dibuat dan JindoCache dipilih saat pembuatan kluster. Untuk informasi lebih lanjut, lihat Buat Kluster.

  • OSS-HDFS diaktifkan dan izin akses ke OSS-HDFS diberikan. Untuk informasi lebih lanjut, lihat Aktifkan OSS-HDFS.

Prosedur

  1. Pilih kebijakan caching.

    JindoCache menggunakan CacheSets untuk mengelola berbagai kebijakan caching. Anda dapat memilih kebijakan caching yang berbeda untuk data yang disimpan di jalur berbeda sesuai dengan kebutuhan bisnis Anda. JindoCache mendukung satu atau lebih CacheSets.

    1. Masuk ke kluster Anda. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.

    2. Tambahkan file cacheset.xml.

      Dalam contoh ini, file cacheset.xml disimpan di direktori /path.

      <?xml version="1.0" encoding="UTF-8"?>
      <cachesets>
          <cacheset>
              <name>name1</name>
              <path>oss://emr-test/dir1</path>
              <cacheStrategy>DISTRIBUTED</cacheStrategy>
              <metaPolicy>
                  <type>ALWAYS</type>
              </metaPolicy>
              <readPolicy>CACHE_ASIDE</readPolicy>
              <writePolicy>WRITE_AROUND</writePolicy>
          </cacheset>
          <cacheset>
              <name>name2</name>
              <path>oss://emr-test/dir2</path>
              <cacheStrategy>DHT</cacheStrategy>
              <metaPolicy>
                  <type>ONCE</type>
              </metaPolicy>
              <readPolicy>CACHE_ASIDE</readPolicy>
              <writePolicy>WRITE_AROUND</writePolicy>
          </cacheset>
      </cachesets>

      Parameter

      Deskripsi

      Contoh

      name

      Nama dari CacheSet. Nama harus unik. Jika CacheSet sudah ada, konfigurasi yang ada akan ditimpa.

      name1

      path

      Jalur induk untuk menyimpan CacheSet. Kebijakan yang dikelola oleh CacheSet digunakan untuk data di jalur anak di bawah jalur induk ini.

      oss://emr-test/dir1

      cacheStrategy

      Kebijakan caching. Nilai valid: DISTRIBUTED dan DHT. DHT adalah singkatan dari distributed hash table. Kebijakan caching DHT digunakan untuk mempercepat akses ke file berukuran kecil yang bersifat hanya-baca.

      Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.

      DISTRIBUTED

      metaPolicy

      Kebijakan caching metadata. Nilai valid:

      • ALWAYS: Metadata tidak dicache dan dibaca dari penyimpanan jarak jauh.

      • ONCE: Metadata dicache. Metadata selalu dibaca dari penyimpanan lokal setelah metadata dibaca dari penyimpanan jarak jauh untuk pertama kalinya.

      Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.

      Catatan

      Jika parameter cacheStrategy diatur ke DHT, parameter ini harus diatur ke ONCE.

      ALWAYS

      readPolicy

      Kebijakan untuk membaca file. Parameter ini hanya dapat diatur ke CACHE_ASIDE, yang menunjukkan bahwa file diprioritaskan untuk dibaca dari cache.

      CACHE_ASIDE

      writePolicy

      Kebijakan untuk menulis file. Nilai valid:

      • WRITE_AROUND: menulis file ke penyimpanan jarak jauh.

      • CACHE_ONLY: menulis file ke cache.

        Catatan

        Jika Anda mengatur parameter ini ke CACHE_ONLY, parameter metaPolicy harus diatur ke ONCE.

      • WRITE_THROUGH: menulis file ke cache dan penyimpanan jarak jauh.

      WRITE_AROUND

    3. Jalankan perintah berikut untuk menyegarkan CacheSets di JindoCache:

      jindocache -refreshCacheSet -path /path/cacheset.xml

      Jika eksekusi berhasil, keluaran berisi informasi Successfully refresh cacheset !!!. Untuk informasi tentang perintah terkait JindoCache, lihat Catatan Penggunaan CLI JindoCache.

    4. Jalankan perintah berikut untuk melihat informasi tentang CacheSets di sistem:

      jindocache -listCacheSet
  2. Konfigurasikan JindoSDK.

    Konfigurasikan kelas implementasi OSS-HDFS JindoCache di Hadoop-Common. Pergi ke tab core-site.xml pada tab Configure halaman layanan Hadoop-Common di konsol EMR dan modifikasi item konfigurasi yang dijelaskan dalam tabel berikut. Untuk informasi lebih lanjut, lihat Kelola Item Konfigurasi.

    Item konfigurasi

    Deskripsi

    fs.xengine

    Nilainya tetap sebagai jindocache.

    Jika Anda meninggalkan item konfigurasi ini kosong, klien tidak lagi menyimpan cache data, tetapi langsung berkomunikasi dengan backend.

    Catatan

    Pada langkah ini, item konfigurasi dikonfigurasi di klien. Konfigurasi berlaku tanpa perlu me-restart JindoCache.

    Setelah konfigurasi selesai, Anda dapat menjalankan pekerjaan untuk mengakses OSS-HDFS menggunakan fitur caching. Fitur caching transparan JindoCache memungkinkan Anda mengakses OSS-HDFS tanpa perlu memodifikasi konfigurasi pekerjaan. Setelah Anda menjalankan pekerjaan untuk membaca data dari OSS-HDFS, data secara otomatis disimpan di JindoCache. Kemudian, ketika Anda mengakses data yang sama, cache dapat tercapai dan kinerja pembacaan data dapat ditingkatkan.

FAQ

Bagaimana cara mengonfigurasi pasangan AccessKey yang digunakan untuk mengakses OSS-HDFS?

JindoCache memungkinkan Anda mengakses OSS-HDFS dalam mode bebas kata sandi. Jika Anda ingin mengakses OSS-HDFS lintas akun, Anda harus mengonfigurasi informasi seperti ID AccessKey, Rahasia AccessKey, dan Titik Akhir untuk otorisasi.

  1. Pergi ke tab common pada tab Configure halaman layanan JindoCache.

    1. Masuk ke Konsol EMR. Di bilah navigasi sisi kiri, klik EMR on ECS.

    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.

    3. Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.

    4. Di tab Layanan, temukan layanan JindoCache dan klik Configure.

    5. Di tab Konfigurasi, klik tab common.

  2. Tambahkan item konfigurasi dan buat konfigurasi tersebut berlaku.

    1. Di tab common, klik Add Configuration Item.

    2. Di kotak dialog Tambah Item Konfigurasi, tambahkan item konfigurasi yang dijelaskan dalam tabel berikut.

      Untuk informasi lebih lanjut tentang cara menambahkan item konfigurasi dan membuat konfigurasi berlaku, lihat Kelola Item Konfigurasi.

      Catatan

      YYY menentukan nama bucket tempat OSS-HDFS diaktifkan.

      Item konfigurasi

      Deskripsi

      jindocache.oss.bucket.YYY.accessKeyId

      ID AccessKey yang digunakan untuk mengakses OSS-HDFS.

      jindocache.oss.bucket.YYY.accessKeySecret

      Rahasia AccessKey yang digunakan untuk mengakses OSS-HDFS.

      jindocache.oss.bucket.YYY.endpoint

      Titik akhir OSS-HDFS. Contoh: cn-hangzhou.oss-dls.aliyuncs.com.

      jindocache.oss.bucket.YYY.data.lake.storage.enable

      Nilainya tetap sebagai true.