Topik ini menjelaskan cara menggunakan fitur caching transparan JindoCache untuk mempercepat akses ke OSS-HDFS. Sumber daya penyimpanan kluster E-MapReduce (EMR) digunakan untuk menyimpan cache objek OSS-HDFS.
Prasyarat
Kluster EMR telah dibuat dan JindoCache dipilih saat pembuatan kluster. Untuk informasi lebih lanjut, lihat Buat Kluster.
OSS-HDFS diaktifkan dan izin akses ke OSS-HDFS diberikan. Untuk informasi lebih lanjut, lihat Aktifkan OSS-HDFS.
Prosedur
Pilih kebijakan caching.
JindoCache menggunakan CacheSets untuk mengelola berbagai kebijakan caching. Anda dapat memilih kebijakan caching yang berbeda untuk data yang disimpan di jalur berbeda sesuai dengan kebutuhan bisnis Anda. JindoCache mendukung satu atau lebih CacheSets.
Masuk ke kluster Anda. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.
Tambahkan file
cacheset.xml.Dalam contoh ini, file
cacheset.xmldisimpan di direktori/path.<?xml version="1.0" encoding="UTF-8"?> <cachesets> <cacheset> <name>name1</name> <path>oss://emr-test/dir1</path> <cacheStrategy>DISTRIBUTED</cacheStrategy> <metaPolicy> <type>ALWAYS</type> </metaPolicy> <readPolicy>CACHE_ASIDE</readPolicy> <writePolicy>WRITE_AROUND</writePolicy> </cacheset> <cacheset> <name>name2</name> <path>oss://emr-test/dir2</path> <cacheStrategy>DHT</cacheStrategy> <metaPolicy> <type>ONCE</type> </metaPolicy> <readPolicy>CACHE_ASIDE</readPolicy> <writePolicy>WRITE_AROUND</writePolicy> </cacheset> </cachesets>Parameter
Deskripsi
Contoh
name
Nama dari CacheSet. Nama harus unik. Jika CacheSet sudah ada, konfigurasi yang ada akan ditimpa.
name1
path
Jalur induk untuk menyimpan CacheSet. Kebijakan yang dikelola oleh CacheSet digunakan untuk data di jalur anak di bawah jalur induk ini.
oss://emr-test/dir1
cacheStrategy
Kebijakan caching. Nilai valid: DISTRIBUTED dan DHT. DHT adalah singkatan dari distributed hash table. Kebijakan caching DHT digunakan untuk mempercepat akses ke file berukuran kecil yang bersifat hanya-baca.
Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.
DISTRIBUTED
metaPolicy
Kebijakan caching metadata. Nilai valid:
ALWAYS: Metadata tidak dicache dan dibaca dari penyimpanan jarak jauh.
ONCE: Metadata dicache. Metadata selalu dibaca dari penyimpanan lokal setelah metadata dibaca dari penyimpanan jarak jauh untuk pertama kalinya.
Anda dapat memilih kebijakan berdasarkan kebutuhan bisnis Anda.
CatatanJika parameter cacheStrategy diatur ke DHT, parameter ini harus diatur ke ONCE.
ALWAYS
readPolicy
Kebijakan untuk membaca file. Parameter ini hanya dapat diatur ke CACHE_ASIDE, yang menunjukkan bahwa file diprioritaskan untuk dibaca dari cache.
CACHE_ASIDE
writePolicy
Kebijakan untuk menulis file. Nilai valid:
WRITE_AROUND: menulis file ke penyimpanan jarak jauh.
CACHE_ONLY: menulis file ke cache.
CatatanJika Anda mengatur parameter ini ke CACHE_ONLY, parameter metaPolicy harus diatur ke ONCE.
WRITE_THROUGH: menulis file ke cache dan penyimpanan jarak jauh.
WRITE_AROUND
Jalankan perintah berikut untuk menyegarkan CacheSets di JindoCache:
jindocache -refreshCacheSet -path /path/cacheset.xmlJika eksekusi berhasil, keluaran berisi informasi
Successfully refresh cacheset !!!. Untuk informasi tentang perintah terkait JindoCache, lihat Catatan Penggunaan CLI JindoCache.Jalankan perintah berikut untuk melihat informasi tentang CacheSets di sistem:
jindocache -listCacheSet
Konfigurasikan JindoSDK.
Konfigurasikan kelas implementasi OSS-HDFS JindoCache di Hadoop-Common. Pergi ke tab core-site.xml pada tab Configure halaman layanan Hadoop-Common di konsol EMR dan modifikasi item konfigurasi yang dijelaskan dalam tabel berikut. Untuk informasi lebih lanjut, lihat Kelola Item Konfigurasi.
Item konfigurasi
Deskripsi
fs.xengine
Nilainya tetap sebagai jindocache.
Jika Anda meninggalkan item konfigurasi ini kosong, klien tidak lagi menyimpan cache data, tetapi langsung berkomunikasi dengan backend.
CatatanPada langkah ini, item konfigurasi dikonfigurasi di klien. Konfigurasi berlaku tanpa perlu me-restart JindoCache.
Setelah konfigurasi selesai, Anda dapat menjalankan pekerjaan untuk mengakses OSS-HDFS menggunakan fitur caching. Fitur caching transparan JindoCache memungkinkan Anda mengakses OSS-HDFS tanpa perlu memodifikasi konfigurasi pekerjaan. Setelah Anda menjalankan pekerjaan untuk membaca data dari OSS-HDFS, data secara otomatis disimpan di JindoCache. Kemudian, ketika Anda mengakses data yang sama, cache dapat tercapai dan kinerja pembacaan data dapat ditingkatkan.
FAQ
Bagaimana cara mengonfigurasi pasangan AccessKey yang digunakan untuk mengakses OSS-HDFS?
JindoCache memungkinkan Anda mengakses OSS-HDFS dalam mode bebas kata sandi. Jika Anda ingin mengakses OSS-HDFS lintas akun, Anda harus mengonfigurasi informasi seperti ID AccessKey, Rahasia AccessKey, dan Titik Akhir untuk otorisasi.
Pergi ke tab common pada tab Configure halaman layanan JindoCache.
Masuk ke Konsol EMR. Di bilah navigasi sisi kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.
Di tab Layanan, temukan layanan JindoCache dan klik Configure.
Di tab Konfigurasi, klik tab common.
Tambahkan item konfigurasi dan buat konfigurasi tersebut berlaku.
Di tab common, klik Add Configuration Item.
Di kotak dialog Tambah Item Konfigurasi, tambahkan item konfigurasi yang dijelaskan dalam tabel berikut.
Untuk informasi lebih lanjut tentang cara menambahkan item konfigurasi dan membuat konfigurasi berlaku, lihat Kelola Item Konfigurasi.
CatatanYYYmenentukan nama bucket tempat OSS-HDFS diaktifkan.Item konfigurasi
Deskripsi
jindocache.oss.bucket.YYY.accessKeyId
ID AccessKey yang digunakan untuk mengakses OSS-HDFS.
jindocache.oss.bucket.YYY.accessKeySecret
Rahasia AccessKey yang digunakan untuk mengakses OSS-HDFS.
jindocache.oss.bucket.YYY.endpoint
Titik akhir OSS-HDFS. Contoh: cn-hangzhou.oss-dls.aliyuncs.com.
jindocache.oss.bucket.YYY.data.lake.storage.enable
Nilainya tetap sebagai true.