全部产品
Search
文档中心

E-MapReduce:Gunakan JindoTable untuk mengumpulkan statistik frekuensi akses pada tabel dan partisi

更新时间:Jul 02, 2025

Anda dapat menggunakan JindoTable untuk mengumpulkan statistik frekuensi akses pada tabel dan partisi, serta memisahkan data dingin dan panas berdasarkan statistik ini. Hal ini membantu mengurangi biaya penyimpanan dan meningkatkan efisiensi penggunaan cache.

Prasyarat

Sebuah kluster E-MapReduce (EMR) telah dibuat. Untuk informasi lebih lanjut, lihat Buat Kluster.

Informasi latar belakang

JindoTable dapat digunakan untuk mengumpulkan statistik frekuensi akses pada tabel Hive. Data yang dikumpulkan disimpan dalam namespace layanan SmartData dari sebuah kluster.

Pada SmartData 3.2.X dan versi selanjutnya, JindoTable dapat digunakan untuk mengumpulkan statistik frekuensi akses pada tabel Spark, Hive, dan Presto. Fitur ini diaktifkan secara default untuk Spark dan Presto. Jika Anda ingin menonaktifkan fitur ini untuk Spark atau Presto, lakukan operasi yang dijelaskan dalam Nonaktifkan Pengumpulan Statistik Frekuensi Akses. Fitur ini dinonaktifkan secara default untuk Hive. Jika Anda ingin mengaktifkan fitur ini untuk Hive, lakukan operasi yang dijelaskan dalam Aktifkan Pengumpulan Statistik Frekuensi Akses untuk Hive.

Kueri statistik frekuensi akses

Anda dapat menjalankan perintah untuk menanyakan statistik frekuensi akses.
  • Sintaks
    jindo table -accessStat <-d [hari]> <-n [topNums]>

    Atur hari dan topNums ke bilangan bulat positif. Sebagai contoh, jika hari diatur ke 1 dan topNums tidak ditentukan, statistik frekuensi akses semua tabel atau partisi yang dikunjungi pada hari saat ini (dari 00:00 hingga waktu saat ini) akan diperiksa.

  • Deskripsi

    Perintah ini digunakan untuk menanyakan N tabel atau partisi pertama yang paling sering dikunjungi dalam periode waktu tertentu, dan jumlah kunjungan masing-masing.

  • Sebagai contoh, Anda dapat menjalankan perintah berikut untuk menanyakan 20 tabel atau partisi pertama yang paling sering dikunjungi dalam tujuh hari terakhir, dan jumlah kunjungan masing-masing:
    jindo table -accessStat -d 7 -n 20

Untuk informasi lebih lanjut tentang cara menggunakan JindoTable, lihat Gunakan JindoTable.

Aktifkan pengumpulan statistik frekuensi akses untuk Hive

  1. Masuk ke Konsol EMR Alibaba Cloud.
  2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
  3. Klik tab Cluster Management.
  4. Di halaman Cluster Management, temukan kluster Anda dan klik Details di kolom Tindakan.
  5. Ubah pengaturan parameter Hive.
    1. Di panel navigasi sisi kiri, pilih Cluster Service > Hive.
    2. Di halaman layanan Hive, klik tab Configure.
    3. Cari parameter hive.exec.post.hooks dan tambahkan com.aliyun.emr.table.hive.HivePostHook di akhir nilai parameter yang ada, dengan memisahkan setiap panggilan balik menggunakan koma (,).
  6. Simpan konfigurasi.
    1. Di pojok kanan atas bagian Konfigurasi Layanan, klik Save.
    2. Di kotak dialog Confirm Changes, tentukan Description dan aktifkan Auto-update Configuration.
    3. Klik OK.
  7. Mulai ulang layanan terkait.
    1. Di pojok kanan atas halaman layanan Hive, pilih Actions > Restart HiveServer2.
    2. Di kotak dialog Cluster Activities, tentukan Description.
    3. Klik OK.
    4. Di pesan Confirm, klik OK.

Nonaktifkan pengumpulan statistik frekuensi akses

  1. Masuk ke Konsol EMR Alibaba Cloud.
  2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
  3. Klik tab Cluster Management.
  4. Di halaman Cluster Management, temukan kluster Anda dan klik Details di kolom Tindakan.
  5. Ubah pengaturan parameter terkait.
    • Hive:
      1. Di panel navigasi sisi kiri, pilih Cluster Service > Hive.
      2. Di halaman layanan Hive, klik tab Configure.
      3. Cari parameter hive.exec.post.hooks dan hapus com.aliyun.emr.table.hive.HivePostHook dari nilai parameter. hive-site
    • Spark:
      1. Di panel navigasi sisi kiri, pilih Cluster Service > Spark.
      2. Di halaman layanan Spark, klik tab Configure.
      3. Cari parameter spark.sql.queryExecutionListeners dan hapus com.aliyun.emr.table.spark.SparkSQLQueryListener dari nilai parameter. spark_default
    • Presto:
      1. Di panel navigasi sisi kiri, pilih Cluster Service > Presto.
      2. Di halaman layanan Presto, klik tab Configure.
      3. Cari parameter event-listener.name dan hapus nilai parameternya.
  6. Simpan konfigurasi.
    1. Di pojok kanan atas bagian Konfigurasi Layanan, klik Save.
    2. Di kotak dialog Confirm Changes, tentukan Description dan aktifkan Auto-update Configuration.
    3. Klik OK.
  7. Mulai ulang layanan terkait.
    • Hive:
      1. Di pojok kanan atas halaman layanan Hive, pilih Actions > Restart HiveServer2.
      2. Di kotak dialog Cluster Activities, tentukan Description.
      3. Klik OK.
      4. Di pesan Confirm, klik OK.
    • Spark:
      1. Di pojok kanan atas halaman layanan Spark, pilih Actions > Restart ThriftServer.
      2. Di kotak dialog Cluster Activities, tentukan Description.
      3. Klik OK.
      4. Di pesan Confirm, klik OK.
    • Presto:
      1. Di pojok kanan atas halaman layanan Presto, pilih Actions > Restart All Components.
      2. Di kotak dialog Cluster Activities, tentukan Description.
      3. Klik OK.
      4. Di pesan Confirm, klik OK.