全部产品
Search
文档中心

E-MapReduce:Gunakan JindoTable untuk mengumpulkan statistik akses jarang dari tabel dan partisi

更新时间:Jul 02, 2025

JindoTable dapat digunakan untuk mengumpulkan statistik akses jarang dari tabel dan partisi. Fitur ini membantu Anda menemukan data yang belum diakses baru-baru ini berdasarkan waktu akses terakhir tabel dan partisi, sehingga memungkinkan pengoptimalan penyimpanan data dan pengurangan biaya. Sebagai contoh, dalam skenario analitik data, Anda dapat menggunakan fitur ini untuk memindahkan partisi yang jarang digunakan ke media penyimpanan dengan biaya lebih rendah.

Prasyarat

Kluster harus dibuat di E-MapReduce (EMR) V3.35.0 atau versi V3.X.X yang lebih baru, atau di EMR V4.9.0 atau versi V4.X.X yang lebih baru. Untuk informasi lebih lanjut, lihat Buat Kluster.

Informasi latar belakang

Di SmartData 3.5.X dan versi yang lebih baru, JindoTable dapat digunakan untuk mengumpulkan statistik akses jarang dari tabel Hive, Spark, dan Presto. Fitur ini dinonaktifkan secara default. Untuk informasi lebih lanjut tentang cara mengaktifkan fitur ini, lihat Aktifkan Pengumpulan Statistik Akses Jarang untuk Spark, Aktifkan Pengumpulan Statistik Akses Jarang untuk Hive, dan Aktifkan Pengumpulan Statistik Akses Jarang untuk Presto.
Catatan Panggilan balik dan pendengar yang sama digunakan untuk mengumpulkan statistik akses sering dan jarang. Oleh karena itu, jika Anda mengaktifkan pengumpulan statistik akses jarang, pengumpulan statistik akses sering juga akan diaktifkan. Untuk informasi lebih lanjut tentang pengumpulan statistik akses sering, lihat Gunakan JindoTable untuk Mengumpulkan Statistik Frekuensi Akses pada Tabel dan Partisi.

Batasan

  • Metadata Data Lake Formation (DLF) tidak didukung.
  • Anda harus memiliki izin untuk mengakses penyimpanan metadata dasar, seperti MySQL atau ApsaraDB RDS, dari alamat IP node tempat layanan Hive CLI, HiveServer2, Spark SQL CLI, Spark Thrift Server, dan Presto berada.
  • Anda hanya dapat menggunakan JindoTable untuk mengumpulkan statistik akses jarang dari tabel Hive, Spark, dan Presto.

Kueri statistik akses jarang

Anda dapat menjalankan perintah untuk menanyakan statistik akses jarang.
  • Sintaksis
    jindo table -leastUseStat -n <num> [-i/-ignoreNever]

    num menunjukkan jumlah tabel atau partisi yang ingin Anda tanyakan. Atur parameter ini ke bilangan bulat positif. -i/-ignoreNever adalah parameter opsional. Jika Anda menentukan parameter ini, tabel atau partisi yang belum pernah diakses akan disaring.

  • Deskripsi

    Perintah ini digunakan untuk menanyakan tabel atau partisi yang tidak diakses selama waktu terlama.

  • Contoh: Tanyakan 20 tabel atau partisi pertama yang tidak diakses selama waktu terlama.
    jindo table -leastUseStat -n 20
    Gambar berikut menunjukkan hasilnya.cold_result
    • Kolom pertama mencantumkan tabel dalam format Nama basis data.Nama tabel.
    • Kolom kedua mencantumkan partisi dalam format Kolom kunci partisi pertama=Nilai kolom/Kolom kunci partisi kedua=Nilai kolom/... Untuk tabel non-partisi, kolom ini kosong.
    • Kolom ketiga menampilkan waktu akses terakhir tabel atau partisi dalam format yyyy-MM-dd HH:mm:ss.
    Catatan Untuk tabel partisi, hanya statistik akses tingkat partisi yang ditampilkan. Statistik akses tingkat tabel tidak ditampilkan.

Untuk informasi lebih lanjut tentang cara menggunakan JindoTable, lihat Gunakan JindoTable.

Aktifkan pengumpulan statistik akses jarang untuk Spark

  1. Pergi ke halaman layanan Spark.
    1. Masuk ke Konsol EMR Alibaba Cloud.
    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
    3. Klik tab Cluster Management.
    4. Di halaman Cluster Management, temukan kluster Anda dan klik Details di kolom Tindakan.
    5. Di panel navigasi sebelah kiri, pilih Cluster Service > Spark.
  2. Di halaman layanan Spark, klik tab Configure.
  3. Cari parameter spark.sql.queryExecutionListeners dan periksa apakah nilainya berisi com.aliyun.emr.table.spark.SparkSQLQueryListener. Jika nilai tersebut tidak berisi pendengar ini, tambahkan pendengar ke nilai tersebut. Pisahkan beberapa pendengar dengan koma(,).
    Spark
  4. Tambahkan konfigurasi kustom.
    1. Di bagian Service Configuration, klik tab spark-defaults.
    2. Klik Custom Configuration di pojok kanan atas.
    3. Di kotak dialog Add Configuration Item, tambahkan parameter spark.sql.query.update.access.time.enabled dan atur ke true.
      add_spark_paraname
    4. Klik OK.
  5. Simpan konfigurasi.
    1. Klik Save di pojok kanan atas.
    2. Di kotak dialog Confirm Changes, tentukan Description dan klik OK.
  6. Mulai ulang semua komponen.
    1. Di pojok kanan atas halaman layanan Spark, pilih Actions > Restart All Components.
    2. Di kotak dialog Cluster Activities, tentukan Description dan klik OK.
    3. Di pesan Confirm, klik OK.

Aktifkan pengumpulan statistik akses jarang untuk Hive

  1. Pergi ke halaman layanan Hive.
    1. Masuk ke Konsol EMR Alibaba Cloud.
    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
    3. Klik tab Cluster Management.
    4. Di halaman Cluster Management, temukan kluster Anda dan klik Details di kolom Tindakan.
    5. Di panel navigasi sebelah kiri, pilih Cluster Service > Hive.
  2. Di halaman layanan Hive, klik tab Configure.
  3. Cari parameter hive.exec.post.hooks dan periksa apakah nilainya berisi com.aliyun.emr.table.hive.HivePostHook. Jika nilai tersebut tidak berisi panggilan balik ini, tambahkan panggilan balik ke nilai tersebut. Pisahkan beberapa panggilan balik dengan koma(,).
    hive
  4. Tambahkan konfigurasi kustom.
    1. Di bagian Service Configuration, klik tab hive-site.
    2. Klik Custom Configuration di pojok kanan atas.
    3. Di kotak dialog Add Configuration Item, tambahkan parameter hive.hook.update.access.time.enabled dan atur ke true.
      add_hive_paraname
    4. Klik OK.
  5. Simpan konfigurasi.
    1. Klik Save di pojok kanan atas.
    2. Di kotak dialog Confirm Changes, tentukan Description dan klik OK.
  6. Mulai ulang semua komponen.
    1. Di pojok kanan atas halaman layanan Spark, pilih Actions > Restart All Components.
    2. Di kotak dialog Cluster Activities, tentukan Description dan klik OK.
    3. Di pesan Confirm, klik OK.

Aktifkan pengumpulan statistik akses jarang untuk Presto

  1. Pergi ke halaman layanan Presto.
    1. Masuk ke Konsol EMR Alibaba Cloud.
    2. Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya berdasarkan kebutuhan bisnis Anda.
    3. Klik tab Cluster Management.
    4. Di halaman Cluster Management, temukan kluster Anda dan klik Details di kolom Tindakan.
    5. Di panel navigasi sebelah kiri, pilih Cluster Service > Presto.
  2. Di halaman layanan Presto, klik tab Configure.
  3. Cari parameter event-listener.name dan periksa apakah nilainya berisi jindo-presto-post-event-listener. Jika nilai tersebut tidak berisi pendengar ini, tambahkan pendengar ke nilai tersebut.
    presto
  4. Tambahkan konfigurasi kustom.
    1. Di bagian Service Configuration, klik tab event-listener.properties.
    2. Klik Custom Configuration di pojok kanan atas.
    3. Di kotak dialog Add Configuration Item, tambahkan parameter listener.update.access.time.enabled dan atur ke true.
      add_presto_paraname
    4. Klik OK.
  5. Simpan konfigurasi.
    1. Klik Save di pojok kanan atas.
    2. Di kotak dialog Confirm Changes, tentukan Description dan klik OK.
  6. Mulai ulang semua komponen.
    1. Di pojok kanan atas halaman layanan Spark, pilih Actions > Restart All Components.
    2. Di kotak dialog Cluster Activities, tentukan Description dan klik OK.
    3. Di pesan Confirm, klik OK.