全部产品
Search
文档中心

E-MapReduce:Item pemeriksaan dan data deret waktu utama Hive

更新时间:Jun 24, 2025

Topik ini menjelaskan item pemeriksaan dan data deret waktu utama Hive.

Tingkat keparahan

  • P0: Kritis. Jika terjadi kesalahan tingkat P0, layanan Hive tidak tersedia. Anda harus segera memecahkan masalah tersebut.
  • P1: Tinggi. Jika terjadi kesalahan tingkat P1, layanan Hive tersedia, tetapi performanya mungkin rendah atau beban kerja mungkin tinggi. Anda harus segera memecahkan masalah tersebut.

Item pemeriksaan terkait HiveServer

Ketersediaan: inspection_hive_server_availability

  • Pemeriksaan gagal dan kesalahan hive server availability permission check is failed dilaporkan.

    Ini menunjukkan bahwa pengguna tidak memiliki izin untuk menjalankan pernyataan yang digunakan untuk memeriksa HiveServer. Sebagai contoh, izin yang diberikan kepada pengguna secara tidak sengaja dicabut.

  • Pemeriksaan gagal dan kesalahan Hive server availability is failed dilaporkan.

    Ini menunjukkan bahwa HiveServer tidak normal. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.

Ketersediaan tinggi: inspection_hive_server_ha

  • Jika pesan Hive server HA status is OK dikembalikan, semua komponen HiveServer dalam keadaan normal.
  • Jika pesan One or more Hive server failed dikembalikan, satu atau lebih komponen HiveServer tidak normal. Ini adalah kesalahan tingkat P1. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
  • Jika pesan All Hive server are failed dikembalikan, semua komponen HiveServer tidak normal. Ini adalah kesalahan tingkat P0. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.

Keberadaan port: inspection_hive_server_port

Anda dapat menggunakan item pemeriksaan ini untuk memeriksa apakah port 10000 dari komponen HiveServer ada di mesin. Jika port 10000 tidak ada, proses HiveServer dalam keadaan tidak normal. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.

Pengumpulan sampah: inspection_hive_server_gc

Anda dapat menggunakan item pemeriksaan ini untuk memeriksa metrik memory.heap.usage dari Java Virtual Machine (JVM).
  • Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 95%, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveServer. Jika tidak, komponen HiveServer mungkin di-restart, dan pekerjaan mungkin gagal.
  • Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 90%, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveServer. Jika tidak, komponen HiveServer mungkin di-restart, dan pekerjaan mungkin gagal.
  • Jika penggunaan memori heap JVM lebih rendah dari 90%, Anda dapat memutuskan apakah akan menyesuaikan ukuran memori komponen HiveServer berdasarkan kebutuhan bisnis Anda.

Jumlah restart: inspection_hive_server_restart

  • Jika komponen HiveServer di-restart berulang kali dalam lima menit, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
  • Jika komponen HiveServer di-restart sekali dalam lima menit, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
  • Dalam skenario lainnya, komponen HiveServer tetap dalam keadaan normal.

Item pemeriksaan terkait HiveMetaStore

Ketersediaan tinggi: inspection_hive_metastore_ha

  • Jika pesan Hive metastore HA status is OK dikembalikan, semua komponen HiveMetaStore dalam keadaan normal.
  • Jika pesan One or more metastore failed dikembalikan, satu atau lebih komponen HiveMetaStore tidak normal. Ini adalah kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
  • Jika pesan All Hive metastore are failed dikembalikan, semua komponen HiveMetaStore tidak normal. Ini adalah kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.

Keberadaan port: inspection_hive_metastore_port

Anda dapat menggunakan item pemeriksaan ini untuk memeriksa apakah port 9083 dari komponen HiveMetaStore ada di mesin. Jika port 9083 tidak ada, proses HiveMetaStore dalam keadaan tidak normal. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.

Pengumpulan sampah: inspection_hive_metastore_gc

Anda dapat menggunakan item pemeriksaan ini untuk memeriksa metrik memory.heap.usage dari JVM.
  • Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 95%, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveMetaStore.
  • Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 90%, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveMetaStore.
  • Jika penggunaan memori heap JVM lebih rendah dari 90%, Anda dapat memutuskan apakah akan menyesuaikan ukuran memori komponen HiveMetaStore berdasarkan kebutuhan bisnis Anda.

Jumlah restart: inspection_hive_metastore_restart

  • Jika komponen HiveMetaStore di-restart berulang kali dalam lima menit, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
  • Jika komponen HiveMetaStore di-restart sekali dalam lima menit, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
  • Dalam skenario lainnya, komponen HiveMetaStore tetap dalam keadaan normal.

Data deret waktu utama HiveServer

Anda dapat melihat data deret waktu utama komponen HiveServer2 pada tab Pemantauan kluster Anda di konsol E-MapReduce (EMR).

  • Metrik Terkait Sesi

    OpenSessions dan ActiveSessions: Anda dapat melihat jumlah sesi yang dibuka atau sesi aktif. Dengan cara ini, Anda dapat memeriksa apakah sejumlah besar tugas sedang berjalan ketika kesalahan terjadi dan menyesuaikan ukuran memori berdasarkan kebutuhan bisnis Anda.

  • Metrik Terkait JVM

    JVM MemHeapMax dan metrik terkait GC: Anda dapat melihat metrik JVM dalam periode waktu ketika kesalahan terjadi untuk menentukan apakah akan menyesuaikan ukuran memori.

  • Metrik Terkait Tugas

    Tugas TERTUNDA, ActiveRunTasksCalls, dan metrik terkait TasksCount: Jika sejumlah besar tugas tertunda, Anda harus memeriksa apakah memori proses HiveServer dan sumber daya penjadwalan antrian sumber daya YARN cukup, atau apakah pekerjaan besar menguasai sejumlah besar sumber daya. Sebagai contoh, tugas tertunda bisa menjadi tugas yang kemajuannya ditangguhkan.

Data deret waktu utama HiveMetaStore

Anda dapat melihat data deret waktu utama komponen HiveMetaStore pada tab Pemantauan kluster Anda di konsol EMR.

  • Metrik Terkait JVM

    JVM MemHeapMax dan metrik terkait GC: Anda dapat melihat metrik JVM dalam periode waktu ketika kesalahan terjadi untuk menentukan apakah akan menyesuaikan ukuran memori.

  • Metrik Terkait Operasi Metadata

    Jika metrik GetTable dan metrik CreateTable Time cenderung meningkat atau terjadi pengecualian terkait, Anda harus memeriksa apakah terjadi hambatan untuk memori komponen HiveMetaStore atau performa database backend. Metrik-metrik ini digunakan untuk mengukur periode waktu yang diperlukan untuk melakukan operasi terkait metadata. Anda dapat menyesuaikan ukuran memori komponen HiveMetaStore berdasarkan ukuran memori saat ini atau meningkatkan spesifikasi database backend berdasarkan periode waktu yang diperlukan untuk menjalankan query pada database.