Dokumen ini mencakup item pemeriksaan kesehatan dan metrik pemantauan utama untuk HiveServer dan HiveMetaStore di kluster E-MapReduce (EMR).
Tingkat keparahan
| Level | Makna | Aksi yang diperlukan |
|---|---|---|
| P0 (Critical) | Layanan Hive tidak tersedia | Segera lakukan pemecahan masalah |
| P1 (High) | Layanan Hive tersedia tetapi kinerjanya menurun atau workload meningkat | Segera lakukan pemecahan masalah |
Item pemeriksaan HiveServer
inspection_hive_server_availability
Memeriksa ketersediaan HiveServer dengan menjalankan serangkaian pernyataan validasi.
| Pesan error | Penyebab | Aksi |
|---|---|---|
hive server availability permission check is failed | Pengguna tidak memiliki izin untuk menjalankan pernyataan pemeriksaan HiveServer (misalnya, izin tersebut tidak sengaja dicabut) | Kembalikan izin yang diperlukan |
Hive server availability is failed | HiveServer mengalami anomali | Periksa proses dan log HiveServer |
inspection_hive_server_ha
Memeriksa status high availability (HA) seluruh komponen HiveServer.
| Pesan hasil | Status | Tingkat keparahan | Aksi |
|---|---|---|---|
Hive server HA status is OK | Semua komponen HiveServer normal | — | Tidak perlu tindakan |
One or more Hive server failed | Satu atau lebih komponen HiveServer mengalami anomali | P1 | Periksa proses dan log HiveServer |
All Hive server are failed | Semua komponen HiveServer mengalami anomali | P0 | Periksa proses dan log HiveServer |
inspection_hive_server_port
Memeriksa keberadaan port 10000 HiveServer pada host. Jika port tersebut tidak tersedia, proses HiveServer mengalami anomali. Periksa proses dan log HiveServer.
inspection_hive_server_gc
Memeriksa metrik memory.heap.usage pada Java Virtual Machine (JVM) untuk HiveServer.
| Penggunaan memori heap JVM | Tingkat keparahan | Aksi |
|---|---|---|
| ≥ 95% | P0 | Segera tingkatkan memori HiveServer. Jika tidak, HiveServer mungkin restart dan job yang sedang berjalan dapat gagal. |
| ≥ 90% | P1 | Segera tingkatkan memori HiveServer. Jika tidak, HiveServer mungkin restart dan job yang sedang berjalan dapat gagal. |
| < 90% | Normal | Sesuaikan memori berdasarkan kebutuhan bisnis jika diperlukan. |
inspection_hive_server_restart
Memantau frekuensi restart HiveServer dalam jendela waktu lima menit.
| Perilaku restart | Tingkat keparahan | Aksi |
|---|---|---|
| Restart berulang dalam lima menit | P0 | Segera periksa proses dan log HiveServer |
| Satu kali restart dalam lima menit | P1 | Segera periksa proses dan log HiveServer |
| Tidak ada restart | Normal | Tidak perlu tindakan |
Item pemeriksaan HiveMetaStore
inspection_hive_metastore_ha
Memeriksa status high availability (HA) seluruh komponen HiveMetaStore.
| Pesan hasil | Status | Tingkat keparahan | Tindakan |
|---|---|---|---|
Hive metastore HA status is OK | Semua komponen HiveMetaStore normal | — | Tidak perlu tindakan |
One or more metastore failed | Satu atau lebih komponen HiveMetaStore mengalami anomali | P1 | Segera periksa proses dan log HiveMetaStore |
All Hive metastore are failed | Semua komponen HiveMetaStore mengalami anomali | P0 | Segera periksa proses dan log HiveMetaStore |
inspection_hive_metastore_port
Memeriksa keberadaan port 9083 HiveMetaStore pada host. Jika port tersebut tidak tersedia, proses HiveMetaStore mengalami anomali. Segera periksa proses dan log HiveMetaStore.
inspection_hive_metastore_gc
Memeriksa metrik memory.heap.usage pada JVM untuk HiveMetaStore.
| Penggunaan memori heap JVM | Tingkat keparahan | Aksi |
|---|---|---|
| ≥ 95% | P0 | Segera tingkatkan memori HiveMetaStore |
| ≥ 90% | P1 | Segera tingkatkan memori HiveMetaStore |
| < 90% | Normal | Sesuaikan memori berdasarkan kebutuhan bisnis jika diperlukan. |
inspection_hive_metastore_restart
Memantau frekuensi restart HiveMetaStore dalam jendela waktu lima menit.
| Perilaku restart | Tingkat keparahan | Aksi |
|---|---|---|
| Restart berulang dalam lima menit | P0 | Segera periksa proses dan log HiveMetaStore |
| Satu kali restart dalam lima menit | P1 | Segera periksa proses dan log HiveMetaStore |
| Tidak ada restart | Normal | Tidak perlu tindakan |
Metrik utama HiveServer2
Lihat metrik ini pada tab Monitoring kluster Anda di Konsol EMR.
| Kategori | Metrik | Yang perlu diperhatikan |
|---|---|---|
| Session | OpenSessions, ActiveSessions | Lonjakan jumlah session terbuka atau aktif saat terjadi error dapat mengindikasikan tekanan memori. Sesuaikan memori berdasarkan kebutuhan bisnis Anda. |
| JVM | JVM MemHeapMax, metrik garbage collection (GC) | Tinjau metrik JVM dalam jendela waktu saat error terjadi untuk menentukan apakah perlu menambah memori. |
| Task | task PENDING, ActiveRunTasksCalls, metrik TasksCount | Jumlah task pending yang besar dapat mengindikasikan memori HiveServer tidak mencukupi, kontensi antrian sumber daya YARN, atau job besar yang mengonsumsi sebagian besar sumber daya yang tersedia. Misalnya, task pending adalah task yang progresnya ditangguhkan. |
Metrik utama HiveMetaStore
Lihat metrik ini pada tab Monitoring kluster Anda di Konsol EMR.
| Kategori | Metrik | Yang perlu diperhatikan |
|---|---|---|
| JVM | JVM MemHeapMax, metrik GC | Tinjau metrik JVM dalam jendela waktu saat error terjadi untuk menentukan apakah perlu menambah memori. |
| Operasi metadata | Metrik terkait GetTable, Waktu CreateTable | Peningkatan stabil pada metrik ini atau adanya exception mengindikasikan bottleneck memori pada HiveMetaStore atau masalah kinerja pada database backend. Tingkatkan memori HiveMetaStore berdasarkan ukuran memori saat ini, atau upgrade spesifikasi database backend berdasarkan waktu yang dibutuhkan untuk menjalankan kueri pada database tersebut. |