Hive巡檢項與關鍵計量說明-開源巨量資料平台 E-MapReduce-阿里雲

本文介紹Hive巡檢項及其服務關鍵計量說明。

異常等級說明

如果檢查失敗並報：hive server availability permission check is failed。
說明HiveServer巡檢使用者無許可權執行巡檢語句，巡檢使用者權限可能被誤刪除。
如果檢查失敗並報：Hive server availability is failed。
說明HiveServer存在問題，需要檢查HiveServer進程及日誌情況，排除問題。

如果多台HiveServer均存活（Hive server HA status is OK），則狀態正常。
如果其中有HiveServer存在問題（One or more Hive server failed），則為P1異常，需要立即檢查HiveServer進程及日誌情況，排除問題。
如果所有HiveServer全部問題（All Hive server are failed），則為P0異常，需要立即檢查HiveServer進程及日誌情況，排除問題。

檢查HiveServer的10000連接埠在機器上是否存在，如果不存在則說明進程異常，需要立即檢查HiveServer進程及日誌情況，排除問題。

檢查JVM的memory.heap.usage指標。

如果多台HiveMetaStore均存活（Hive metastore HA status is OK），則狀態正常。
如果其中有HiveMetaStore存在問題（One or more metastore failed），則為P1異常，需要馬上檢查HiveMetaStore進程及日誌情況，排除問題。
如果所有HiveMetaStore全部問題（All Hive metastore are failed），則為P0級異常，需要馬上檢查HiveMetaStore進程及日誌情況，排除問題。

檢查HiveMetaStore的9083連接埠在機器上是否存在，如果不存在則說明進程異常，需要馬上檢查HiveMetaStore進程及日誌情況，排除問題。

檢查JVM的memory.heap.usage指標。

可在叢集監控頁面查看Hive-HiveServer2的指標監控項。

Session相關指標。
OpenSessions和ActiveSessions：可查看當前開啟或者活躍Sessions，判斷Task在異常時間段是否過多，可根據需要調整記憶體應對。
JVM相關指標。
JVM MemHeapMax和GC相關指標：查看在異常時間內JVM各項指標表現，判斷是否需要調整記憶體應對。
Task相關指標。
PENDING tasks、ActiveRunTasksCalls及相關的TasksCount指標：如果Pending的Tasks過多，典型表現為用戶端部分任務進度一直不動，需要檢查進程記憶體及叢集YARN對應的資源隊列調度資源是否充足，或者是否有大作業佔用過多的資源。

可在叢集監控頁面查看Hive-HiveMetaStore的指標監控項。

JVM相關指標。
JVM MemHeapMax和GC相關指標：查看在異常時間內JVM各項指標表現，判斷是否需要調整記憶體應對。
中繼資料操作相關指標。
GetTable、CreateTable Time等相關中繼資料操作的時間消耗，如果時間存在放大趨勢或者存在異常，需要檢查Metastore記憶體或後端資料庫效能是否已經到瓶頸，根據記憶體GC情況或後端資料庫執行Query時間長短判斷進行HiveMetaStore的記憶體調整或升級後端資料庫的規格。