SmartData組件是EMR Jindo引擎的儲存部分,為EMR各個計算引擎提供統一的儲存、緩衝、計算最佳化以及功能擴充。SmartData組件主要包括JindoFS,JindoTable和相關工具集。本文介紹SmartData(3.0.x)版本的更新內容。
JindoFS儲存最佳化
- 改進Jindo Namespace服務單機配置,單機情況下也可以更新並非同步寫入中繼資料至Tablestore。
- 移除Jindo Namespace服務的Tablestore作為中繼資料後端的配置,不再支援基於Tablestore的HA方案。
- 支援Archive Storage,允許檔案資料按照OSS歸檔類型進行儲存,以節省成本。
- 提供JindoFS階層式存放區的Archive、Unarchive和Status命令,允許歸檔至指定目錄,查看歸檔操作進度和相關狀態。
- 提供JindoFS ls2命令,允許查看檔案資訊。
- 支援JindoFS儲存系統fsimage的離線匯出和分析查詢。
- 支援跨叢集訪問JindoFS儲存系統。
JindoFS階層式存放區命令詳情請參見階層式存放區命令使用說明。
JindoFS緩衝最佳化
- 改進快取資料磁碟組織,解除對系統硬碟的依賴,實現資料盤之間完全獨立,增強磁碟下線操作。
- 改進快取服務,增強節點容錯處理和節點下線操作。
- 改進緩衝塊寫入磁碟的選擇策略,預設支援輪詢(Round Robin)。
- 改進讀寫流程,增強容錯處理。
- 提供JindoFS階層式存放區的Cache、Uncache和Status命令,允許緩衝至指定目錄,支援資料預先載入,查看緩衝進度和相關狀態。
- 最佳化小檔案佔用緩衝空間的問題,準確地統計相關指標。
JindoTable計算最佳化
- 提供JindoTable Optimize命令,支援最佳化Hive表操作,例如分區小檔案合并。
- 提供JindoTable Archive、Unarchive和Status命令,允許歸檔至指定表和分區,查看歸檔操作進度和相關狀態。
- 支援JindoTable Cache、Uncache和Status命令,允許緩衝至指定表和分區,支援資料預先載入,查看緩衝進度和相關狀態。
- 支援匯出MaxCompute表至JindoFS緩衝系統上,以實現機器學習訓練前結構化資料的預先載入機制。
JindoTable詳情請參見JindoTable使用說明。
JindoFS OSS擴充和支援
- 支援在用戶端進行Ranger許可權整合,擷取OSS各種操作,通過JindoFS服務記錄進行Ranger許可權檢查。
- 支援在用戶端進行Action Trail,擷取OSS各種操作,通過JindoFS服務記錄操作記錄,作為審計用途。
- 支援Hadoop Credentials Provider架構,允許按照Hadoop常用方式指定OSS的AccessKey配置。
- 支援Flink Connector,允許Flink引擎將OSS作為source、sink和checkpoint儲存。
- 提供JindoFS OSS SDK(Hadoop Connector)輕量版本(lite),主要適用於非標準環境,例如使用者的IDC(Internet Data Center)叢集環境。
JindoManager系統管理
支援通過UI來查看JindoFS儲存系統上的系統狀態、檔案統計和緩衝系統上的緩衝指標統計。
JindoTools工具集
改進Jindo DistCp工具的分發機制,針對EMR叢集內使用情境和非EMR叢集環境使用情境,分別使用不同的發行包。
Jindo DistCp提供輕量版本(lite),主要適用於非標準環境,例如使用者的IDC叢集環境。