什麼是OSS-HDFS服務 - Object Storage Service

OSS-HDFS服務（JindoFS服務）是一個雲原生資料湖儲存功能。基於統一的中繼資料管理能力，完全相容HDFS檔案系統介面，滿足巨量資料和AI等領域的資料湖計算情境。

注意事項

警告

當您為某個Bucket開通OSS-HDFS服務後，OSS-HDFS服務資料將保留在Bucket的.dlsdata/目錄下。禁止以非OSS-HDFS提供的方式對該目錄及其下的Object執行寫入操作，如重新命名、刪除等，以避免影響服務或資料丟失。
若發生賬戶欠費、刪除服務依賴的RAM角色AliyunOSSDlsDefaultRole等影響HDFS啟動並執行情況，HDFS後台服務可能會進入安全模式。該模式下，後台服務將全部暫停（如審計日誌、非同步刪除、冷熱分層等）。當影響消失時，後台服務會在一段時間內自動回復。

開通OSS-HDFS服務後，您在使用涉及.dlsdata/目錄寫入操作的OSS其他功能時，可能存在資料丟失、資料汙染、資料無法正常訪問等風險。更多資訊，請參見使用前須知。

費用說明

資料使用費用
使用OSS-HDFS服務時，資料區塊採用了OSS的儲存方式。因此，OSS的計量計費方式適用於OSS-HDFS服務中的資料區塊。更多資訊，請參見計費概述。

功能優勢

通過OSS-HDFS服務，無需對現有的Hadoop、Spark巨量資料分析應用做任何修改。通過簡單的配置即可像在原生HDFS中那樣管理和訪問資料，同時獲得OSS無限容量、彈性擴充、更高的安全性、可靠性和可用性支撐。

作為雲原生資料湖基礎，OSS-HDFS在滿足EB 、億級檔案管理服務、TB級輸送量的同時，全面融合巨量資料儲存生態，除提供Object Storage Service扁平命名空間之外，還提供了階層命名空間服務。階層命名空間支援將對象組織到一個目錄階層中進行管理，並能通過統一中繼資料管理能力進行內部自動轉換。同時相較於傳統HDFS的中繼資料管理節點NameNode的主備冗餘方式，OSS-HDFS的中繼資料管理採用多節點多活冗餘機制，具備更好的資料冗餘能力。對Hadoop使用者而言，無需做資料複製或轉換就可以實現像訪問本地HDFS一樣高效的資料訪問，極大提升整體作業效能，降低了維護成本。

功能特性

功能特性	說明	參考文檔
RootPolicy	您可以通過RootPolicy為OSS-HDFS服務設定自訂首碼，在無需修改原有訪問`hdfs://`首碼作業的基礎上，將作業直接運行在OSS-HDFS服務上。	通過RootPolicy訪問
ProxyUser	ProxyUser命令用於授權一個使用者代表其他使用者進行檔案系統操作。例如，某些敏感性資料只允許授權的特定使用者代表其他使用者進行訪問和操作。	ProxyUser（配置代理使用者）
UserGroupsMapping	UserGroupsMapping用於配置使用者和使用者組之間的映射關係。	UserGroupsMapping（系統管理使用者和使用者組映射）

應用情境

OSS-HDFS服務提供全面的巨量資料和AI生態支援，其主要應用情境如下：

Hive、Spark離線數倉

OSS-HDFS服務原生支援檔案、目錄語義和操作，添加檔案和目錄許可權，支援目錄原子性、毫秒級rename操作，支援通過setTimes設定時間，擴充屬性（XAttrs）、ACL以及本地讀緩衝加速等特性。適用於開源Hive、Spark離線數倉。在ETL情境下相較於OSS標準儲存類型Bucket，OSS-HDFS服務具有更大的效能優勢。

OLAP

OSS-HDFS服務提供append、truncate、flush、sync、pwrite等基礎檔案操作。通過JindoFuse充分支援POSIX，可以在ClickHouse這類OLAP情境中替換本地磁碟來實現儲存與計算分離方案。同時，得益於緩衝系統進行加速，達到較優性價比。

HBase儲存與計算分離

OSS-HDFS服務原生支援檔案、目錄語義和操作，並支援flush操作，可用於替代HDFS用做HBase儲存與計算分離方案。相比HBase結合OSS標準儲存類型Bucket的方案，HBase結合OSS-HDFS服務依賴HDFS來存放WAL日誌，大幅簡化整體方案架構。更多資訊，請參見使用OSS-HDFS作為HBase的底層儲存。

Realtime Compute

OSS-HDFS服務高效支援flush和truncate操作，可無縫替代HDFS在FlinkRealtime Compute應用情境下用做Sink、Checkpoint儲存方案。

資料移轉

OSS-HDFS服務作為新一代雲原生資料湖儲存，支援IDC HDFS平遷上雲，最佳化HDFS使用體驗，同時享受Auto Scaling、按需付費的成本效益，大幅最佳化儲存成本。JindoDistCp工具支援將HDFS檔案資料（包括檔案屬性等中繼資料）無縫遷入OSS-HDFS 服務，並基於HDFS Checksum提供快速比對。

引擎支援列表

生態類型	引擎/平台	參考文檔
開源生態	Flink	開源Flink使用JindoSDK處理OSS-HDFS服務的資料
	Flume	Flume使用JindoSDK寫入OSS-HDFS服務
	Hadoop	Hadoop使用JindoSDK訪問OSS-HDFS服務
	HBase	HBase使用OSS-HDFS服務作為底層儲存
	Hive	Hive使用JindoSDK處理OSS-HDFS服務中的資料
	Impala	Impala使用JindoSDK查詢OSS-HDFS服務中的資料
	Presto	Trino使用JindoSDK查詢OSS-HDFS服務中的資料
	Spark	Spark使用JindoSDK查詢OSS-HDFS服務中的資料
阿里雲生態	EMR	在EMR Hive或Spark中訪問OSS-HDFS
	Flink	EMR Flink可恢複性寫入OSS-HDFS服務 Realtime ComputeFlink讀寫OSS或者OSS-HDFS
	Flume	使用Flume同步EMR Kafka叢集的資料至OSS-HDFS服務
	HBase	HBase以EMR叢集的方式使用OSS-HDFS服務作為底層儲存
	Hive	Hive以EMR叢集的方式處理OSS-HDFS服務中的資料
	Impala	Impala以EMR叢集的方式查詢OSS-HDFS服務中的資料
	Presto	Trino以EMR叢集的方式查詢OSS-HDFS服務中的資料
	Spark	Spark以EMR叢集的方式處理OSS-HDFS服務中的資料
	Sqoop	Sqoop以EMR叢集的方式讀寫OSS-HDFS服務的資料