全部產品
Search
文件中心

E-MapReduce:OSS/OSS-HDFS

更新時間:Jan 10, 2025

本文為您介紹OSS和OSS-HDFS的使用方式、優點和特性對比。

背景資訊

阿里雲Object Storage Service(Object Storage Service)是一款海量、安全、低成本、高可靠的雲端儲存體服務,可提供99.9999999999%(12個9)的資料持久性和99.995%的資料可用性。多種儲存類型供選擇,全面最佳化儲存成本。更多資訊,請參見什麼是Object Storage Service

OSS-HDFS服務(JindoFS服務)是一款雲原生資料湖儲存產品。基於統一的中繼資料管理能力,在完全相容HDFS檔案系統介面的同時,提供充分的POSIX能力支援,能更好地滿足巨量資料和AI等領域的資料湖計算情境。更多資訊,請參見什麼是OSS-HDFS服務

JindoData是阿里雲開源巨量資料團隊自研的資料湖儲存加速套件,面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。JindoData套件基於統一架構和核心實現,主要包括 JindoFS 儲存系統(原JindoFS Block模式),JindoFSx儲存加速系統(原JindoFS Cache模式,5.0版本後更名為JindoCache),JindoSDK巨量資料萬能SDK和全面相容的生態工具(JindoFuse、JindoDistCp)以及外掛程式支援。更多資訊,請參見JindoData

注意事項

請勿在開啟過版本控制的OSS/OSS-HDFS Bucket上使用JindoSDK,以免導致穩定性和效能問題。有關詳細資料,請參見JindoSDK訪問OSS出現Reached timeout問題OSS-HDFS使用前須知

使用方式

  • 在EMR環境中,已經預設部署JindoSDK,您可以直接通過JindoSDK來訪問OSS或OSS-HDFS。

  • 在非EMR環境中,您可以通過下載最新版本的JindoSDK自行部署使用。具體操作,請參見在非EMR叢集中部署JindoSDK

優點

使用OSS或OSS-HDFS作為底層儲存具有以下優勢:

  • 隨插即用。OSS和OSS-HDFS是雲原生儲存服務,通過Restful API提供服務,本身無需部署。在阿里雲EMR叢集中,已預設安裝 JindoSDK,您可以通過JindoSDK直接存取。

  • 節省成本。使用OSS或OSS-HDFS儲存資料可以有效節省成本,結合低頻、歸檔和冷歸檔等方式,可以進一步最佳化冷資料的儲存成本。

  • 可擴充性。OSS和OSS-HDFS具有更好的可擴充性,不受硬碟容量限制,無需人工擴容。

特性

通過JindoSDK使用OSS和OSS-HDFS的特性對比如下所示。

情境

特性

OSS

OSS-HDFS

巨量資料情境(Hadoop)

支援目錄、檔案語義和操作

支援

支援

添加目錄、檔案許可權

不支援

支援

目錄原子性、rename效能

支援,但效能不佳

支援,毫秒級

通過setTimes設定時間

不支援

支援

擴充屬性XAttrs

不支援

支援

ACL

不支援

支援

本地讀緩衝加速

支援

支援

快照Snapshot

不支援

支援

檔案append、flush和sync操作

不支援

支援

檔案truncate

不支援

支援

校正和Checksum

支援

支援

HDFS資源回收筒自動清理

不支援

支援

AI情境(POSIX)

中繼資料一致性

檔案append、flush和sync操作

支援,但有使用限制

支援

檔案truncate操作

不支援

支援

隨機寫

不支援

支援