資料湖概述 - Object Storage Service

資料湖是一個集中式的資料存放區空間，支援儲存任意規模半結構化和非結構化資料。資料以原始格式直接儲存，通過結合多種分析引擎（例如巨量資料處理架構、即時分析工具以及機器學習等），您可以輕鬆挖掘資料中隱藏的價值。

架構圖

組 850@4x

該架構圖展示了一個全面的資料管理和分析平台，覆蓋了從資料收集到應用的完整流程。

支援上傳多種格式的資料：Parquet、CSV、JSON、多媒體檔案、資料庫及應用資料等。
相容公用雲、專有雲/混合雲和邊緣裝置，確保資料來源的廣泛性和靈活性。
資料存放區在巨量資料和AI業務的BucketGroup中，支援通過資源集區QoS調整BucketGroup頻寬，並將OSS作為資料湖儲存解決方案，確保高效的資料訪問和管理。
提供了包括SDK、POSIX檔案系統和HDFS相容層在內的豐富編程介面，便於靈活訪問和處理資料
通過整合資料分析和AI功能，使用者能夠執行複雜的資料探索、機器學習模型訓練以及即時資料流計算，並利用視覺化檢視更好地理解和展示資料價值。

為什麼在阿里雲OSS上構建資料湖

阿里雲OSS提供了近乎無限的高性價比彈性儲存空間，是構建阿里雲上資料湖方案的最佳資料存放區服務。OSS具備強大的資料管理功能，能夠高效處理和組織海量資料。豐富的用戶端實現了與計算引擎的便捷對接。

在阿里雲OSS上構建資料湖，具備以下核心優勢：

低成本儲存：隨用隨付，支援基於生命週期實現階層式存放區（標準、低頻、歸檔、冷歸檔、深度冷歸檔），靈活控製成本。
彈性擴充：支援EB級資料存放區，無需預置容量，輕鬆應對資料增長。
生態整合：無縫對接阿里雲計算服務（如MaxCompute、EMR、PAI）和開源分析架構（Hadoop、Spark、RAY、PyTorch）。
安全合規：提供加密、許可權與存取控制、，滿足企業安全需求。
高可用與容災：跨可用性區域冗餘儲存，支援跨地區複製，保障資料可靠性。

構建資料湖需要考慮哪些方面

組織構建資料湖和分析平台時，需要考慮許多關鍵功能，包括：

資料擷取和匯入

資料湖允許您即時匯入任意數量的資料，支援從多個來源收集資料，並以原始形式儲存於資料湖中。此過程允許您擴充到任何規模的資料，同時節省定義資料結構、Schema 和轉換的時間。OSS提供了以下匯入資料的方式：

通過內網直接上傳資料至OSS
通過Express Connect將企業資料中心中的資料上傳至OSS
通過線上遷移服務、離線遷移（Lightning Cube）將PB級資料移轉至OSS
通過外網直接上傳資料至OSS。由於外網存在大量安全風險，使用此方式時請務必注意網域名稱管理和許可權控制。請務必仔細閱讀以下文檔：

低成本的安全儲存資料

資料湖允許您儲存海量的非結構化資料（例如，來自行動裝置 App程式、IoT裝置、社交媒體、車連網的資料）。這些資料需要實現自動的成本最佳化，且要時刻保障資料的安全。OSS提供了以下能力：

從熱到冷5種儲存類型
使用生命週期規則實現冷資料的自動沉降
通過版本控制避免資料誤刪

海量資料的管理

在資料湖的使用實踐中，存在不同業務部門資料存放區在一個Bucket的不同Prefix下，以及企業內不同業務和部門的資料存放區在不同Bucket的情況。這就要求同一個Bucket中的資料可以實現分拆管理，同時要求不同Bucket間的資料可以實現資料的流動。OSS提供了豐富的能力來應對各種複雜的情境：

通過存取點為不同的業務團隊配置資料存取權限
通過儲存空間清單擷取一個Bucket內不同業務團隊的空間使用方式
通過資料複製實現同地區、跨地區的Bucket間資料自動同步

多業務訪問的效能管理和最佳化

在資料湖的日常營運中，並存執行的資料擷取、預先處理、AI訓練及調試等操作導致了Bucket與Bucket之間、RAM使用者與RAM使用者之間的效能資源分派不均和資源爭搶問題。OSS提供了資源集區QoS功能，允許動態調整Bucket及其要求者的流控，確保高負載期間關鍵服務和計算密集型任務優先獲得資源，保障業務穩定運行。
針對資料倉儲和檢索引擎低延遲高QPS查詢，線上業務資料低延遲響應，AI推理中模型重複低延遲拉取等情境。OSS提供了OSS加速器，通過將熱點檔案快取在NVMe SSD高效能介質上，減少資料讀取延遲並提高QPS，顯著最佳化了Realtime Compute作業的表現。

資料分析和AI架構接入

資料湖上運行著多種多樣的分析和AI計算架構。一個企業的完整生產流程中可能使用了多種計算架構。不同的計算架構對資料的訪問存在著不同的介面和形態，OSS為了能便捷的接入這些生態，降低業務改造代價，提供了豐富的用戶端、工具和功能：

OSS面向互連網業務使用的主流程式設計語言提供了豐富的SDK，供互連網開發人員使用。如果您有一定的編程基礎，建議您使用OSS SDK獲得高效能的資料訪問體驗。OSS高效能編程實踐，請參見通過Python的並發庫進行多線程改造，顯著提升頻寬。
如果您已經有云上使用Object Storage Service運行Hadoop相關生態的經驗。OSS首先推薦通過OSS connector for hadoop的方式讀寫OSS資料。此種方式可以高效利用OSS的無限擴充能力和各種企業級功能。
如果您當前正在深度使用開源 HDFS，並且短期內不具備業務改造的能力，推薦您使用OSS-HDFS服務。該服務提供了與 HDFS 全面相容的標準介面，同時具備比傳統 HDFS 更強的效能和彈性擴充能力。OSS-HDFS服務已與阿里雲 EMR 以及開源 Hadoop、Spark 等生態組件實現無縫整合。該方案強調對HDFS的強相容性，使企業無需修改現有基於HDFS的巨量資料應用，即可將本機資料中心的傳統HDFS業務平滑遷移至雲端。但由於開源HDFS與Object Storage Service在部分功能定義上的差異，可能會損失 OSS 原生的部分進階資料管理能力，詳情請參見OSS-HDFS服務的功能支援情況。因此，建議在完成上雲後，逐步通過 OSS Connector對業務進行適配和最佳化，以充分發揮OSS在雲原生情境下的高效能與豐富資料管理能力。
如果您的業務中有部分應用需要使用傳統檔案的方式訪問資料，且無法進行改造。OSS 提供了ossfs用戶端滿足這些程式的資料讀寫需求：
- 對於AI訓練、AI 推理、自動駕駛模擬等現代應用，此類應用對POSIX語義的要求較為寬鬆。我們推薦使用 ossfs 2.0，以獲得最優的效能表現。如果您尚不確定應用的具體訪問模式，建議優先使用ossfs 2.0進行測試，如果無法通過，再降級使用ossfs 1.0。
- 對於傳統應用，可以使用ossfs 1.0來讀寫儲存在 OSS 中的資料。然而，考慮到 OSS 和 NAS 之間的語義差異較大，以及部分傳統應用對較高 POSIX 相容性和效能的需求，我們不建議使用ossfs 1.0配合OSS作為NAS的替代方案。在這些情況下，為了確保最佳的相容性和效能表現，建議您選擇阿里雲Apsara File Storage NAS。
如果您熟悉PyTorch dataset架構進行AI資料集載入，但不熟悉OSS SDK的使用方式。我們推薦您使用使用OSS Connector for AI/ML加速模型訓練，可以在無需學習OSS SDK的情況下獲得最佳的OSS資料集讀取效能。
對於管理員和開發人員日常的上傳、下載檔案的需求，OSS提供了：
- 命令列工具ossutil 2.0
- 圖形化管理工具ossbrowser 2.0