資料湖是一個集中式的資料存放區空間,支援儲存任意規模半結構化和非結構化資料。資料以原始格式直接儲存,通過結合多種分析引擎(例如巨量資料處理架構、即時分析工具以及Machine Learning Platform for AI等),您可以輕鬆挖掘資料中隱藏的價值。
架構圖
該架構圖展示了一個全面的資料管理和分析平台,覆蓋了從資料收集到應用的完整流程。
支援上傳多種格式的資料:Parquet、CSV、JSON、多媒體檔案、資料庫及應用資料等。
相容公用雲、專有雲/混合雲和邊緣裝置,確保資料來源的廣泛性和靈活性。
資料存放區在巨量資料和AI業務的BucketGroup中,支援通過資源集區QoS調整BucketGroup頻寬,並將OSS作為資料湖儲存解決方案,確保高效的資料訪問和管理。
提供了包括SDK、POSIX檔案系統和HDFS相容層在內的豐富編程介面,便於靈活訪問和處理資料
通過整合資料分析和AI功能,使用者能夠執行複雜的資料探索、機器學習模型訓練以及即時資料流計算,並利用視覺化檢視更好地理解和展示資料價值。
為什麼在阿里雲OSS上構建資料湖
阿里雲OSS提供了近乎無限的高性價比彈性儲存空間,是構建阿里雲上資料湖方案的最佳資料存放區服務。OSS具備強大的資料管理功能,能夠高效處理和組織海量資料。豐富的用戶端實現了與計算引擎的便捷對接。
在阿里雲OSS上構建資料湖,具備以下核心優勢:
低成本儲存:隨用隨付,支援基於生命週期實現階層式存放區(標準、低頻、歸檔、冷歸檔、深度冷歸檔),靈活控製成本。
彈性擴充:支援EB級資料存放區,無需預置容量,輕鬆應對資料增長。
生態整合:無縫對接阿里雲計算服務(如MaxCompute、EMR、PAI)和開源分析架構(Hadoop、Spark、RAY、PyTorch)。
高可用與容災:跨可用性區域冗餘儲存,支援跨地區複製,保障資料可靠性。
構建資料湖需要考慮哪些方面
組織構建資料湖和分析平台時,需要考慮許多關鍵功能,包括:
資料擷取和匯入
資料湖允許您即時匯入任意數量的資料,支援從多個來源收集資料,並以原始形式儲存於資料湖中。此過程允許您擴充到任何規模的資料,同時節省定義資料結構、Schema 和轉換的時間。OSS提供了以下匯入資料的方式:
通過內網直接上傳資料至OSS
通過Express Connect將企業資料中心中的資料上傳至OSS
通過線上遷移服務、離線遷移(Lightning Cube)將PB級資料移轉至OSS
通過外網直接上傳資料至OSS。由於外網存在大量安全風險,使用此方式時請務必注意網域名稱管理和許可權控制。請務必仔細閱讀以下文檔:
低成本的安全儲存資料
資料湖允許您儲存海量的非結構化資料(例如,來自行動裝置 App程式、IoT裝置、社交媒體、車連網的資料)。這些資料需要實現自動的成本最佳化,且要時刻保障資料的安全。OSS提供了以下能力:
海量資料的管理
在資料湖的使用實踐中,存在不同業務部門資料存放區在一個Bucket的不同Prefix下,以及企業內不同業務和部門的資料存放區在不同Bucket的情況。這就要求同一個Bucket中的資料可以實現分拆管理,同時要求不同Bucket間的資料可以實現資料的流動。OSS提供了豐富的能力來應對各種複雜的情境:
多業務訪問的效能管理和最佳化
資料分析和AI架構接入
資料湖上運行著多種多樣的分析和AI計算架構。一個企業的完整生產流程中可能使用了多種計算架構。不同的計算架構對資料的訪問存在著不同的介面和形態,OSS為了能便捷的接入這些生態,降低業務改造代價,提供了豐富的用戶端、工具和功能:
OSS面向互連網業務使用的主流程式設計語言提供了豐富的SDK,供互連網開發人員使用。如果您有一定的編程基礎,建議您使用OSS SDK獲得高效能的資料訪問體驗。OSS高效能編程實踐,請參見通過Python的並發庫進行多線程改造,顯著提升頻寬。
如果您已經有云上使用Object Storage Service運行Hadoop相關生態的經驗。OSS首先推薦通過OSS connector for hadoop的方式讀寫OSS資料。此種方式可以高效利用OSS的無限擴充能力和各種企業級功能。
如果您當前正在深度使用開源 HDFS,並且短期內不具備業務改造的能力,推薦您使用OSS-HDFS服務。該服務提供了與 HDFS 全面相容的標準介面,同時具備比傳統 HDFS 更強的效能和彈性擴充能力。OSS-HDFS服務已與阿里雲 EMR 以及開源 Hadoop、Spark 等生態組件實現無縫整合。該方案強調對HDFS的強相容性,使企業無需修改現有基於HDFS的巨量資料應用,即可將本機資料中心的傳統HDFS業務平滑遷移至雲端。但由於開源HDFS與Object Storage Service在部分功能定義上的差異,可能會損失 OSS 原生的部分進階資料管理能力,詳情請參見OSS-HDFS服務的功能支援情況。因此,建議在完成上雲後,逐步通過 OSS Connector對業務進行適配和最佳化,以充分發揮OSS在雲原生情境下的高效能與豐富資料管理能力。
如果您的業務中有部分應用需要使用傳統檔案的方式訪問資料,且無法進行改造。OSS 提供了ossfs用戶端滿足這些程式的資料讀寫需求:
對於AI訓練、AI 推理、自動駕駛模擬等現代應用,此類應用對POSIX語義的要求較為寬鬆。我們推薦使用 ossfs 2.0,以獲得最優的效能表現。如果您尚不確定應用的具體訪問模式,建議優先使用ossfs 2.0進行測試,如果無法通過,再降級使用ossfs 1.0。
對於傳統應用,可以使用ossfs 1.0來讀寫儲存在 OSS 中的資料。然而,考慮到 OSS 和 NAS 之間的語義差異較大,以及部分傳統應用對較高 POSIX 相容性和效能的需求,我們不建議使用ossfs 1.0配合OSS作為NAS的替代方案。在這些情況下,為了確保最佳的相容性和效能表現,建議您選擇阿里雲Apsara File Storage NAS。
如果您熟悉PyTorch dataset架構進行AI資料集載入,但不熟悉OSS SDK的使用方式。我們推薦您使用OSS Connector for AI/ML,可以在無需學習OSS SDK的情況下獲得最佳的OSS資料集讀取效能。
對於管理員和開發人員日常的上傳、下載檔案的需求,OSS提供了: