本文為您介紹資料分析的技術發展趨勢和市場趨勢。
技術發展趨勢
商務資料庫起步於二十世紀八十年代,主要代表為Oracle,SQL Server,DB2等結構化資料線上處理的關係型資料庫,而以MySQL,PostgreSQL為代表的開源關係型資料庫也在二十世紀九十年代得到了發展。
近些年來,隨著業務資料量的增多,企業需要能夠對資料進行分析,助力商業決策,更好地發揮資料價值,而傳統開源及商業關係型資料庫通常為單機版,在海量資料分析情境下擴充能力有限,效能無法滿足需求。以Teradata,Oracle Exadata為代表的數倉技術陸續出現,具備了較好的分布式橫向擴充能力。
Teradata、Exadata都是以一體機形態輸出,對硬體有特定要求,整體價格昂貴,通常面向傳統金融,交通,能源等大企業。隨著Google等互連網企業崛起,以Hadoop為代表的基於傳統x86伺服器叢集的巨量資料技術迅速發展,同時開源分散式資料庫如Greenplum等也成為相應替代方案,為廣大中小企業,尤其是互連網行業大大降低了資料分析的技術和成本門檻,還有分布式技術也得到進一步發展和普及。Hadoop也在早期的MapReduce介面基礎上增加了SQL介面,SQL文法逐漸成為巨量資料分析系統的標準配置。
隨著AWS,Azure,Alibaba,Google等雲廠商的出現,雲原生分布式資料倉儲成為目前資料分析技術的主要解決方案,代表性雲端服務包括Amazon Redshift,Snowflake,Alibaba Cloud AnalyticDB,Google BigQuery等。這些雲原生資料倉儲技術分別起源於資料庫和巨量資料,提供標準SQL介面和ACID保證,底層儲存通過Share Everything或Share Nothing實現資源集區化和橫向擴充能力。資源隔離,資料共用是目前業務應用對雲原生資料倉儲的普遍需求。

綜上所述,資料分析技術趨勢主要包括:
- 雲原生分布式:無論是OLTP還是OLAP,如今單機資料已無法滿足企業業務和資料快速增長的需求,分散式資料庫成為主流,同時資料庫市場未來主要在雲上("Gartner: The Future of the DBMS Market Is Cloud"),雲原生架構與特性成為雲資料庫的必要條件。
- 儲存計算分離:雲端運算的本質是資源高效池化,而資料庫的兩大核心組件是儲存和計算。通過儲存計算分離,做到兩者解耦,資源集區化,獨立擴充,滿足業務上資源隔離,資料共用的需求,是當下的架構趨勢。
- 計算分析一體化:傳統資料分析方案是定期從OLTP系統抽取資料同步到OLAP系統,有些可以做到准即時同步。該方案帶來的問題是部署複雜,即時性低,資料冗餘和高成本。理想情況是一套HTAP系統同時提供計算和分析。
- 巨量資料與資料庫一體化:早期巨量資料技術以犧牲一定程度一致性為基礎提供分布式能力,解決了傳統單機資料庫的擴充性不足問題,在MapReduce基礎上提供了標準SQL介面,架構上也逐步採用了部分MPP資料庫技術;另一方面,分散式資料庫也快速發展,融合了部分巨量資料技術和儲存格式,在擴充性層面獲得了很好提升。在資料分析情境,兩者解決的都是相同問題。
市場趨勢
資料規模高速增長(全球2010-2025年複合增長達到27%,中國則大於30%)帶來了強勁的資料分析需求。據Gartner統計,到2025年即時資料佔比達30%,其中非結構資料佔比達80%,同時資料存放區雲上規模達45%,而雲上資料庫規模可達75%。
從數倉分析市場增長來看,據Global Market Insights分析,2019-2025全球年複合增長超過12%,中國則大於15%,其中主要市場需求來自金融,互連網,製造業,政府,新零售等行業。


阿里雲資料庫
阿里雲從成立之初就對資料庫和資料分析進行技術投入,一方面很好地服務了阿里巴巴經濟體內各個業務情境,另一方面也通過阿里雲平台對外輸出服務各個行業。通過持續投入和積累,阿里雲從2020年開始,連續三年榮獲Gartner雲資料庫管理系統魔力象限全球領導者稱號。

在資料分析關鍵能力層面,下圖為雲原生資料倉儲AnalyticDB PostgreSQL版在《2020 Gartner Critical Capabilities for Cloud Database Management Systems for Analytical Use Cases》中的得分排名。

