このトピックでは、データ分析の技術開発動向と市場動向について説明します。
テクノロジー開発のトレンド
1980年代に商用データベースが市場に登場し始めました。 商用データベースの一般的な例には、Oracle、SQL Server、およびDb2があります。これらはすべて、構造化データをリアルタイムで処理するために使用されるリレーショナルデータベースです。 MySQLやPostgreSQLなどのオープンソースのリレーショナルデータベースも、1990年代に急速な発展を遂げました。
近年、ビジネスデータの量が増え続けるにつれて、企業はデータを分析して、より多くの情報に基づいたビジネス上の意思決定を行い、データの価値を最大限に活用できる必要があります。 ただし、従来のオープンソースおよび商用リレーショナルデータベースは、スケーラビリティに制限があるスタンドアロンアーキテクチャを使用しています。 従来のデータベースは、大量のデータを格納する必要があるシナリオでは、パフォーマンス要件を満たすことができません。 これにより、TeradataやOracle Exadataなどのデータウェアハウスが発生します。 これらのデータウェアハウスは、分散スケールアウトアーキテクチャ上に構築されています。
TeradataとOracle Exadataはどちらもオールインワンのデータベース製品であり、ハードウェアに固有の要件があるため、コストが高くなります。 TeradataとOracle Exadataは、従来の金融、輸送、エネルギーなどの分野の大企業で利用できます。 Googleなどのインターネットサービスプロバイダーが大きな存在感を得るにつれて、従来のx86サーバーアーキテクチャに基づくHadoopなどのビッグデータテクノロジーが急速に発展しています。 Greenplumなどのオープンソース分散データベースも、これらのデータベース製品の代替として登場します。 これにより、中小企業 (SME) がデータを分析するためのスキルとコストの障壁が低くなります。 一方、分散データベース技術はさらに発展し、普及している。 Hadoopは、MapReduceインターフェイスに基づくSQLインターフェイスをサポートしています。 SQL構文は、ビッグデータ分析システムの標準構成の一部になります。
Amazon Web Services (AWS) 、Microsoft Azure、Alibaba cloud、Googleなどのクラウドサービスプロバイダーが登場すると、クラウドネイティブの分散データウェアハウスは、Amazon Redshift、Snowflake、AnalyticDB for PostgreSQL、Google BigQueryなどのデータ分析の主要なソリューションになります。 クラウドネイティブデータウェアハウスは、データベースおよびビッグデータテクノロジーに由来し、標準のSQLインターフェイスとアトミック性、一貫性、分離、耐久性 (ACID) の保証を提供します。 クラウドネイティブデータウェアハウスの基盤となるストレージは、Shared EverythingまたはShared Nothingアーキテクチャを使用して、リソースプーリングと水平スケーラビリティを実装します。 リソースの分離とデータ共有は、クラウドネイティブデータウェアハウスの一般的な要件です。
要約すると、データ分析の技術開発動向には、以下の側面が含まれます。
- クラウドネイティブ分散アーキテクチャ: 分散データベースは、現代の企業にとって最も重要なテクノロジーになりました。 「DBMS市場の未来はクラウドです」というタイトルのGartnerレポートによると、クラウドネイティブのアーキテクチャと機能がクラウドデータベースに必要になっています。 スタンドアロンデータストレージは、オンライントランザクション処理 (OLTP) またはオンライン分析処理 (OLAP) シナリオでのビジネスおよびデータの急速な成長に対応できなくなりました。
- ストレージとコンピューティングの分離: クラウドコンピューティングの本質は、効率的なリソースプーリングです。 データベースのコアコンポーネントは、ストレージとコンピューティングです。 ストレージとコンピューティングの分離により、リソースプーリングとストレージとコンピューティングリソースの個別スケーリングが可能になります。 リソースの分離とデータ共有の要件を満たしています。 ストレージとコンピューティングの分離は、アーキテクチャの一般的なトレンドとして浮上しています。
- コンピューティングと分析の統合: 従来のデータ分析ソリューションは、OLTPからOLAPシステムにデータを定期的に抽出して同期し、準リアルタイム同期を実現します。 しかしながら、これは、複雑な展開、不十分なリアルタイム性能、データ冗長性、および高いコストを引き起こす可能性がある。 理想的には、単一のハイブリッドトランザクション /分析処理 (HTAP) システムが、計算と分析の両方に使用される。
- データベースとビッグデータテクノロジーの統合: 初期段階では、ビッグデータテクノロジーは、従来のスタンドアロンデータベースのスケーラビリティを向上させるために、一貫性を犠牲にして分散データ処理機能を提供していました。 MapReduceインターフェイスに基づいて標準SQLインターフェイスが提供され、一部の大規模並列処理 (MPP) データベーステクノロジーも適用されます。 さらに、分散データベースは、スケーラビリティを向上させるためにいくつかのビッグデータテクノロジーとストレージフォーマットを組み込むように進化しました。 データ分析に関しては、両方の方法で同じ問題が解決されます。
市場のトレンド
データの急速な成長は、データ分析のための広範な要件を課している。 2010年から2025年の間に、世界中のデータの複合年間成長率 (CAGR) は27% に達すると予想され、中国では30% に達すると予想されます。 Gartnerによると、ライブデータは2025ですべてのデータの30% を占めると予想されています。 非構造化ライブデータは、すべてのライブデータの80% を占めると予想されます。 クラウドに保存されているデータは、すべてのデータの45% を占めると予想されます。 クラウドに保存されているデータベースは、すべてのデータベースの75% を占めると予想されます。
Global Market Insightsのレポートによると、データウェアハウジングの市場規模は、2019年から2025年の間に世界中で12% CAGR以上、中国で15% CAGR以上で成長すると推定されています。 市場の需要は、金融、インターネット、製造、政府、新しい小売などの業界から発生します。


Alibaba Cloudデータベースサービス
Alibaba Cloudは当初からデータベースおよびデータ分析技術に投資し、さまざまなシナリオおよび業界でAlibaba Cloud内外のビジネスにサービスを提供してきました。 長年にわたる継続的な投資と蓄積を経て、Alibaba Cloudは2020年から3年連続でGartner Magic Quadrant for Cloud Database Management Systemsのリーダーに選ばれました。

AnalyticDB for PostgreSQLは、データ分析のコア機能を提供します。 次の図は、2020 Gartner Critical Capabilities for Cloud Database Management Systems for AnalyticalユースケースレポートのAnalyticDB for PostgreSQLのスコアランキングを示しています。

