このトピックでは、DataWorks を使用して、オフラインとリアルタイムのデータ処理を統合したエンタープライズグレードのクラウドデータウェアハウスを構築する方法について説明します。このソリューションは、企業がデータ遅延を削減し、ビジネス上の意思決定を迅速化するのに役立ちます。
オフラインとリアルタイムの機能を統合したクラウドデータウェアハウスの構築
ビジネス上の課題
現代のビジネスでは、これまで以上に迅速なデータへのアクセスが求められています。従来のデータアーキテクチャでは、この要求を満たすことが困難です。
断片化されたアーキテクcha と高い複雑性: 企業は多くの場合、2 つの別々の技術スタックを運用しています。1 つのスタックは、Hive や Spark のようなエンジンを使用してオフラインデータウェアハウスで既存データをバッチ処理します。もう 1 つのスタックは、Flink や Kafka のようなエンジンを使用してリアルタイムデータストリームを処理します。このデュアルスタックアプローチは、開発とメンテナンスのコストを増加させ、データ整合性を確保することをより困難にします。
分析の遅延と意思決定の遅れ: オフラインウェアハウスのデータは、アドホッククエリやインタラクティブ分析にすぐには利用できません。ビジネスユーザーは、新しいデータを探索できるようになるまで、数時間、場合によっては丸 1 日待つことがよくあります。さらに、リアルタイムデータと大量の既存データセットを関連付けることは困難であり、洞察の深さが制限されます。
リソースの弾力性の低さと高コスト: ピーク時のバッチ処理ワークロードとリアルタイムコンピューティングトラフィックの急増には、かなりの予約リソースが必要です。これにより、リソース使用率が低くなり、総所有コスト (TCO) が高くなります。
高い技術的障壁: 2 つの複雑で別々のシステムを管理するには、大規模で高度なスキルを持つビッグデータチームが必要であり、これはほとんどの企業にとって大きな課題です。
ソリューション
DataWorks は、MaxCompute や Hologres などのクラウドネイティブなビッグデータエンジンと組み合わせることで、オールインワンのデータプラットフォームを提供します。ストリーム処理とバッチ処理を統合したデータレイクハウスアーキテクチャ上に構築されたこのプラットフォームは、企業がデータ遅延を削減するのに役立ちます。
統一されたデータインジェストと階層化
Data Integration を使用して、さまざまなソースから統一されたクラウドデータレイクまたはデータウェアハウスにデータを取り込みます。ソースには、ビジネスデータベースからの構造化データ、ログファイル、Kafka などのリアルタイムメッセージキューが含まれます。データは標準的な階層化モデル (ODS → DWD → DWS → ADS) に従います。このモデルにより、データの単一のコピーでオフラインとリアルタイムの両方のコンピューティングに対応でき、ソースからの整合性が確保されます。
バッチデータ処理
Data Studio で、MaxCompute SQL ノードを使用して、テラバイトまたはペタバイト規模の既存データを効率的かつコスト効率よく処理、クレンジング、モデリングします。スケジューリングシステムは、これらの ETL タスクを毎日深夜以降に自動的に実行します。これにより、意思決定分析、ユーザープロファイリング、機械学習のための包括的なデータ基盤が構築されます。
リアルタイムおよびニアリアルタイムコンピューティング
リアルタイムコンピューティング: DataWorks の Flink SQL ノードを使用して、ミリ秒単位の待機時間でデータストリームを処理および分析します。これは、リアルタイムのリスク管理、リアルタイムのダッシュボード、リアルタイムの推奨など、サブ秒の待機時間が必要なシナリオに最適です。
ニアリアルタイム分析 (アドホッククエリ): Hologres を使用すると、データレイクまたはデータウェアハウス内の大量のオフラインデータに対して、秒単位の待機時間でインタラクティブなクエリを実行できます。ビジネスアナリストや運用スタッフは、スケジュールされたレポートを待つことなく、BI ツールを使用して最新のデータに対して直接、多次元のドリルダウンや探索を実行できます。
統合分析と統一サービス
DataWorks を使用すると、Hologres は MaxCompute データに対するクエリを直接高速化できます。これにより、リアルタイムデータと既存のオフラインデータのシームレスなフェデレーション分析が可能になり、データサイロが解消されます。DataWorks DataService Studio を使用して、分析結果を標準 API にパッケージ化します。これにより、アップストリームのビジネスアプリケーション、BI レポート、ダッシュボードに、統一されたパフォーマンス専有型のデータサービスエンドポイントが提供されます。
コアバリュー
アーキテクチャの簡素化と TCO の削減: データレイクハウスアーキテクチャは、単一のストレージレイヤー、単一の開発プラットフォーム、および複数のコンピュートエンジンで技術スタックを統一します。これにより、開発、管理、運用の複雑さが軽減され、TCO が 50% 以上削減されます。
洞察までの時間の短縮: データ分析サイクルを数日から数分または数秒に短縮します。定期的なレビューからリアルタイムの洞察へのこのシフトにより、より迅速でアジャイルな意思決定が可能になります。
セルフサービス分析: パフォーマンス専有型のインタラクティブクエリにより、ビジネスユーザーはセルフサービスのデータ探索を実行できます。これにより、データアナリストはアドホックなデータリクエストを手動で処理する作業から解放されます。
イノベーションの加速: 統一されたリアルタイムでパフォーマンス専有型のデータ基盤は、ユーザーの行動分析、精密マーケティング、金融リスク管理、インテリジェントなサプライチェーンなど、データ駆動型のイノベーションのための強力なプラットフォームを提供します。