DataWorks は、あらゆる業界の企業がデータサイロを解消し、運用コストを削減し、データ駆動型の意思決定を加速するための支援を行います。以下に、小売、金融、エネルギー、物流、メディア、ゲーム業界の組織が DataWorks を活用して実際のデータ課題を解決した事例を紹介します。
新小売:RT-Mart のクラウドデータ中台構築
15 日間で 400 TB 超の移行完了 · Alibaba Cloud 上でのデータ中台構築
RT-Mart は、2 年以内に全社 IT システムを Alibaba Cloud へ完全移行することを計画しており、従来の自社管理型データセンターをクラウドネイティブなデータ中台に置き換えました。その目的は、総所有コスト(TCO)の削減と、クラウドエコシステム全体におけるデータ資産のクローズドループ制御の確立です。
チャレンジ: 従来のシステムはオープンソースの Hadoop 上で稼働しており、安定性が低く、ハードウェアおよびソフトウェアのメンテナンスコストが高かった。オンライン事業の急拡大により、未対応要件が蓄積し、事業成長に合わせてスケール可能なソリューションが求められました。
成果: MaxCompute Migration Assist (MMA) を活用し、既存データ約 400 TB を 15 日間で高精度でクラウドへ移行し、RT-Mart にスムーズかつ効率的なデータ移行体験を提供しました。DataWorks と MaxCompute を組み合わせることで、データ開発効率が向上し、RT-Mart の新たなクラウドデータ中台を支える基盤となりました。
新金融:インターネット金融企業のデータレイクハウス構築
メタデータおよび権限の一元管理 · データレイクとデータウェアハウス間のシームレスなデータフロー
同社は、データレイクとして Hadoop および Object Storage Service (OSS)、データ中台として MaxCompute を採用するデュアルエンジン構成を採用していました。この異種エンジン環境により、ストレージの冗長性、メタデータおよび権限の不整合、計算処理の中断といった課題が生じていました。
チャレンジ: 異なるビジネスシナリオに対応するため、複数のコンピュートエンジンを柔軟に活用しつつ、メタデータおよびユーザー権限を単一のコントロールプレーンから統合的に管理する必要がありました。
成果: E-MapReduce (EMR) エンジンのメタデータを Alibaba Cloud Data Lake Formation (DLF) に統合し、OSS を統一ストレージレイヤーとして活用することで、EMR 基盤のデータレイクと MaxCompute 基盤のデータウェアハウスを接続するデータレイクハウスを構築しました。これにより、両者間のデータフローが自由に行われ、計算処理も中断なく継続可能です。ディメンションモデリング向けの中間テーブルは MaxCompute に格納し、EMR および他のエンジンが利用するデータはアプリケーションデータサービス(ADS)レイヤーに配置しています。DataWorks は、この全体アーキテクチャに対してエンドツーエンドのデータガバナンスを提供し、データ品質の向上とデータ活用の強化を実現しました。
新エネルギー:エネルギー企業のエンドツーエンドデータガバナンス
コスト削減額:約 1 億人民元 · データリフレッシュ周期:1 日 → 10 分 · サービスリリース期間:1 週間 → 1 日
同社は多数の子会社を有し、多様で複雑な技術スタックに基づく多数のシステムを運用していました。データは分散したデータサイロに散在し、定義基準も統一されておらず、権限管理、ガバナンス、共有のための有効な仕組みが欠如していました。
チャレンジ: データギャップにより分析精度が低下し、中央集約型のガバナンス体制の不在が、各業務部門間でのデータの自由な流通を妨げていました。
成果: DataWorks と MaxCompute を活用し、統一データ中台を構築することでデータサイロを解消しました。Realtime Compute for Apache Flink および Hologres を追加導入することで、オフラインのバッチパイプラインに加え、リアルタイム処理能力も付与しました。DataWorks を通じたエンドツーエンドのデータガバナンスにより、全社におけるデータ品質、精度、整合性が向上しました。具体的な成果は以下のとおりです。
-
コスト削減額:約 1 億人民元
-
データリフレッシュ周期:1 日から 10 分へ短縮
-
新規サービスのリリース期間:1 週間から 1 日へ短縮
-
スマート製造とインターネットマーケティングを統合した、インテリジェントな B2B(ビジネス・トゥ・ビジネス)マーケティングシステムの構築
インターネット:GOGOX のクラウドビッグデータウェアハウス
サーバー費用:30% 以上削減 · データ開発効率:100% 向上 · クラスター障害:ゼロ
GOGOX は、ネットワーク接続、トランスポートリソース共有、プロセスのデジタル化、インテリジェントなマッチングといったデジタル手法を活用し、余剰の輸送リソースを需要のある市場に正確に配分する物流プラットフォームです。これにより、エネルギー消費の削減、排出量の低減、空車率の低下を実現し、グリーン物流の発展を促進しています。
チャレンジ: 大規模データ処理の速度が遅く、オフラインデータ計算の持続時間が予測不能でした。Realtime Compute for Apache Flink の維持には多大な開発工数が必要であり、包括的なデータウェアハウスガバナンスが求められていました。
成果: Apsara ビッグデータプラットフォームを導入した結果、サーバー費用が 30% 以上削減され、データ開発効率が 2 倍に向上しました。Flink SQL が従来の Java ベースの Apache Storm を置き換え、リアルタイムコンピューティングの開発サイクルを短縮し、保守作業を簡素化しました。また、Flink SQL はデータ整合性、サービス監視の精度、リアルタイム性能の向上にも寄与しました。Alibaba Cloud の 24 時間体制の O&M サービスにより、クラスターの安定性が確保され、障害ゼロを達成しています。
インターネット:Babytree のクラウドビッグデータウェアハウス
特定タスクのパフォーマンス:10 倍以上向上 · ストレージ容量:3 PB → 900 TB · コスト:30% 以上削減
Babytree は 2007 年に設立された中国最大かつ最もアクティブな妊娠・育児コミュニティプラットフォームです。創業当初から自社データセンターを運用していましたが、インフラは急速に拡大した一方で、管理が困難になっていました。
チャレンジ: 自社管理型データセンターではパフォーマンスが低く、年間の運用コストが高騰していました。コスト削減と効率向上を同時に実現する包括的なビッグデータガバナンスソリューションが求められていました。
成果: MaxCompute、Realtime Compute for Apache Flink、DataWorks への移行後、以下の成果が得られました。
-
特定タスクのパフォーマンスが 10 倍以上向上
-
自社管理型 Hadoop システムにおけるストレージ容量 3 PB から、クラウド上でのストレージ容量 900 TB へ大幅削減
-
総合的なコストが 30% 以上削減
Realtime Compute for Apache Flink を活用することで、Babytree の既存シナリオにおけるリアルタイム処理が可能となりました。具体的には、ユーザー ID およびコンテンツタイプに基づくリアルタイムレコメンデーション、ユーザーのリアルタイムグループチャット ID、リアルタイム記事公開信号などに対応し、プラットフォーム全体の動作変換率を向上させました。
ゲーム:DeNA 中国のフルリンクゲーム運用
ゲーム業界初の Lightning Cube + MMA 導入 · 専用回線不要で 1 ヶ月間で増分データ 300 TB + 既存データ 50 TB を移行
DeNA は、プロジェクトライフサイクルが短期化するゲーム業界においてサービスを提供する企業です。各プロジェクト段階を精密に管理するためには、コスト効率が高く、効率的かつデータ駆動型の運用システムが不可欠です。
チャレンジ: Hadoop 1.0 および 2.0 をそれぞれ実行する 2 つの独立したクラスターが存在し、アーキテクチャが複雑化していたため、安定性、セキュリティ、スケーリング性能が低下していました。多様なログソースと増大するログボリュームにより、Fluentd ベースのログ収集サービスのパフォーマンスおよび安定性が劣化していました。データ開発は手動コーディングに依存しており、Hive ベースの計算ではスループット要件を満たすことができませんでした。
成果: DeNA 中国は、ゲーム業界で初めて Lightning Cube と MMA を併用した企業となりました。RDS データベースに 10 年間にわたり蓄積された増分データ約 300 TB および既存データ 50 TB を、専用回線を一切使用せずにわずか 1 ヶ月超でクラウドへ移行しました。従来の Python ベースの Airflow ワークフローと比較して、以下の改善が実現しました。
-
タスク管理が明確に可視化され、エラーを即時に検出し対応可能
-
数百のデータソースを一元管理でき、重複作業が解消
-
GUI を通じたリソーススケジューリングにより、手動コーディングが不要に
Apsara ビッグデータプラットフォームは、現在、データ収集、ストレージ、計算からリアルタイムおよびオフライン分析に至るまでの、運用の全リンクを管理しています。