業界別 DataWorks 導入事例 - DataWorks - Alibaba Cloud ドキュメントセンター

ニューリテール：RT-Mart 向けのクラウドデータミドルエンド

大润发

背景

デジタルトランスフォーメーションを加速し、ニューリテールの潮流に対応するため、RT-Mart は自社運用のデータセンターから脱却し、2 年以内に IT システム全体を Alibaba Cloud へ移行する計画を立てました。同時に、Alibaba Cloud と連携してデータミドルエンドプロジェクトを開始しました。この取り組みは、総所有コスト (TCO) を削減し、クラウドエコシステムを活用してデータをビジネス価値へ転換することを目的としていました。
課題
- 既存の Hadoop ベースのシステムは保守コストが高く、安定性の問題も継続して発生しており、業務運用と分析に深刻な影響を与えていました。
- オンライン事業の急成長により、依頼が大幅に滞留していました。変化する技術要件に対応するため、柔軟かつ迅速にスケールできる包括的なソリューションが必要でした。
ソリューションとメリット

MaxCompute Migration Assist (MMA) を使用し、RT-Mart は 400 TB 超の履歴データをわずか 15 日でシームレスに移行し、高い精度とスムーズなクラウド移行を実現しました。DataWorks と MaxCompute により Apsara ビッグデータプラットフォーム上に基盤を構築し、データ開発効率を大幅に向上させ、堅牢なデータミドルエンドを確立しました。

フィンテック：あるインターネット金融企業向けのデータレイクハウス

互联网金融

背景

同社の第 1 世代データレイクは Hadoop と OSS 上に構築されていました。一方で、データミドルエンドは実行およびストレージエンジンとして MaxCompute を使用していました。このように 2 つの異種システムを併用したことで、ストレージの重複、メタデータと権限の不整合が発生し、データレイクとデータウェアハウス間でのデータおよび計算の共有が妨げられていました。
課題

同社は、ビジネスシナリオごとに使い分けていた MaxCompute と E-MapReduce のエンジンを統合する必要がありました。目標は、Alibaba Cloud の Data Lake Formation を使用してメタデータと権限管理を統合することでした。また、DataWorks を用いたエンドツーエンドのデータガバナンスを実装し、データ品質と利便性を向上させることも目指していました。
ソリューションとメリット
- 本ソリューションでは、E-MapReduce のメタデータを Data Lake Formation に集約し、OSS を統合ストレージとして使用しました。データレイクハウスアーキテクチャを構築し、E-MapReduce ベースのデータレイクと MaxCompute ベースのデータウェアハウスを接続することで、両者の間でデータとコンピューティングリソースを自由に移動できるようにしました。
- これにより、階層型ストレージ戦略が可能になりました。データレイクデータのディメンショナルモデリングのためにデータミドルエンドが作成する中間テーブルは MaxCompute に保存し、application data service (ADS) レイヤーは E-MapReduce などのエンジンで利用しました。

エネルギー：DataWorks を用いたエンドツーエンドのデータガバナンス

背景
- The company, comprising multiple subsidiaries, had developed a large and complex landscape of systems over many years.
- This resulted in fragmented data, inconsistent data standards, and data silos that hindered effective analysis.
- Furthermore, the company lacked clear data ownership, governance, and effective sharing mechanisms.
課題
- データが分断され、データ標準に一貫性がなく、効果的な分析を妨げるデータサイロが発生していました。
- データの所有権やガバナンス、効果的な共有メカニズムが明確ではありませんでした。
- DataWorks でエンドツーエンドのデータガバナンスを実装し、データ品質とユーザビリティを向上させます。
ソリューションとメリット
- B2B インテリジェントマーケティングシステムを開発し、スマート製造とインターネットベースのビジネスモデルの統合に成功しました。
- ストリームとバッチの統合処理に対応したデータミドルエンドを構築し、一貫性があり完結したビッグデータアプリケーションパイプラインを整備して、複数の主要事業部門に提供しました。
- エンドツーエンドのデータガバナンスによりデータの可用性が向上し、データミドルエンド内でデータが自由に流通できるようになりました。これにより、データの精度、適時性、一貫性が担保され、1億人民元のコスト削減につながりました。
- ビジネスの反復を加速し、データ更新頻度を 1 日からわずか 10 分へ短縮し、新機能のデプロイ時間を 1 週間から 1 日へ短縮しました。

インターネット：GOGOX 向けのクラウドデータウェアハウス

背景

GOGOX は、ネットワーク接続、輸送能力の共有、データドリブンなプロセス、インテリジェントなマッチングなどのデジタルソリューションにより、物流を最適化しています。同プラットフォームは、遊休の輸送リソースを統合し、ビッグデータを活用して輸送能力と市場需要を高精度にマッチングします。このアプローチにより、省エネルギー、排出削減、空車走行率の低減、物流業界全体の効率向上に貢献しています。
課題
- 大規模データセットの処理効率が低下しており、オフラインデータ計算に必要な時間が不安定でした。
- リアルタイムコンピューティングの開発および保守コストが高く、データウェアハウス向けの包括的なガバナンスソリューションが必要でした。
ソリューションとメリット

Apsara ビッグデータプラットフォームを活用することで、GOGOX はマシンコストを 30% 以上削減し、データ開発効率を 2 倍に向上させました。Java Storm から Flink SQL へ移行により、リアルタイムコンピューティングの開発サイクルを大幅に短縮し、保守を簡素化するとともに、データの一貫性を向上させました。これにより、業務監視ダッシュボードの精度と適時性が向上し、チームはビジネスイノベーションに一層集中できるようになりました。さらに、Alibaba Cloud の 24時間365日の運用保守 (O&M) サービスにより、クラスターの安定性と無障害運用が確保されました。

インターネット：Babytree 向けのクラウドデータウェアハウス

背景

2007 年に設立された Babytree は、中国最大規模かつ最も活発な母子向けオンラインコミュニティです。消費者向けインターネットプラットフォームの先駆けの 1 つとして、Babytree は早期にオンプレミスのデータセンタークラスターを構築し、その規模は急速に拡大しました。
課題
- クラスターは高負荷状態で稼働していた一方でパフォーマンスが低く、包括的なビッグデータガバナンス戦略が必要でした。
- オンプレミスのビッグデータ基盤への年間投資が高額であり、コスト削減と効率向上が求められていました。
ソリューションとメリット

Babytree は、コスト削減と効率向上を軸としたクラウド移行戦略を採用しました。MaxCompute、Realtime Compute for Apache Flink、DataWorks へ移行した結果、一部タスクのパフォーマンスが 10 倍以上向上しました。同社は、自社運用の Hadoop システムで 3 PB あったストレージを、クラウドでは 900 TB まで削減しました。Flink のリアルタイム処理機能を活用することで、ユーザー行動の追跡、ユーザーのグループチャットIDの取得、記事公開ステータスの取得などのリアルタイム機能が可能になりました。また、Flink をリアルタイムレコメンデーションにも活用し、コンバージョン率を向上させました。全体として、移行によりビッグデータプラットフォームの総コストを 30% 以上削減しました。

ゲーム：DeNA China 向けのエンドツーエンドのゲーム運用

背景

DeNA は、インターネットサービス分野のリーディングカンパニーです。ゲームプロジェクトのライフサイクルが短縮する中で、同社は各段階を通じて精密かつリアルタイムに制御できる、コスト効率が高く、効率的なデータ運用システムを必要としていました。
課題
- 同社は Hadoop 1.0 と 2.0 上の 2 つの別々のクラスターを運用しており、安定性、セキュリティ、弾性スケーリングの面でボトルネックを抱える複雑な技術アーキテクチャになっていました。
- 複数ソースからのログのリアルタイム収集が困難でした。
- データ開発は手動スクリプトに依存しており、非効率でした。Hive の計算性能では、ビジネス要件を満たせなくなっていました。
ソリューションとメリット

DeNA China は、ゲーム業界で初めて Lightning Cube と MaxCompute Migration Assist (MMA) を使用したプロジェクトを実施しました。専用回線がない状況でも、RDS データベースからの増分データ 300 TB と、過去 10 年分の履歴データ 50 TB を、わずか 1 か月強で移行することに成功しました。オープンソースの Airflow をベースとした従来のタスク管理システムと比較して、DataWorks には次のメリットがありました：
- タスク管理が明確で、エラーを迅速に特定し、修正対象のコードへ直接遷移できます。
- ゲーム事業には数百のデータソースが存在するため、集約管理により各種データサービスで再利用でき、重複作業を排除できます。
- 基盤技術がフルマネージドで提供されるため、開発者はリソーススケジューリングの管理や追加コーディングから解放され、開発と管理に集中できます。
移行後、Apsara ビッグデータプラットフォームは、データ収集と保存からリアルタイム分析、オフライン分析まで、ゲームデータ運用パイプライン全体をカバーしました。