DataWorks は、さまざまな業種の企業がデータの課題に対処し、データの価値を掘り下げるためのソリューションを提供してきました。このトピックでは、DataWorks の典型的な顧客事例について説明します。
新小売業界:RT-Mart のクラウドデータミッドエンド

背景
デジタルトランスフォーメーションを促進し、新しい小売市場を開拓するために、RT-Mart は 2 年以内に IT システム全体を Alibaba Cloud に移行し、自己管理型データセンターの使用を停止する予定です。 また、RT-Mart は Alibaba Cloud にクラウドデータミッドエンドの構築を支援してもらい、総所有コスト (TCO) を削減し、クラウドエコシステムに基づいてデータ資産のクローズドループ制御を促進したいと考えています。
顧客要件
RT-Mart の元のシステムは、オープンソースの Hadoop 上に構築されていました。 システムは不安定で、ソフトウェアとハードウェアのメンテナンスコストが高額でした。 その結果、RT-Mart の事業運営と分析に深刻な影響が出ました。
RT-Mart のオンラインビジネスが急増するにつれて、多くの要件が満たされないままになっています。 RT-Mart は、既存のテクノロジーを柔軟かつ迅速に拡張してビジネスの成長をサポートできる包括的なソリューションを求めています。
価値の実現
このソリューションでは、MaxCompute Migration Assist (MMA) を使用して、合計 400 TB を超える履歴データを 15 日間で正確にクラウドに移行します。 これにより、RT-Mart はスムーズで効率的なデータ移行エクスペリエンスを得ることができます。 さらに、このソリューションは DataWorks と MaxCompute を使用して、RT-Mart のデータ開発効率を大幅に向上させ、RT-Mart のデータミッドエンドを構築します。
新金融業界:インターネット金融企業向けデータレイクハウス

背景
同社は Hadoop とオブジェクトストレージサービス (OSS) に基づいてプリミティブデータレイクを構築していますが、データミッドエンドでは MaxCompute を使用してタスクを実行し、データを保存しています。 2 つの異種エンジンのセットは、ストレージの冗長性、メタデータと権限の不整合、計算の中断などの問題につながります。
顧客要件
同社は、MaxCompute と E-MapReduce (EMR) エンジンを使用してさまざまなビジネスシナリオのニーズに適応し、Alibaba Cloud Data Lake Formation (DLF) を使用してメタデータとユーザー権限を一元管理し、DataWorks を使用してエンドツーエンドでデータを管理することで、データ品質を向上させ、データアプリケーションを強化したいと考えています。
価値の実現
このソリューションは、EMR エンジンのメタデータを DLF に統合し、基盤レイヤーで OSS を使用してデータストレージを統一し、EMR ベースのデータレイクを MaxCompute ベースのデータウェアハウスに接続するデータレイクハウスを構築します。 これにより、データレイクとデータウェアハウス間でデータが自由に流れ、計算を中断することなく実行できます。
このソリューションは、データレイクとデータウェアハウスのデータを異なるレイヤーに保存します。 具体的には、データミッドエンドがデータレイクのデータに対して次元モデリングを実行するために使用する中間テーブルを MaxCompute に保存し、EMR やその他のエンジンが使用するデータをアプリケーションデータサービス (ADS) レイヤーに保存します。
新エネルギー業界:エネルギー企業向け DataWorks ベースのエンドツーエンドデータガバナンス

背景
同社には複数の子会社と多数のシステムがあります。 技術ルートは複雑で多様です。
データは分散しており、さまざまな基準に基づいて定義されています。 これにより、データのギャップが生じ、データ分析が困難になります。
データ権限管理、データガバナンス、データ共有のための効果的なメカニズムは提供されていません。
顧客要件
DataWorks と MaxCompute を使用してデータミッドエンドを構築し、データサイロを防ぎます。
Realtime Compute for Apache Flink と Hologres を使用して、データミッドエンドのリアルタイムパフォーマンスを向上させます。
DataWorks を使用してエンドツーエンドでデータを管理することで、データ品質を向上させ、データアプリケーションを強化します。
価値の実現
このソリューションは、インテリジェント製造とインターネットマーケティングを統合するインテリジェントな企業間 (B2B) マーケティングシステムの構築に役立ちます。
このソリューションは、オフラインおよびリアルタイムのデータ処理を統合するデータミッドエンドを作成し、統一された完全なビッグデータアプリケーションチェーンを提供して、同社のコアビジネスシステムにサービスを提供します。
エンドツーエンドのデータガバナンスは、データの可用性を向上させ、データミッドエンドでデータを自由に流せるようにします。 これにより、データの正確性、リアルタイムパフォーマンス、データの整合性が確保され、同社は約 1 億人民元の費用削減に役立ちます。
このソリューションは、ビジネスのイテレーション効率を向上させ、10 分ごとにデータを更新し、1 日以内に新しいサービスをリリースできるようにします。 同社の元のシステムでは、データの更新に 1 日、新しいサービスのリリースに 1 週間かかります。
インターネット業界:GOGOX のクラウドビッグデータウェアハウス

背景
GOGOX は、ネットワーク接続、輸送リソースの共有、プロセスのデジタル化、インテリジェントマッチングなどのデジタル情報方式を使用して、アイドル状態の輸送リソースを継続的に統合する物流プラットフォームです。 その後、プラットフォームはビッグデータに基づいて分析を行い、輸送リソースを必要な市場に正確に配分します。 これにより、エネルギーの節約、排出量の削減、空荷率の低下が実現します。 さらに、これにより運用効率が向上し、グリーン物流の開発が促進されます。
顧客要件
大量データ処理の効率が低く、オフラインデータ計算の期間は変動します。
Realtime Compute for Apache Flink には、多額の開発およびメンテナンスコストが必要です。 同社は、包括的なデータウェアハウスガバナンスのためのソリューションを必要としています。
価値の実現
Alibaba Cloud の Apsara ビッグデータプラットフォームは、GOGOX がサーバーコストを 30% 以上削減し、データ開発効率を 100% 向上させるのに役立ちます。 元の Java ベースの Apache Storm と比較して、Flink SQL はリアルタイムコンピューティングの開発サイクルを大幅に短縮し、メンテナンスが容易になっています。 さらに、Flink SQL はデータの整合性をより適切に確保し、サービス監視の精度とリアルタイムパフォーマンスを向上させることができます。 これにより、ユーザーはビジネスに集中できるようになり、ビジネスのリアルタイム変換が促進されます。 さらに、Alibaba Cloud の 24 時間体制の O&M サービスにより、クラスターの安定性とゼロ障害が保証されます。
インターネット業界:Babytree のクラウドビッグデータウェアハウス

背景
2007 年に設立された Babytree は、中国最大かつ最も活発な妊産婦ケアコミュニティプラットフォームです。 インターネット上で最初の顧客指向のコミュニティプラットフォームの 1 つとして、Babytree は初期の段階から独自のデータセンターを保有しており、これらのデータセンターの規模は急速に拡大しています。
顧客要件
これらのデータセンターのパフォーマンスは低く、管理が困難です。 同社は、包括的なビッグデータガバナンスをサポートするソリューションを緊急に必要としています。
これらのデータセンターの年間コストは高額です。 同社は、コストを削減し、効率を向上させることができるソリューションを求めています。
価値の実現
Alibaba Cloud が提供するソリューションは、コスト削減と効率向上という全体的な原則に基づいて開発されています。 データが MaxCompute、Realtime Compute for Apache Flink、および DataWorks に移行されると、特定のタスクのパフォーマンスが 10 倍以上向上し、データストレージは自己管理型 Hadoop システムの 3 PB からクラウドの 900 TB に削減されます。 さらに、Realtime Compute for Apache Flink のリアルタイムデータ処理機能により、このソリューションは Babytree の既存のシナリオでリアルタイム処理を実行し、リアルタイムの推奨事項を作成して行動コンバージョン率を高めることができます。 たとえば、このソリューションは、ユーザー ID とコンテンツタイプに基づいてリアルタイムのアクションを実行し、ユーザーのリアルタイムグループチャット ID を取得し、記事公開に関するリアルタイム情報を取得できます。 このソリューションは、同社が全体的なコストを 30% 以上削減するのに役立ちます。
ゲーム業界:DeNA China のフルリンクゲーム運用

背景
DeNA は優れたゲームサービスプロバイダーです。 ゲームプロジェクトのライフサイクルが短くなるにつれて、費用対効果が高く、効率的で、洗練されたデータ運用システムが必要になり、各プロジェクトステージをリアルタイムで正確に管理できるようになります。
顧客要件
同社は、Hadoop 1.0 と 2.0 で別々に実行される 2 つのクラスターを保有しています。 これにより、技術アーキテクチャが複雑になり、プラットフォームの安定性、セキュリティ、スケーリングパフォーマンスが低下します。
同社は多様なログソースを保有しており、リアルタイムパフォーマンスに対する要求が高くなっています。 ログ量が増加するにつれて、Fluentd ベースのログ収集サービスのパフォーマンスと安定性に大きな影響が出ます。
データ開発は手動コーディングに基づいています。 ビジネス効率が低く、Hive ベースのコンピューティングパフォーマンスは要件を満たすことができません。
価値の実現
DeNA China は、ゲーム業界で Lightning Cube と MMA を一緒に使用する最初の企業です。 専用回線を使用しなくても、過去 10 年間に同社の RDS データベースに蓄積された約 300 TB の増分データと 50 TB の履歴データが、わずか 1 か月強でクラウドに正常に移行されました。 このプロセスは技術的に複雑です。 オープンソースの Python ベースの Airflow を使用する元のタスク管理システムと比較して、DataWorks は次の利点を提供します。
タスク管理が明確に提示されます。 タスクエラーが発生した場合、システムはエラーをできるだけ早く特定して修正できます。
ゲームビジネスには数百のデータソースがあります。 これらのデータソースは、冗長な作業を行うことなく一度に管理でき、さまざまなデータサービスで使用できます。
DataWorks は、ユーザーが手動操作や追加のコーディングなしで GUI に基づいてリソースをスケジュールできるさまざまな機能を提供します。 これにより、ユーザーは管理と開発により集中できるようになります。
データがクラウドに移行されると、Alibaba Cloud の Apsara ビッグデータプラットフォームは、データ収集、ストレージ、コンピューティングからリアルタイムまたはオフライン分析までのリンク全体でデータ操作を管理するのに役立ちます。