DataWorks は、オールインワンのビッグデータ開発・ガバナンスプラットフォームです。データ統合、開発、モデリング、分析、品質管理、サービス、マッピング、オープン機能などをカバーしています。このプラットフォームは、エンドツーエンドのデータ処理をサポートし、エンタープライズレベルのデータミドルプラットフォームの構築を支援します。このトピックでは、DataWorks のコア機能について説明します。
Data Integration:すべてのソースからのデータの集約
DataWorks の Data Integration モジュールは、安定性、効率性、弾力性に優れたデータ同期プラットフォームです。複雑なネットワーク環境においても、多種多様な異種データソース間でデータを高速かつ確実に同期します。
概要
DataWorks の Data Integration は、オフライン、リアルタイム、または統合モードでのフルデータ同期と増分データ同期をサポートしています。以下の機能を提供します:
オフライン同期では、同期タスクのスケジューリング周期を設定できます。
リレーショナルデータベース、データウェアハウス、非リレーショナルデータベース、ファイルストレージ、メッセージキューなど、50 種類以上の異種データソース間でデータを同期します。
パブリックインターネット、IDC、VPC など、複雑なネットワーク環境を越えてデータソースに接続します。
堅牢なセキュリティコントロールと運用監視により、安全で制御可能なデータ同期を提供します。
コア技術とアーキテクチャ
エンジンアーキテクチャ: Data Integration は、星型のエンジンアーキテクチャを採用しており、接続された任意のデータソースが、他のサポートされているソースとの同期リンクを形成できます。サポートされているデータソースのリストについては、「サポートされているデータソースと同期ソリューション」をご参照ください。

データ統合リソースグループとネットワーク接続: データを同期する前に、データソースとリソースグループ間のネットワーク接続を確立する必要があります。Data Integration タスクは、サーバーレスリソースグループ (推奨) または データ統合専用リソースグループ (レガシー) で実行できます。ネットワークソリューションの詳細については、「ネットワーク接続ソリューション」をご参照ください。

利用シーン
Data Integration は、データレイクやデータウェアハウスへのデータ取り込み、データベースやテーブルのシャーディング、リアルタイムデータのアーカイブ、クラウド間のデータ移行などのデータ転送シナリオに最適です。
Data Studio とオペレーションセンター:データの処理
DataWorks の Data Studio とオペレーションセンターは、それぞれデータ処理のための開発プラットフォームと、インテリジェントな O&M (運用保守) プラットフォームです。これらを組み合わせることで、データ開発ワークフローを効率的かつ標準化された方法で構築・管理できます。
概要
Data Studio の主な機能は次のとおりです:
MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、ClickHouse など、複数のコンピュートエンジンをサポートしています。これらのエンジンのタスクを統一されたプラットフォームで開発、テスト、デプロイ、管理できます。
インテリジェントなエディターと視覚的な依存関係のオーケストレーションを提供します。スケジューリング機能は、Alibaba Group の複雑な内部タスクとビジネス依存関係によってその有効性が証明されています。
開発環境と本番環境を分離し、バージョン管理、コードレビュー、スモークテスト、デプロイメント制御、運用監査などの機能と組み合わせることで、データ開発のライフサイクルを標準化します。
オペレーションセンターは、データの適時性保証、タスク診断、影響分析、自動 O&M、モバイルベースの O&M などの機能をサポートしています。
コア技術とアーキテクチャ
効率的で標準化された開発ワークフロー
説明DataWorks は、標準モードのワークスペースを提供し、開発環境と本番環境を分離します。標準モードの詳細については、「ワークスペースモード間の違い」をご参照ください。
視覚的な開発インターフェイス:ドラッグアンドドロップインターフェイスを使用してタスクワークフローを構築します。統一されたコンソールでデータ開発とスケジューリング設定を行います。
タスクの監視、トラブルシューティング、および解決
データモデリング:インテリジェントなデータモデリング
DataWorks のインテリジェントデータモデリング機能は、Alibaba のデータウェアハウスモデリング方法論における 10 年以上のベストプラクティスを組み込んでいます。データマートやデータミドルプラットフォームのモデリングとリバースモデリングを改善することで、企業のデータ資産の構築を支援します。
概要
この機能には、データウェアハウス計画、データ標準、ディメンションモデリング、データメトリクスの 4 つのモジュールが含まれています。
データウェアハウス計画:データウェアハウスのレイヤー、データドメイン、データマートを計画します。また、モデル設計スペースを設定することで、異なる部門が共通のデータ標準とデータモデルを共有できます。
データ標準:フィールド標準、標準コード、測定単位、命名辞書を定義します。また、標準コードからデータ品質ルールを自動的に生成し、コンプライアンスチェックを簡素化することもできます。
ディメンションモデリング:既存のデータウェアハウスのコールドスタート問題を解決するためのリバースモデリングをサポートしています。視覚的なディメンションモデリングを提供し、Excel ファイルからモデルをインポートしたり、FML (SQL に似たドメイン固有言語) を使用して迅速に構築したりできます。また、Data Studio とシームレスに統合して ETL コードを自動生成します。
データメトリクス:アトミックメトリクスと派生メトリクスを定義・構築します。このモジュールはディメンションモデリングとシームレスに統合されており、アトミックメトリクスとさまざまなディメンションに基づいて派生メトリクスを一括作成できます。
コア技術とアーキテクチャ
利用シーン
DataWorks のインテリジェントデータモデリングは、社内のモデリング能力を構築し、データ資産の価値を引き出すのに役立ちます。例:
大量データの標準化された管理
大企業ほどデータ構造は複雑になります。構造化され、秩序だった方法でデータを管理・保存する方法は、すべての大企業が直面する課題です。
ビジネスデータの相互接続による情報障壁の打破
企業内の各ビジネスや部門のデータが互いに分離されている場合、意思決定者はデータを明確かつ完全に理解することができません。部門間やビジネスドメイン間のデータサイロをいかにして打破するかは、ビジネスデータ管理における大きな課題です。
データ標準の統合による統一的で柔軟なデータ相互接続の実現
同じデータに対する記述が一致しないと、データの重複、計算結果の誤り、ビジネスデータ管理の困難さを引き起こします。元のシステムアーキテクチャを変更せずに統一されたデータ標準を策定し、上流と下流のビジネス間で柔軟な相互接続を実現する方法は、標準化管理の核心的な焦点の 1 つです。
データ価値の最大化による利益の最大化
さまざまな種類の企業データを最大限に活用してデータ価値を最大化し、企業により効率的なデータサービスを提供します。
DataAnalysis:瞬時かつ迅速な分析
「誰もがデータアナリストになれる」という目標のもとに構築された DataAnalysis は、データアナリスト、プロダクトマネージャー、運用担当者など、データエンジニアではない技術ユーザーが日常業務で効率的にデータを取得・分析するための、シンプルで効率的なツールを提供します。
概要
DataAnalysis は、個人データのアップロード、公開データセット、テーブル検索とブックマーク、オンライン SQL クエリ、SQL ファイル共有、SQL クエリ結果のダウンロード、スプレッドシートを使用した大画面でのデータ表示などの機能をサポートしています。
利用シーン
このモジュールは、データアナリスト、プロダクトマネージャー、運用担当者など、専門家ではないデータ開発者が、効率的でスケーラブル、流動的かつ安全なデータ分析を実行できるように設計されています。
スケーラブル:コンピュートエンジンの能力を活用して、大規模なフルスケールのデータセットを効率的に分析します。
流動的:異なる業務システムのデータベースからデータを分析します。DataAnalysis では、データを MaxCompute テーブルにエクスポートしたり、結果セットを指定したユーザーと共有して権限を付与したりできます。これにより、異なるシステムや担当者間でデータが流れるようになります。
安全:SQL クエリや SQL 結果のダウンロードを含むすべての操作は、セキュリティ監査と統合できます。
Data Quality:エンドツーエンドでの品質監視
DataWorks は、テーブルレベルとフィールドレベルで 30 以上の事前設定された監視テンプレートとカスタムテンプレートを使用して、エンドツーエンドのデータ品質監視を提供します。Data Quality モジュールは、ソースデータの変更を即座に検出し、ETL プロセス中に生成されたダーティデータを特定します。問題のあるタスクを自動的にブロックし、ダーティデータが下流システムに伝播するのを効果的に防ぎます。
ETL とは、ソースから宛先にデータを抽出 (Extract)、変換 (Transform)、ロード (Load) するプロセスのことです。
Data Quality はデータセットを監視し、MaxCompute を含むさまざまなエンジンのデータテーブルをサポートします。オフラインデータが変更されると、Data Quality はデータを検証し、本番パイプラインをブロックしてデータ汚染を防ぎます。また、過去の検証結果を管理し、データ品質レベルの分析と分類を可能にします。詳細については、「Data Quality」をご参照ください。
Data Quality は、以下の問題に対処するのに役立ちます:
頻繁なデータベースの変更
頻繁なビジネスの変更
データ定義の問題
業務システムからのダーティデータ
システム間の相互作用によって引き起こされる品質問題
データ修正によって引き起こされる問題
データウェアハウス自体に起因する品質問題
データマップ:統一された管理とリネージ追跡
データ検索機能の上に構築された データマップは、テーブル使用説明書、データカテゴリ、データリネージ、フィールドリネージなどのツールを提供します。これにより、データコンシューマーとオーナーは、データをより良く管理し、共同で開発を進めることができます。
DataService Studio:API の迅速かつコスト効率の高い公開
DataWorks の DataService Studio モジュールは、データ API を構築するための柔軟、軽量、安全、かつ安定したプラットフォームです。包括的なデータ共有機能を提供し、公開承認、アクセス制御、使用量計測、リソース分離などの機能を通じて、データの価値を引き出し、共有するのに役立ちます。
概要
データウェアハウスと上流アプリケーションの間のブリッジとして、DataService Studio は企業の統一サービスバスの構築を支援します。内部および外部の API サービスの作成と管理を統一し、データウェアハウス、データベース、データアプリケーション間の「ラストマイル」のギャップを埋め、データの流れと共有を加速します。
ノーコードまたはセルフサービス SQL モードのいずれかを使用して、さまざまなデータソースのテーブルからデータ API を生成します。また、Function Compute を使用して API リクエストパラメーターと返された結果の処理を支援することもできます。
DataService Studio はサーバーレスアーキテクチャを使用しており、基盤となるインフラストラクチャを管理する必要がありません。ワンクリックで API サービスを API ゲートウェイに公開できます。
コア技術とアーキテクチャ
DataService Studio はサーバーレスアーキテクチャを使用しています。これにより、ランタイム環境などの基盤となるインフラストラクチャを管理する代わりに、API クエリロジックに集中できます。DataService Studio は、弾力的なスケーリングでコンピューティングリソースを自動的にプロビジョニングするため、O&M コストはゼロになります。
Open Platform:包括的なオープン機能
DataWorks Open Platform は、DataWorks のデータと機能を外部システムに公開するためのゲートウェイです。さまざまなアプリケーションシステムと DataWorks を迅速に統合できるよう、このプラットフォームは OpenAPI、OpenEvent、および Extensions を提供します。これにより、データワークフロー管理、データガバナンス、O&M が容易になり、統合されたアプリケーションがビジネスステータスの変化に迅速に対応できるようになります。
概要
DataWorks Open Platform は、OpenAPI、OpenEvent、Extensions などの機能を提供します。
OpenAPI:OpenAPI を使用して、独自のアプリケーションを DataWorks と深く統合できます。たとえば、タスクを一括で作成、公開、管理して、ビッグデータ処理の効率を向上させ、手動操作を削減できます。
OpenAPI の詳細については、「OpenAPI」をご参照ください。
OpenEvent:DataWorks のシステムイベントをサブスクライブして、リアルタイムの通知を受け取り、変更に対応できます。たとえば、テーブル変更イベントをサブスクライブしてコアテーブルをリアルタイムで監視したり、タスク変更イベントをサブスクライブしてカスタムのリアルタイムタスク監視ダッシュボードを作成したりできます。
OpenEvent の詳細については、「OpenEvent」をご参照ください。
Extensions:Extensions は、OpenAPI と OpenEvent を組み合わせたサービスレベルのプラグインです。これにより、DataWorks のワークフロー制御をカスタマイズできます。たとえば、カスタムのデプロイメント制御プラグインを作成して、標準や要件に準拠しないタスクをブロックできます。
Extensions の詳細については、「Extensions」をご参照ください。
利用シーン
DataWorks Open Platform は、深いシステム統合、自動化された運用、ワークフロー定義、ビジネス監視のための包括的なオープン機能を提供します。ユーザーやパートナーが DataWorks Open Platform 上で業界特化型およびシナリオベースのデータアプリケーションやプラグインを構築することを歓迎します。
Migration Assistant とクラウド移行サービス
DataWorks Migration Assistant は、オープンソースのスケジューリングエンジンから DataWorks へのジョブの移行を支援します。クラウド間、リージョン間、アカウント間のジョブ移行をサポートし、DataWorks ジョブを迅速にクローンしてデプロイできます。さらに、DataWorks チームは、ビッグデータのエキスパートサービスチームと協力して、データとタスクを迅速にクラウドに移行するためのクラウド移行サービスを提供します。
概要
Migration Assistant とクラウド移行サービスの主な機能は次のとおりです:
クラウドへのタスク移行:オープンソースのスケジューリングエンジンから DataWorks へジョブを移行します。
DataWorks 移行:DataWorks エコシステム内の開発資産を移行します。
利用シーン
これらのサービスは、以下のシナリオに最適です:
クラウドへのタスク移行:オープンソースのスケジューリングエンジンから DataWorks へジョブを移行します。
タスクのバックアップ:Migration Assistant を使用して定期的にタスクコードをバックアップし、偶発的なプロジェクト削除による損失を最小限に抑えます。
迅速なビジネスレプリケーション:共通のビジネスロジックを抽象化し、Migration Assistant のエクスポート/インポート機能を使用して迅速にレプリケーションします。
テスト環境の迅速な作成:Migration Assistant でビジネスコードを完全にレプリケーションし、データ入力を本番データからテストデータに変更して、テスト環境を迅速にセットアップします。
クラウド間の開発:パブリッククラウド上の DataWorks とプライベートクラウド内の DataWorks 間でインポートおよびエクスポートを行い、共同開発を可能にします。