DataWorks のコア機能とは？ - DataWorks - Alibaba Cloud ドキュメントセンター

DataWorks は、ビッグデータの開発とガバナンスをワンストップで提供するプラットフォームです。データ統合、DataStudio、データモデリング、データ分析、Data Quality、DataService Studio、データマップ、オープンプラットフォームといった包括的なツールスイートを提供します。この統一された環境により、エンドツーエンドのデータ処理が可能になり、エンタープライズグレードのデータプラットフォームの構築を支援します。このトピックでは、DataWorks のコア機能について説明します。

データ統合：ドメイン横断的な集約

DataWorks のデータ統合は、安定性、効率性、弾力的なスケーラビリティを備えたデータ同期プラットフォームです。複雑なネットワーク環境下でも、多種多様な異種データソース間で、高速かつ安定したデータの移動と同期を実現します。

概要

DataWorks のデータ統合は、バッチ同期、リアルタイム同期、および統合された完全同期と増分同期をサポートしています。

バッチ同期のシナリオでは、同期タスクにスケジューリング周期を設定できます。
リレーショナルデータベース、データウェアハウス、非リレーショナルデータベース、ファイルストレージ、メッセージキューなど、50 種類以上の異種データソース間のデータ同期をサポートしています。
さまざまな複雑なネットワーク環境にあるデータソースに接続するためのネットワークソリューションを提供します。データソースがパブリッククラウド、IDC、または VPC 内にあるかどうかにかかわらず、データ統合を使用してネットワーク接続を確立できます。
セキュリティコントロールと O&M (運用保守) モニタリングをサポートし、安全で制御可能なデータ同期を実現します。

コア技術とアーキテクチャ

エンジンアーキテクチャ： データ統合は、星型のエンジンアーキテクチャを採用しています。データソースをデータ統合に接続すると、他のサポートされているデータソースとの同期リンクを形成できます。サポートされているデータソースのリストについては、サポートされているデータソースと同期ソリューションをご参照ください。
データ統合のためのリソースグループとネットワーク接続： データを同期する前に、適切なネットワーク接続ソリューションを使用して、データソースをリソースグループに接続します。現在、データ統合タスクは、サーバーレスリソースグループ (推奨) およびデータ統合専用リソースグループ (レガシー) でのみ実行できます。詳細については、ネットワーク接続ソリューションをご参照ください。

ユースケース

データ統合は、データレイクやデータウェアハウスへのデータ取り込み、データベースとテーブルのシャーディング、リアルタイムデータアーカイブ、クラウド間のデータフローなど、さまざまなデータ転送シナリオに適しています。

DataStudio とオペレーションセンター：データ処理

DataWorks の DataStudio はデータ処理のための開発プラットフォームであり、オペレーションセンターはインテリジェントな O&M (運用保守) プラットフォームです。これら 2 つのモジュールを使用することで、DataWorks 上でデータ開発ワークフローを標準化され、効率的な方法で構築・運用できます。

概要

DataStudio の主な機能は次のとおりです。

DataStudio は、MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、ClickHouse などの複数のコンピュートエンジンをサポートしています。これらのエンジンのタスクを単一のプラットフォームから開発、テスト、デプロイ、運用できます。
そのスケジューリング機能は、Alibaba グループ内の複雑なスケジューリングタスクとビジネス依存関係によって実証されています。
DataStudio は、隔離された開発環境と本番環境を提供します。バージョン管理、コードレビュー、スモークテスト、デプロイメント制御、運用監査などの機能と組み合わせることで、企業はデータ開発を標準化できます。
オペレーションセンターは、データ適時性保証、タスク診断、影響分析、自動 O&M、モバイルベースの O&M などの機能をサポートしています。

コア技術とアーキテクチャ

効率的で標準化された開発ワークフロー

説明
DataWorks は、開発環境と本番環境を隔離するために標準モードのワークスペースを提供します。標準モードの詳細については、ワークスペースモードの違いをご参照ください。
ビジュアル開発インターフェイス：ドラッグアンドドロップを使用してタスクワークフローを構築し、統一されたインターフェイスでデータ開発とスケジューリングを設定します。
タスクのモニタリングとトラブルシューティング

データモデリング：インテリジェントデータモデリング

データモデリングは、DataWorks が独自に開発したインテリジェントなデータモデリング製品です。Alibaba での 10 年以上にわたるデータウェアハウスモデリングのベストプラクティスに基づいて構築されています。データウェアハウス計画、データ標準、ディメンショナルモデリング、データメトリクスの 4 つのモジュールが含まれています。このモジュールは、企業がデータプラットフォームやデータマートを構築する際のモデリング能力とリバースモデリング能力を強化し、迅速にデータ資産を構築するのに役立ちます。

概要

インテリジェントデータモデリング製品には、倉庫計画番号、データ標準、次元モデリング、データインジケータ の 4 つのモジュールが含まれています。

倉庫計画番号：データウェアハウスのレイヤー、データドメイン、データマートを計画します。モデル設計スペースを設定することで、異なる部門が統一されたデータ標準とデータモデルを共有できます。
データ標準：フィールド標準、標準コード、測定単位、命名辞書を定義します。また、標準コードからデータ品質ルールを自動生成して、コンプライアンスチェックを簡素化することもできます。
次元モデリング：リバースモデリングを使用して、既存のデータウェアハウスのコールドスタート問題を解決します。データウェアハウスのビジュアルなディメンショナルモデリングをサポートしています。Excel ファイルからモデルをインポートしたり、SQL に似たドメイン特化言語 (DSL) である FML を使用して、迅速にモデルを構築したりできます。DataStudio とシームレスに統合し、ETL コードを自動生成します。
データインジケータ：アトミックメトリクスと派生メトリクスを定義・構築します。この機能はディメンショナルモデリングとシームレスに統合されており、アトミックメトリクスと異なるディメンションに基づいて派生メトリクスをバッチ作成できます。

コア技術とアーキテクチャ

ユースケース

データモデリングは、企業が独自のモデリング能力を構築し、データ資産の価値を掘り起こすのに役立ちます。例：

大量データの標準化管理

大企業ほどデータ構造は複雑になります。構造化され、秩序だった方法でデータを管理・保存する方法は、すべての大企業が直面する課題です。
ビジネスデータの相互接続による情報の壁の打破

企業内の各ビジネスや部門のデータが互いに隔離されている場合、意思決定者はデータを明確かつ完全に理解することができません。部門やビジネスドメイン間のデータサイロをいかにして打破するかは、ビジネスデータ管理における大きな課題です。
データ標準の統合による統一的で柔軟なデータ相互接続の実現

同じデータに対する記述が矛盾していると、データの重複、計算結果の誤り、ビジネスデータ管理の困難さを引き起こします。元のシステムアーキテクチャーを変更せずに統一されたデータ標準を策定し、上流と下流のビジネス間で柔軟な相互接続を実現する方法は、標準化管理の核心的な焦点の 1 つです。
データ価値の最大化による利益の最大化

さまざまな種類の企業データを最大限に活用し、データ価値を最大化して、企業により効率的なデータサービスを提供します。

データ分析：アドホック分析

誰もがデータアナリストになれるようにするという目標のもと、データ分析は、データアナリスト、プロダクトマネージャー、運用担当者など、専門のデータ開発者以外のユーザーに、日々の効率を向上させるためのシンプルで効率的なデータ取得・分析ツールを提供します。

概要

データ分析は、個人データのアップロード、パブリックデータセットの使用、テーブルの検索とブックマーク、オンライン SQL クエリの実行、SQL ファイルの共有、クエリ結果のダウンロード、スプレッドシートを使用した大画面でのデータ表示などの機能をサポートしています。

ユースケース

データ分析は、データアナリスト、プロダクトマネージャー、運用担当者など、専門のデータ開発者以外のユーザーが、効率的、大規模、流動的、かつ安全なデータ分析を実行するのに適しています。

スケール：コンピュートエンジンの能力を活用して、フルスケールの巨大なデータセットを効率的に分析します。
フロー：さまざまな業務システムのデータベースからデータを取得して、オンラインデータ分析を実行します。データ分析では、データを MaxCompute テーブルにエクスポートしたり、クエリ結果を特定のメンバーと共有して権限を付与したりできます。これにより、異なるシステムや担当者間でデータを流動させることができます。
セキュリティ：SQL クエリやクエリ結果のダウンロードを含むすべての操作を、セキュリティ監査と統合できます。

Data Quality：エンドツーエンドのモニタリング

DataWorks のエンドツーエンドの Data Quality モニタリング機能は、テーブルレベルとフィールドレベルで 30 以上の事前設定された監視テンプレートと、カスタムテンプレートを提供します。Data Quality は、ソースデータの変更を即座に検出し、ETL (抽出、変換、ロード) プロセス中に生成されたダーティデータを特定するのに役立ちます。問題のあるタスクを自動的にブロックし、ダーティデータが下流に伝播するのを効果的に防ぎます。

ETL とは、ソースから送信先へデータを抽出 (extract)、変換 (transform)、ロード (load) するプロセスのことです。

Data Quality はデータセットを監視し、MaxCompute を含むさまざまなエンジンのデータテーブルをサポートします。バッチデータが変更されると、Data Quality はデータを検証し、本番パイプラインをブロックして、問題のあるデータの拡散を防ぎます。また、履歴検証結果を管理し、データ品質の分析と分類を可能にします。詳細については、Data Quality をご参照ください。

Data Quality は、以下の問題に対処するのに役立ちます。

頻繁なデータベースの変更。
頻繁なビジネスの変更。
データ定義の問題。
業務システムからのダーティデータ。
システム間の相互作用によって引き起こされる品質問題。
データ修正によって引き起こされる問題。
データウェアハウス自体に起因する品質問題。

データマップ：統一管理とリネージ

DataWorks のデータマップ機能は、データを統一的に管理し、データリネージを追跡するのに役立ちます。データ検索に基づき、データマップは、テーブル使用説明、データカテゴリ、データリネージ、フィールドリネージなどのツールを提供し、データコンシューマーとデータオーナーがより良くデータを管理し、開発で協業するのを支援します。データマップを使用すると、複数の視点からテーブルの詳細なメタデータを表示できます。このメタデータには、基本情報 (閲覧数、読み取り数、プロジェクト、リージョンなど)、フィールド情報 (フィールド名、型、説明、プライマリキー、外部キー、セキュリティレベルなど)、出力情報、リネージ、品質、データプレビューが含まれます。また、[権限のリクエスト]、[ブックマーク]、[API の生成]、[データ分析] などのアクションへのエントリポイントも提供します。

DataService Studio：迅速な API 公開

DataWorks の DataService Studio モジュールは、データ API を構築するための柔軟、軽量、安全、かつ安定したプラットフォームです。企業に包括的なデータ共有機能を提供し、公開承認、権限管理、呼び出し計測、リソース分離などの機能を通じて、ユーザーがデータ価値を実現し、データを共有するのを支援します。

概要

データウェアハウスと上位アプリケーションシステムの「ブリッジ」として、DataService Studio は企業に統一されたサービスバスを提供します。企業が内部および外部の API サービスを作成・管理するのを支援し、データウェアハウス、データベース、データアプリケーション間の「ラストワンマイル」のギャップを埋め、データのフローと共有を加速させます。数据服务

DataService Studio は、ノーコードモードとセルフサービス SQL モードの両方をサポートし、さまざまなデータソースのテーブルからデータ API を生成します。また、Function Compute をサポートし、API のリクエストパラメーターと返却結果の処理を支援します。
DataService Studio はサーバーレスアーキテクチャを使用しています。実行環境やその他のインフラストラクチャを管理する必要はありません。ワンクリックで API サービスを API ゲートウェイに公開できます。

コア技術とアーキテクチャ

DataService Studio はサーバーレスアーキテクチャを使用しています。基盤となるインフラストラクチャを気にすることなく、API のクエリロジックに集中するだけで済みます。DataService Studio はコンピューティングリソースをプロビジョニングし、弾力的なスケーリングをサポートすることで、O&M コストゼロを実現します。数据服务

オープンプラットフォーム：オープンな機能

オープンプラットフォームは、DataWorks がデータと機能を外部に公開するためのチャネルです。OpenAPI、OpenEvent、および拡張機能を提供します。これらの機能は、DataWorks をさまざまなアプリケーションシステムと迅速に統合し、データワークフロー制御、データガバナンス、O&M を効率的に実行し、ビジネスステータスの変化に対応するのに役立ちます。

概要

オープンプラットフォームは、OpenAPI、OpenEvent、および拡張機能を提供します。

OpenAPI：OpenAPI を使用して、独自のアプリケーションを DataWorks と深く統合できます。たとえば、タスクをバッチで作成、デプロイ、管理して、ビッグデータ処理の効率を向上させ、手動操作のコストを削減できます。

詳細については、OpenAPI をご参照ください。
OpenEvent：OpenEvent を使用して DataWorks のシステムイベントをサブスクライブし、イベントの変更をリアルタイムで取得して対応できます。たとえば、テーブル変更イベントをサブスクライブしてコアテーブルのリアルタイムモニタリングを実装したり、タスク変更イベントをサブスクライブしてカスタムのリアルタイムタスクモニタリングダッシュボードを構築したりできます。

詳細については、OpenEvent をご参照ください。
拡張機能：拡張機能は、OpenAPI と OpenEvent を組み合わせたサービスレベルのプラグインです。拡張機能を使用して、DataWorks のプロセス制御をカスタマイズできます。たとえば、カスタムのデプロイメント制御プラグインを作成して、仕様や要件を満たさないタスクをブロックできます。

詳細については、拡張機能をご参照ください。

ユースケース

オープンプラットフォームは、深いシステム統合、自動化された運用、プロセス定義、およびビジネスモニタリングのための包括的なオープン機能を提供します。ユーザーとパートナーは、DataWorks オープンプラットフォームに基づいて、業界固有およびシナリオベースのデータアプリケーションとプラグインを構築できます。

移行アシスタントとクラウド移行サービス

DataWorks 移行アシスタントは、オープンソースのスケジューリングエンジンから DataWorks へのジョブの移行を支援します。クラウド間、クロスリージョン、アカウント間のジョブ移行をサポートし、DataWorks ジョブの迅速なクローンとデプロイを可能にします。さらに、データとタスクを迅速にクラウドに移行するためのクラウド移行サービスも利用できます。

概要

移行アシスタントとクラウド移行サービスの主な機能は次のとおりです。

クラウドへのタスク移行：オープンソースのスケジューリングエンジンから DataWorks へジョブを移行します。
DataWorks 移行：DataWorks エコシステム内の開発資産を移行します。

ユースケース

この機能は、以下のシナリオに適しています。

クラウドへのタスク移行：オープンソースのスケジューリングエンジンから DataWorks へジョブを移行します。
タスクのバックアップ：移行アシスタントを使用して定期的にタスクコードをバックアップし、誤ったプロジェクトの削除による損失を最小限に抑えることができます。
迅速なビジネスレプリケーション：共通のビジネスロジックを抽象化し、移行アシスタントのエクスポートおよびインポート機能を使用して、迅速にレプリケーションできます。
テスト環境の迅速な作成：移行アシスタントを使用してビジネスコードを完全にレプリケーションします。テスト環境をセットアップするには、データ入力を本番データベースからテストデータに変更するだけで済みます。
クラウド間の開発：パブリッククラウド上の DataWorks とプライベートクラウド内の DataWorks との間でデータをインポートおよびエクスポートして、協調開発を実現します。