すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataWorks での CDP/CDH の利用

最終更新日:Apr 24, 2026

DataWorks を使用すると、Cloudera's Distribution Including Apache Hadoop (CDH) または Cloudera Data Platform (CDP) クラスターに基づいて、Hive、MR、Presto、Impala などのノードを作成できます。タスクのワークフローを設定し、定期的なタスクスケジューリングを有効にし、CDP/CDH クラスターのメタデータを管理することが可能です。これにより、効率的で安定したデータの本番環境と管理が保証されます。このトピックでは、DataWorks で CDP/CDH を使用するための基本的な開発ワークフローについて説明し課金、環境準備、アクセスの制御についても解説します。

背景情報

  • CDH は Cloudera のオープンソースプラットフォームディストリビューションです。クラスター管理、モニタリング、診断のための即時使用可能な機能を提供し、エンドツーエンドのビッグデータワークフローのための様々なコンポーネントをサポートします。

  • CDP は、複数のプラットフォームにわたる顧客データを収集・統合するパブリックデータプラットフォームです。リアルタイムデータを収集し、個々のユーザーデータプロファイルを構築することができます。

DataWorks に CDH および CDP クラスターを登録して、タスク開発、スケジューリング、データマップ (メタデータ管理)、Data Quality など、ビジネス要件に基づいたデータ開発およびガバナンス操作を実行できます。

制限事項

  • CDH または CDP クラスターでタスクを実行するには、サーバーレスリソースグループ (推奨) または旧バージョンのスケジューリング用の専用リソースグループのみを使用できます。

    説明
    • (推奨) サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、様々なタスクタイプに使用できる汎用リソースグループです。サーバーレスリソースグループの購入方法については、「サーバーレスリソースグループの使用」をご参照ください。旧バージョンのスケジューリング用の専用リソースグループを購入済みの場合は、それを使用して CDH または CDP クラスターでタスクを実行できます。

    • 新規ユーザーはサーバーレスリソースグループのみ購入できます。

    • カスタムバージョン のクラスターを DataWorks に登録する場合、旧バージョンのスケジューリング用の専用リソースグループのみ使用できます。クラスターのバージョンに関する詳細については、「ステップ 2:CDH または CDP クラスターの登録」をご参照ください。

  • CDH または CDP クラスターを DataWorks に登録できるのは、中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深セン)、中国 (張家口)、中国 (成都)、ドイツ (フランクフルト) のリージョンのみです。

前提条件

  • DataWorks が有効化されていること。詳細については、DataWorks の有効化をご参照ください。

  • CDP または CDH クラスターがデプロイされ、登録されていること。

    DataWorks は、Alibaba Cloud ECS 以外の環境にデプロイされた CDP または CDH クラスターをサポートします。ただし、クラスターの環境は Alibaba Cloud VPC に接続できる必要があります。Express Connect や VPN などのソリューションを使用して、ネットワーク接続を確保できます。詳細については、「CDH または CDP コンピュートリソースのバインド」をご参照ください。

  • サーバーレスリソースグループが購入済みであること。

    デフォルトでは、購入したサーバーレスリソースグループは他のクラウドサービスのネットワークに接続されていません。CDP または CDH クラスターを使用するには、まずクラスターとサーバーレスリソースグループ間のネットワーク接続を確立する必要があります。リソースグループの購入方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。

  • DataWorks ワークスペースが作成されていること。詳細については、「ワークスペースの設定」をご参照ください。

注意事項

次の表は、DataWorks で CDP/CDH のタスクを開発する方法について説明しています。

項目

説明

課金

DataWorks で CDP または CDH のタスクを開発すると、DataWorks およびその他のサービスで料金が発生します。

前提条件

DataWorks で CDP または CDH のタスクを開発する前に、ビジネス要件に基づいて DataWorks のエディションと必要なリソースグループを購入し、CDP または CDH クラスターの登録と開発環境の準備を完了させる必要があります。

アクセスの制御

DataWorks は、プロダクトレベルおよびモジュールレベルのアクセスの制御を提供します。ビジネス要件に基づいて異なるユーザーに異なる権限を付与し、詳細な権限管理を実装できます。

クイックスタート:Data Integration

DataWorks の Data Integration を使用すると、CDP/CDH Hive からのデータの読み取りと書き込みが可能で、バッチ同期、完全同期、増分同期タスクなど、複数のデータ同期シナリオをサポートします。

クイックスタート:データ開発と運用保守

DataWorks は、非構造化、散在、複雑なデータを、構造化され管理しやすい形式に整理するデータモデリングサービスを提供します。また、定期タスクを開発するための DataStudio も提供しており、オペレーションセンターと連携してタスクのモニタリングと O&M を行います。

クイックスタート:データガバナンス

DataWorks は、CDP および CDH のメタデータ管理とデータガバナンス機能を提供します。

クイックスタート:データ分析とデータサービス

DataWorks のデータ分析は、CDP および CDH のためのデータ分析とサービス共有機能を提供します。

クイックスタート:オープンプラットフォーム

DataWorks は、様々なアプリケーションと DataWorks を迅速に統合し、データワークフロー管理、データガバナンス、O&M を支援するオープン API を提供し、統合されたアプリケーション全体でビジネスステータスの変化にタイムリーに対応できるようにします。

課金

1. DataWorks の料金

これらの料金は DataWorks の請求書に記載されます。DataWorks の課金の詳細については、「DataWorks の課金対象項目」をご参照ください。

料金

説明

DataWorks エディション料金

タスクを開発する前に、DataWorks を有効化する必要があります。DataWorks Standard Edition、Professional Edition、または Enterprise Edition を有効化する場合、選択したエディションの料金を支払う必要があります。

スケジューリングリソース料金

タスクを開発した後、スケジュール通りに実行するにはスケジューリングリソースが必要です。サーバーレスリソースグループ (推奨) または旧バージョンの専用リソースグループを使用し、対応する料金を支払うことができます。

説明

サーバーレスリソースグループは、タスクスケジューリングとデータ同期の両方に使用できます。

同期リソース料金

データ同期タスクを実行する場合、スケジューリングリソースに加えてデータ同期リソースが必要です。Data Integration にはサーバーレスリソースグループ (推奨) または旧バージョンの専用リソースグループを使用し、対応する料金を支払うことができます。

説明
  • DataStudio ページで「実行」または「パラメータ付きで実行」機能を使用して実行されるタスクには、スケジューリング料金はかかりません。

  • 実行に失敗したタスクや、ドライランとして実行されたタスクには、スケジューリング料金はかかりません。

DataWorks がスケジューリングタスクをどのようにディスパッチして課金の詳細をよりよく理解するのに役立つかについては、「DataWorks がスケジューリングタスクをディスパッチする方法」をご参照ください。

II. DataWorks 以外の料金

以下の料金は DataWorks の請求書には含まれません。

重要

他のサービスで発生する料金は、対応するサービスの課金ルールによって決定されます。詳細については、対応するサービスの課金ドキュメントをご参照ください。詳細については、「課金」をご参照ください。

料金

説明

データベース料金

データを同期する際、上流および下流のデータベースからのデータ読み取りおよび書き込みに料金が発生する場合があります。

コンピュートおよびストレージ料金

コンピュートエンジンタスクを実行する際、コンピュートエンジンのコンピュートおよびストレージ料金が発生する場合があります。

ネットワークサービス料金

DataWorks をネットワーク経由で他のサービスに接続する際、ネットワークサービス料金が発生する場合があります。たとえば、Express Connect、共有帯域幅、または EIP を使用してネットワーク接続を確立する場合、対応するサービス料金が発生します。

前提条件

I. リソースの準備

カテゴリ

説明

リファレンス

エディションの選択

DataWorks Basic Edition は、CDP または CDH のクラウドへのデータ移行、データ開発とスケジューリング、および簡単なデータガバナンスの基本的な要件を満たすことができます。より専門的なデータガバナンスとデータセキュリティソリューションにアクセスするには、Standard Edition、Professional Edition、または Enterprise Edition を選択できます。

DataWorks エディション別の機能詳細

リソースグループの選択

CDP または CDH クラスターは、サーバーレスリソースグループ (推奨) または旧バージョンのスケジューリング用の専用リソースグループのみをサポートします。

サーバーレスリソースグループの使用

II. 開発環境の準備

Data Studio でデータ開発を行い、共同開発のためにワークスペースメンバーを管理する前に、DataWorks ワークスペースに CDP または CDH クラスターを登録する必要があります。

カテゴリ

説明

リファレンス

データ同期環境の準備

クラスターの Hive コンポーネントに基づいてデータ同期タスクを実行する前に、そのコンポーネントに対応する DataWorks データソースを作成する必要があります。

サポートされているデータソースと同期ソリューション

Data Studio とデータ分析の環境準備

DataWorks を使用してコンピュートエンジンタスクの定期的なスケジューリングを行う前に、クラスターを DataWorks に追加する必要があります。クラスターが追加されると、データ開発、データ分析、および定期的なタスクスケジューリングに使用できます。

Data Studio (レガシー):CDH コンピュートリソースの関連付け

共同開発環境の準備

RAM ユーザーがワークスペース内で共同作業できるようにするには、次の操作を実行します:

  • 共同作業が必要な RAM ユーザーをメンバーとしてワークスペースに追加し、開発者ロールを割り当てます。

  • ワークスペースメンバーを CDP または CDH クラスター環境に追加します。

ワークスペースメンバーの追加

アクセスの制御

DataWorks は、プロダクトレベルおよびモジュールレベルのアクセスの制御を提供します。ビジネス要件に基づいて異なるユーザーに異なる権限を付与できます。次のセクションでは、アクセスの制御機能について説明します。

I. データアクセスの制御

DataWorks ワークスペースに追加されて CDP または CDH タスクを開発する RAM ユーザーに対して、クラスターアカウントマッピングを設定できます。これにより、ワークスペースメンバー (RAM ユーザー) はマッピングされたクラスターアカウントの権限を持つようになります。クラスターアカウントマッピングの詳細については、「クラスターアカウントマッピングの設定」をご参照ください。

II. モジュールレベルのアクセスの制御

データ開発を開始する前に、「RAM ユーザーへの権限付与」を参照して、RAM ユーザーに異なる操作権限を付与できます。以下の種類の権限が利用可能です:

  • RAM ポリシーを使用して、DataWorks モジュール (例:ユーザーのデータマップへのアクセスを拒否) および DataWorks コンソール (例:ユーザーにワークスペースの削除を許可) の権限を管理します。

  • ワークスペースロールを使用して、ワークスペースレベルのモジュール (例:ユーザーに開発のための Data Studio へのアクセスを許可) およびグローバルモジュール (例:ユーザーにデータセキュリティガードモジュールへのアクセスを拒否) の権限を管理します。

はじめに

DataWorks は複数のモジュールを提供します。Data Studio でスケジューリングタスクを開発し、その後オペレーションセンターでタスクを監視および管理できます。DataWorks はまた、タスクの開発とデプロイメントのためのプロセス制御を提供し、開発操作を標準化し、開発プロセス中のセキュリティを確保するのに役立ちます。

I. Data Integration

DataWorks の Data Integration モジュールを使用すると、CDP/CDH Hive および CDP/CDH HBase からのデータの読み取りと書き込みができます。他のデータソースから Hive または HBase データソースへ、または Hive または HBase データソースから他のデータソースへデータを同期するには、Hive または HBase コンポーネントを DataWorks の Hive または HBase データソースとして作成する必要があります。ニーズに応じて、バッチ同期または完全同期および増分同期タスクを選択できます。詳細については、「Data Integration」をご参照ください。

II. データ開発と運用保守

モジュール

説明

リファレンス

データモデリング

データモデリングは、エンドツーエンドのデータガバナンスの最初のステップです。Alibaba のデータプラットフォームモデリング方法論を活用し、データウェアハウス計画、データ標準、ディメンションモデリング、データメトリックの 4 つの側面をカバーし、ビジネスデータをビジネスの視点から解釈し、組織全体で一貫したデータの理解とコミュニケーションを可能にします。

データモデリング

Data Studio

DataWorks は CDP または CDH コンピュートエンジンの機能をカプセル化しており、CDP または CDH のデータ同期およびデータ開発タスクを実行できます。

  • データ同期:Data Studio は一部のバッチ同期およびリアルタイム同期シナリオのみをサポートします。より多くのデータ同期オプションについては、Data Integration に進んでください。

  • データ開発:複雑なコマンドラインを使用せずに、DataWorks で様々なタスクを開発し、定期的なスケジューリングを設定できます。

DataWorks の汎用ノードとコンピュートエンジンノードを組み合わせて、複雑なロジック処理を行うことができます。

主なノードは以下の通りです:

  • ビジネスプロセスを制御するための仮想ノード。

  • 外部システムからのスケジューリングをトリガーするための HTTP トリガー、OSS オブジェクトチェック、FTP チェックノード。

  • 上流ノードと下流ノード間でパラメータを渡すための代入およびパラメータノード。

  • コードをループさせるための do-while ノード、上流ノードの代入結果を反復評価するための for-each ノード、およびブランチノード。

  • その他のノード、例えば汎用 Shell ノードや MySQL データベースノードなど。

ノードタスクの開発が完了したら、必要に応じて以下の操作を実行できます:

  • スケジューリング設定

    ノードタスクを定期的に実行する必要がある場合、スケジューリングの依存関係やパラメータなどのスケジューリングプロパティを定義できます。

  • ノードのデバッグ

    本番タスクが効率的に実行され、計算リソースの無駄を防ぐために、デプロイする前にタスクをデバッグします。

  • ノードのデプロイ

    タスクを定期的にスケジューリングするには、本番環境にデプロイする必要があります。デプロイ後、Operation and Maintenance Center > 定期的なタスクに移動して、定期タスクを表示および管理できます。

  • ノード管理

    ノードタスクのデプロイやアンデプロイ、スケジューリングプロパティの一括変更が可能です。

  • 開発プロセス制御

    DataWorks は、コードレビュー、必須のスモークテスト、カスタムチェックロジックなど、タスク開発とデプロイメントのための開発プロセス制御を提供し、タスク関連操作の正確性とセキュリティを確保します。

オペレーションセンター

オペレーションセンターは、タスクの実行状況をリアルタイムで表示し、異常なタスクに対するインテリジェントな診断、再実行、その他の O&M 操作を提供するワンストップのビッグデータ O&M およびモニタリングプラットフォームです。そのスマートベースライン機能は、重要なタスクの完了時間が予測できない問題や、大量のタスクの監視の難しさなどの問題に対処し、タイムリーなタスクの配信を保証します。

自動トリガーノードの基本的な O&M

Data Quality

Data Quality は、データ開発ライフサイクル全体を通じてデータの可用性を保証します。タスクスケジューリングワークフローと密接に統合されたデータ品質ルールの効率的な検証を通じて、品質問題を最も早い段階で特定し、その拡散を効果的に防ぎ、ビジネスに効率的で信頼性の高い、信頼できるデータを提供します。

Data Quality

III. データガバナンス

CDP/CDH クラスターが登録されると、DataWorks は自動的にデータソースからメタデータを収集します。データマップに移動してメタデータを表示できます。また、データ資産ガバナンスに移動して、DataWorks が検出したガバナンスの問題を表示し、ガバナンス操作を実行することもできます。

モジュール

説明

リファレンス

データマップ

DataWorks データマップは、エンタープライズレベルのデータ管理プラットフォームを提供します。統一されたメタデータに基づいて、データオブジェクトの管理と在庫機能、リネージ表示、およびデータオブジェクトを迅速に検索し、深く理解する能力を提供します。

説明

現在、テーブルレベルおよびカラムレベルのリネージは、CDH Hive、CDH Spark、CDH Spark SQL、および CDH Impala ノードでサポートされています。詳細については、「リネージ」をご参照ください。

概要

セキュリティセンター

データセキュリティガード

承認センター

セキュリティセンター、データセキュリティガード、および承認センターは、データ資産の分類、機密データの識別、データアクセスの管理、機密データマスキング、機密データアクセスの監査、およびリスクの識別と対応をカバーする統合されたデータセキュリティガバナンスインターフェイスを提供し、データセキュリティガバナンスの実装を支援します。

説明

承認センターは、CDH/CDP テーブルのカスタム承認ワークフローをサポートしていません。

データ資産ガバナンス

データ資産ガバナンスは、ガバナンスルールを統合し、資産の最適化問題を自動的に識別し、事前および事後のガバナンス最適化ポリシーを適用することにより、複数のガバナンスドメインにわたる積極的かつ体系的なデータガバナンスを提供します。

説明

データ資産ガバナンスのグローバル確認項目とガバナンス項目のみが、CDH/CDP データの問題を管理するために使用できます。サポートされる具体的な機能は、実際の使用状況によります。

概要

4. データ分析とサービス

DataWorks は、データ処理、分析、およびサービス機能を提供し、中央管理された API を通じて効率的なデータ共有とアクセスをサポートします。

モジュール

説明

関連ドキュメント

データ分析

オンライン SQL クエリを実行し、ビジネスインサイトを得て、データを編集・共有できます。また、クエリ結果をチャートカードとして保存し、視覚的なデータレポートを迅速に構築することもできます。

データ分析

DataService Studio

DataService Studio は、包括的なデータサービスと共有機能を提供し、企業が内部および外部で使用する API サービスを一元管理するのに役立ちます。

DataService Studio

5. オープンプラットフォーム

DataWorks は、様々なアプリケーションシステムと DataWorks を迅速に統合するためのオープンな機能をサポートします。これにより、開発プロセスの制御、データガバナンス、O&M が容易になり、統合されたアプリケーションシステムにおけるビジネスステータスの変化に対応するのに役立ちます。

カテゴリ

説明

関連ドキュメント

OpenAPI

オープンプラットフォームの OpenAPI 機能は、オンプレミスサービスと DataWorks サービス間の対話を可能にする API を提供します。これにより、ビッグデータ処理の効率が向上し、手動操作と O&M が削減され、データのリスクとコストが低減します。

OpenAPI

OpenEvent

オープンプラットフォームの OpenEvent 機能は、メッセージサブスクリプションサービスを提供します。DataWorks のイベントステータスをサブスクライブすることにより、アプリケーションシステムはリアルタイムのステータス変更を受信でき、イベントにタイムリーに対応し、パーソナライズされた意思決定要件を満たすのに役立ちます。

OpenEvent の概要

拡張機能

DataWorks は、OpenEvent に基づくメッセージプッシュサブスクリプション機能を提供します。サービスプログラムを DataWorks 拡張機能として登録して、サブスクライブしたイベントメッセージを傍受し、応答することができます。これにより、拡張機能を通じて特定のイベントに対するメッセージ通知とプロセス制御を実装できます。

拡張機能の概要