DataWorks では、Cloudera's Distribution Including Apache Hadoop(CDH)または Cloudera Data Platform(CDP)クラスタに基づいて、Hive、MR、Presto、Impala などのノードを作成できます。DataWorks コンソールでは、CDP または CDH ノードの設定、ノード上のタスクの定期的なスケジュールの有効化、ノードのメタデータの管理を行い、データが効率的かつ安定的に生成および管理されるようにすることができます。このトピックでは、DataWorks での CDP または CDH タスク開発の利用上の注意について説明します。 利用上の注意は、基本的な開発プロセス、料金の説明、環境の準備、および権限管理について説明します。
背景情報
CDH は、Cloudera のオープンソースプラットフォームディストリビューションです。CDH は、クラスタ管理、クラスタ監視、クラスタ診断などのすぐに使える機能を提供します。CDH はまた、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントをサポートしています。
CDP は、プラットフォームを横断して顧客データを収集および統合する共通データプラットフォームです。CDP を使用して、リアルタイムデータを収集し、リアルタイムデータを個々のユーザーデータとして構築できます。
CDH および CDP クラスタを DataWorks に登録できます。その後、タスク開発、タスクスケジューリング、データマップでのメタデータ管理、データ品質監視などの DataWorks 機能を使用して、ビジネス要件に基づいてクラスタ内のデータを開発および管理できます。
制限事項
CDH または CDP タスクを実行するには、サーバーレスリソースグループまたは旧バージョンの専用スケジューリングリソースグループのみを使用できます。
説明DataWorks は、汎用目的で使用されるサーバーレスリソースグループをリリースしており、このタイプの resource group を使用して CDH または CDP タスクを実行することをお勧めします。サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、さまざまなタスクタイプが使用されるシナリオに適しています。サーバーレスリソースグループの購入方法については、「サーバーレスリソースグループの作成と使用」をご参照ください。旧バージョンの専用スケジューリングリソースグループを購入済みの場合は、そのリソースグループを使用して CDH または CDP タスクを実行することもできます。
新規ユーザーは、サーバーレスリソースグループのみ購入できます。
[カスタムバージョン] のクラスタを DataWorks に登録する場合、関連タスクを実行するには、旧バージョンの専用スケジューリングリソースグループのみを使用できます。クラスタバージョンの詳細については、このトピックの「手順 2:CDH または CDP クラスタを登録する」セクションをご参照ください。
DataWorks に CDH または CDP クラスタを登録できるリージョンは、中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深圳)、中国 (張家口)、中国 (成都)、およびドイツ (フランクフルト) のみです。
前提条件
DataWorks がアクティブ化されています。詳細については、「DataWorks をアクティブ化する」をご参照ください。
CDP または CDH クラスタが Elastic Compute Service(ECS)インスタンスにデプロイされ、DataWorks に登録されています。
クラスタは、Alibaba Cloud ECS 以外の環境にもデプロイできます。環境が Alibaba Cloud 仮想プライベートクラウド (VPC) に接続されていることを確認する必要があります。Express Connect および VPN Gateway を使用して、ネットワーク接続を確保できます。詳細については、「CDH または CDP クラスタを DataWorks に登録する」をご参照ください。
サーバーレスリソースグループが購入されています。
デフォルトでは、サーバーレスリソースグループは、購入後、他のクラウドサービスのネットワークに接続されていません。CDP または CDH クラスタを使用するには、事前にクラスタをサーバーレスリソースグループに接続する必要があります。サーバーレスリソースグループの購入方法については、「サーバーレスリソースグループの作成と使用」をご参照ください。
DataWorks ワークスペースが作成されています。詳細については、「ワークスペースを管理する」をご参照ください。
利用上の注意
次の表に、CDP または CDH タスクを DataWorks で開発する場合の利用上の注意を示します。
項目 | 説明 |
DataWorks で CDP または CDH タスクを開発する場合、DataWorks リソースだけでなく、他の Alibaba Cloud サービスのリソースについても課金されます。 | |
DataWorks で CDP または CDH タスクを開発する前に、必要なエディションの DataWorks をアクティブ化し、ビジネス要件に基づいてリソースグループを作成し、CDP または CDH クラスタを DataWorks に登録し、開発環境の準備を完了する必要があります。 | |
DataWorks は、製品レベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。ビジネス要件に基づいて異なるユーザーに異なる権限を付与することで、きめ細かい権限管理を実装できます。 | |
DataWorks Data Integration を使用すると、CDP または CDH Hive からデータを読み書きできます。DataWorks は、バッチ同期、フル同期、増分同期など、さまざまなデータ同期シナリオを提供します。 | |
DataWorks は、大量の順序付けられていない複雑なデータの構造化と管理に使用されるデータモデリング サービスを提供します。DataWorks は、スケジュールされたタスクの開発用に DataStudio サービス も提供します。タスクが開発された後、オペレーションセンターに移動して、タスクの監視と O&M 操作を実行できます。 | |
DataWorks を使用すると、CDP および CDH のメタデータを管理し、CDP および CDH データを管理できます。 | |
DataWorks DataAnalysis は、CDP および CDH データ分析とサービス共有機能を提供します。 | |
DataWorks は、アプリケーションシステムを DataWorks と迅速に統合できるオープン性機能を提供します。DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーションシステムのビジネスステータスの変更に迅速に対応できます。 |
課金
1. DataWorks リソースの料金
このセクションでは、DataWorks の請求書に含まれる料金について説明します。DataWorks の課金項目については、「課金概要」をご参照ください。
料金 | 説明 |
使用している DataWorks エディションの料金 | DataWorks でタスクを開発するには、事前に DataWorks をアクティブ化する必要があります。DataWorks Standard Edition、DataWorks Professional Edition、または DataWorks Enterprise Edition をアクティブ化した場合、エディションを購入したときにエディションの料金が課金されます。 |
タスクのスケジュールに使用したスケジューリングリソースの料金 | タスクが開発された後、タスクをスケジュールするにはスケジューリングリソースが必要です。サーバーレスリソースグループまたは旧バージョンの専用スケジューリングリソースグループを購入し、リソースグループの料金を支払うことができます。サーバーレスリソースグループを購入することをお勧めします。 説明 購入済みのサーバーレスリソースグループは、タスクスケジューリングとデータ同期に使用できます。 |
データの同期に使用したリソースの料金 | データ同期タスクは、スケジューリングリソースと同期リソースを消費します。サーバーレスリソースグループまたは旧バージョンのデータ統合専用リソースグループを購入し、リソースグループの料金を支払うことができます。サーバーレスリソースグループを購入することをお勧めします。 |
DataStudio ページの上部ツールバーにある [実行] または [パラメーター付きで実行] をクリックしてノードでタスクを実行した場合、スケジューリング料金は発生しません。
失敗したタスクまたはドライランタスクのスケジューリング料金は発生しません。
課金の詳細については、「オペレーションセンター」をご参照ください。
2. 他の Alibaba Cloud サービスのリソースの料金
このセクションでは、DataWorks の請求書に含まれない料金について説明します。
他の Alibaba Cloud サービスのリソースについては、Alibaba Cloud サービスの課金ロジックに基づいて課金されます。詳細については、Alibaba Cloud サービスの課金ドキュメントをご参照ください。詳細については、「課金」をご参照ください。
料金 | 説明 |
データベース料金 | データベースとの間でデータを読み書きするデータ同期タスクを実行すると、データベース料金が発生する場合があります。 |
コンピューティングおよびストレージ料金 | 特定タイプのコンピューティングエンジンのタスクを実行すると、そのタイプのコンピューティングエンジンのコンピューティングおよびストレージ料金が発生する場合があります。 |
ネットワークサービス料金 | DataWorks と他の関連サービスとの間にネットワーク接続を確立すると、ネットワークサービス料金が発生する場合があります。たとえば、Express Connect、Elastic IP Address(EIP)、インターネット共有帯域幅などのサービスを使用して DataWorks と他の関連サービスとの間にネットワーク接続を確立すると、ネットワークサービス料金が課金される場合があります。 |
環境の準備
1. リソースの準備
項目 | 説明 | 参照資料 |
DataWorks エディションを選択する | DataWorks Basic Edition では、CDP または CDH データの開発中に、データをクラウドに移行する、データを開発する、タスクをスケジュールする、データを管理するなどの基本操作を実行できます。より高度なデータガバナンスおよびデータセキュリティソリューションを使用する場合は、DataWorks Standard Edition、DataWorks Professional Edition、DataWorks Enterprise Edition などの高度なエディションの DataWorks を購入できます。 | |
リソースグループを選択する | CDP または CDH クラスタでタスクを実行するには、サーバーレスリソースグループまたは旧バージョンの専用スケジューリングリソースグループを使用できます。サーバーレスリソースグループを使用することをお勧めします。 |
2. 開発環境の準備
DataStudio で CDP または CDH タスクを開発する前に、CDP または CDH クラスタを DataWorks ワークスペースに登録する必要があります。ワークスペースにメンバーとしてユーザーを追加できます。これにより、共同データ開発が容易になります。
項目 | 説明 | 参照資料 |
データ同期環境を準備する | クラスタにデプロイされている Hive サービスに基づいて DataWorks でデータ同期タスクを開発する前に、Hive サービスをデータソースとして DataWorks ワークスペースに追加する必要があります。 | |
データ開発および分析のための環境を準備するデータ開発分析 | DataWorks を使用して CDP または CDH タスクを定期的にスケジュールする前に、CDP または CDH クラスターをデータソースとして DataWorks に追加する必要があります。 その後、データソースを使用して、データ開発、データ分析、定期的なタスク スケジュールなどの操作を実行できます。 | |
共同開発環境を準備する | RAM ユーザーがワークスペースで互いに協力してデータを開発できるようにするには、次の操作を実行する必要があります。
|
権限管理
DataWorks は、製品レベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。ビジネス要件に基づいて異なるユーザーに異なる権限を付与できます。権限管理の詳細:
1. データアクセス権限の管理
DataWorks ワークスペースに CDP または CDH タスクを開発するためのメンバーとして追加された RAM ユーザーと CDP または CDH クラスタアカウント間のマッピングを設定して、RAM ユーザーがマッピングされた CDP または CDH クラスタアカウントの権限を持つようにすることができます。詳細については、「テナントメンバーアカウントと CDH または CDP クラスタアカウント間のマッピングを設定する」をご参照ください。
2. サービスと機能に対する権限の管理
RAM ユーザーとして DataWorks でデータを開発する前に、RAM ユーザーにワークスペースレベルのロールを割り当てて、RAM ユーザーに特定の権限を付与する必要があります。詳細については、「RAM ユーザーの権限を管理するためのベストプラクティス」をご参照ください。
DataWorks ユーザーがデータマップにアクセスできないようにするなど、DataWorks サービсмоジュールに対する権限を管理したり、DataWorks ユーザーがワークスペースを削除できるようにするなど、DataWorks コンソールでの操作の実行権限を管理するには、「グローバルレベルのサービスに対する権限を管理する」を参照できます。
DataWorks ユーザーが DataStudio にアクセスして開発関連の操作を実行できるようにするなど、DataWorks ワークスペースレベルのサービсмоジュールに対する権限を管理したり、DataWorks ユーザーがデータセキュリティガードにアクセスできないようにするなど、DataWorks グローバルレベルのサービсмоジュールに対する権限を管理するには、「ワークスペースレベルのサービスに対する権限を管理する」を参照できます。
はじめに
DataWorks は複数のサービスを提供します。DataStudio でスケジュール実行されるタスクを開発できます。タスクが開発された後、本番環境のオペレーションセンターに移動して、タスクの監視と O&M 操作を実行できます。DataWorks は、タスク開発とデプロイのプロセスコントロールも提供し、データ開発操作を標準化し、データ開発のセキュリティを確保します。
1. データ統合
DataWorks Data Integration を使用すると、CDP または CDH Hive、および CDP または CDH HBase からデータを読み書きできます。別のタイプのデータソースから Hive または HBase データソースにデータを同期したり、Hive または HBase データソースから別のタイプのデータソースにデータを同期したりするには、事前に Hive または HBase サービスをデータソースとして DataWorks に追加する必要があります。さらに、DataWorks は、バッチ同期、フル同期、増分同期など、さまざまなデータ同期シナリオを提供します。ビジネス要件に基づいてシナリオを選択できます。詳細については、「Data Integration」をご参照ください。
2. データモデリングと開発
モジュール | 説明 | 参照資料 |
データモデリング | データモデリングは、エンドツーエンドのデータガバナンスの最初のステップです。データモデリングは、Alibaba データ中台のモデリング方法論を使用し、データウェアハウス計画、データ標準、ディメンションモデリング、データメトリックモジュールを使用して企業のビジネスデータをビジネスの観点から解釈し、企業内の人員がデータウェアハウス仕様に準拠したビジネスデータの測定と解釈のアイデアを迅速に理解して共有できるようにします。 | |
DataStudio | DataWorks は、CDP または CDH コンピュートエンジンの機能をカプセル化します。これにより、CDP または CDH コンピュートエンジンを使用して、CDP または CDH データ同期タスクと開発タスクを実行できます。
| |
DataWorks では、汎用ノードと特定タイプのコンピューティングエンジンのノードを使用して、複雑なロジックを処理できます。 DataWorks は、次のタイプの汎用ノードをサポートしています。
| ||
ノードのタスクが開発された後、ビジネス要件に基づいて次の操作を実行できます。
| ||
オペレーションセンター | オペレーションセンターは、エンドツーエンドのビッグデータ O&M および監視プラットフォームです。オペレーションセンターでは、タスクのステータスを表示し、例外が発生したタスクで O&M 操作を実行できます。たとえば、オペレーションセンターでインテリジェント診断を実行したり、タスクを再実行したりできます。オペレーションセンターは、重要なタスクの制御不能な出力時間や大量のタスクの監視の難しさなどの問題を解決するために使用できるインテリジェントベースライン機能を提供します。この機能は、タスク出力の適時性を確保するのに役立ちます。 | |
Data Quality | Data Quality は、エンドツーエンドのデータ R&D プロセスにおけるデータの可用性を確保し、ビジネスに信頼できるデータを効率的に提供します。Data Quality は、効果的な監視ルールベースの品質チェックと、監視ルールとタスクスケジューリングプロセスの組み合わせにより、データ品質の問題をできるだけ早く特定し、データ品質の問題のエスカレーションを防ぐのに役立ちます。 |
3. データガバナンス
CDP または CDH クラスタを DataWorks に登録すると、DataWorks は CDP または CDH コンピュートエンジンからメタデータを自動的に収集します。メタデータを表示するには、「データマップの概要」をご参照ください。また、DataWorks によって検出された問題を表示し、関連するデータガバナンス操作を実行するには、「データガバナンスセンター」をご参照ください。
モジュール | 説明 | 参照資料 |
データマップ | データマップは、基盤となる統合メタデータサービスに基づいて、データオブジェクトの管理、ソート、系列表示、クイック検索、詳細理解機能を提供するエンタープライズグレードのデータ管理プラットフォームです。 説明 DataWorks では、CDH Hive、CDH Spark、CDH Spark SQL、CDH Impala ノードの系列をテーブルレベルとフィールドレベルで表示できます。詳細については、「系列を表示する」トピックの「さまざまなデータソースの系列表示の説明」セクションをご参照ください。 | |
セキュリティセンター データセキュリティガード 承認センター | セキュリティセンター、データセキュリティガード、承認センターモジュールは、データの分類と感度レベルの分類、機密データの識別、データ関連の承認の管理、機密データのマスキング、機密データへのアクセスの監査、リスクの識別と対応などの機能を提供するエンドツーエンドのデータセキュリティガバナンスプラットフォームとして機能します。これは、データセキュリティガバナンスの実装に役立ちます。 説明 承認センターでは、CDP または CDH テーブルのカスタム承認プロセスを指定できません。 | |
データガバナンスセンター | データガバナンスセンターは、データ関連分野の経験に基づくルールに基づいて、複数のガバナンス分野のガバナンス対象項目を自動的に識別し、イベント前の問題防止とイベント後の問題解決を網羅したガバナンスおよび最適化ソリューションを提供します。データガバナンスセンターは、データガバナンスを積極的に体系的に完了するのに役立ちます。 説明 Data Governance Center では、グローバル チェック項目とガバナンス項目のみを使用して、CDP または CDH データ の問題をチェックおよび解決できます。 |
4. データ分析とサービス
DataAnalysis と DataService Studio は、企業にデータ処理と分析機能を提供し、企業が統一的に管理されている API を使用してデータにアクセスして共有できるように設計されています。
モジュール | 説明 | 参照資料 |
DataAnalysis | DataWorks の DataAnalysis モジュールは、SQL ベースの分析をオンラインで実行し、ビジネス要件を把握し、データを編集および共有するのに役立ちます。また、クエリ結果をチャートカードとして保存し、チャートカードに基づいて視覚化されたデータレポートを迅速に生成して、日次レポートを作成できます。 | 詳細については、「DataAnalysis の概要」をご参照ください。 |
DataService Studio | DataService Studio は、企業に包括的なデータサービスと共有機能を提供し、企業が内部および外部システムの API サービスを一元的に管理できるように設計されています。 | 詳細については、「DataService Studio の概要」をご参照ください。 |
5. オープンプラットフォーム
DataWorks は、アプリケーションシステムを DataWorks と迅速に統合できるオープン性機能を提供します。DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーションシステムのビジネスステータスの変更に迅速に対応できます。
項目 | 説明 | 参照資料 |
OpenAPI | OpenAPI モジュールを使用すると、DataWorks API 操作を呼び出すことができるため、アプリケーションを DataWorks と統合できます。これは、ビッグデータ処理の促進、手動操作と O&M 操作の削減、データリスクの最小化、企業のコスト削減に役立ちます。 | |
OpenEvent | OpenEvent モジュールを使用すると、アプリケーションに関連する DataWorks 変更イベントをサブスクライブできるため、変更をできるだけ早く検出して対応できます。 | |
拡張機能 | OpenEvent モジュールを使用して、DataWorks ワークスペースで生成されたイベントメッセージをサブスクライブできます。拡張機能モジュールを使用して、ローカルプログラムを拡張機能として登録し、拡張ポイントイベントとプロセスを管理できます。 |