DataWorks を使用すると、MaxCompute をベースとしたオフラインデータウェアハウスおよび分析システムを簡単に構築できます。DataWorks コンソールでは、MaxCompute ノードの設定、ノードでのタスクの定期的なスケジュールの有効化、ノードのメタデータの管理を行い、データが効率的かつ安定的に生成および管理されるようにすることができます。このトピックでは、DataWorks での MaxCompute タスク開発の注意事項について説明します。注意事項には、基本的な開発プロセス、料金の説明、環境の準備、権限管理が含まれます。
前提条件
DataWorks がアクティブ化されていること。詳細については、「DataWorks のアクティブ化」をご参照ください。
MaxCompute がアクティブ化されていること。詳細については、「MaxCompute のアクティブ化」をご参照ください。
DataWorks ワークスペースが作成されていること。詳細については、「ワークスペースの作成と管理」をご参照ください。
注意事項
次の表に、DataWorks での MaxCompute タスク開発の注意事項を示します。
項目 | 説明 |
DataWorks で MaxCompute タスクを開発する場合、DataWorks リソースだけでなく、他の Alibaba Cloud サービスのリソースについても課金されます。 | |
DataWorks で MaxCompute タスクを開発する前に、必要なエディションの DataWorks をアクティブ化し、ビジネス要件に基づいてリソースグループを作成し、MaxCompute データソースを追加して関連付ける必要があります。必要なエディションの DataWorks をアクティブ化し、ビジネス要件に基づいてリソースグループを作成し、追加および関連付けを行う必要があります。 | |
DataWorks は、製品レベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。 DataWorks コンソールでは、MaxCompute データソースに対する権限をリクエストしたり、MaxCompute データソースへのアクセスリクエストを処理したりできます。 | |
DataWorks Data Integration を使用すると、MaxCompute からデータを読み書きできます。 DataWorks は、バッチ同期、リアルタイム同期、フル同期と増分同期など、さまざまなデータ同期シナリオを提供します。 | |
DataWorks は、大量の順序付けされていない複雑なデータを構造化および管理するために使用されるデータモデリング サービスを提供します。DataWorks は、スケジュールされたタスクを開発するための DataStudio サービス も提供します。タスクが開発された後、オペレーションセンターに移動して、タスクの監視と O&M 操作を実行できます。 | |
DataWorks では、MaxCompute メタデータの管理と MaxCompute データの管理を行うことができます。 | |
DataWorks DataAnalysis は、MaxCompute データ分析およびサービス共有機能を提供します。 | |
DataWorks は、アプリケーションシステムを DataWorks と迅速に統合できるオープン性機能を提供します。 DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーションシステムのビジネス ステータスの変更に迅速に対応できます。 |
課金
DataWorks DataStudio およびオペレーションセンターを使用して MaxCompute からデータを読み書きしたり、MaxCompute データを処理したり、MaxCompute タスクを定期的にスケジュールしたりする場合、DataWorks リソースだけでなく、他の Alibaba Cloud サービスのリソースについても課金されます。
1. DataWorks リソースの料金
このセクションでは、DataWorks の請求書に含まれる料金について説明します。 DataWorks の課金項目については、「課金の概要」をご参照ください。
料金 | 説明 |
使用している DataWorks エディションの料金 | DataWorks でタスクを開発するには、DataWorks をアクティブ化する必要があります。 DataWorks Standard Edition、DataWorks Professional Edition、または DataWorks Enterprise Edition をアクティブ化すると、エディションを購入したときにエディションの料金が請求されます。 |
タスクのスケジュールに使用したスケジューリングリソースの料金 | タスクが開発された後、タスクをスケジュールするにはスケジューリングリソースが必要です。 サーバーレスリソースグループまたはスケジューリング用の旧バージョンの専用リソースグループを購入し、リソースグループの料金を支払うことができます。 サーバーレスリソースグループを購入することをお勧めします。 説明 購入したサーバーレスリソースグループは、タスクのスケジュールとデータ同期に使用できます。 |
データの同期に使用したリソースの料金 | データ同期タスクは、スケジューリングリソースと同期リソースを消費します。 Data Integration 用のサーバーレスリソースグループまたは旧バージョンの専用リソースグループを購入し、リソースグループの料金を支払うことができます。 サーバーレスリソースグループを購入することをお勧めします。 |
DataStudio ページの上部ツールバーの [実行] または [パラメーター付き実行] をクリックしてノードでタスクを実行した場合、スケジュール料金は発生しません。
失敗したタスクまたはドライランタスクのスケジュール料金は発生しません。
課金の詳細を理解するのに役立つ詳細については、「DataWorks でのスケジューリングタスクの発行ロジック」をご参照ください。
2. 他の Alibaba Cloud サービスのリソースの料金
このセクションでは、DataWorks の請求書に含まれていない料金について説明します。 DataWorks でタスクを開発および実行するために使用される他の Alibaba Cloud サービスのリソースについても課金される場合があります。
他の Alibaba Cloud サービスのリソースについては、Alibaba Cloud サービスの課金ロジックに基づいて課金されます。 詳細については、Alibaba Cloud サービスの課金ドキュメントを参照してください。 たとえば、使用する MaxCompute コンピュートエンジンの課金の詳細については、「MaxCompute の課金項目」をご参照ください。
料金 | 説明 |
データベース料金 | データ同期タスクを実行してデータベースからデータを読み書きすると、データベース料金が発生する場合があります。 |
コンピューティングおよびストレージ料金 | 特定タイプのコンピュートエンジンのタスクを実行すると、このタイプのコンピュートエンジンのコンピューティングおよびストレージ料金が発生する場合があります。 たとえば、ODPS SQL ノードでタスクを実行して MaxCompute テーブルを作成し、MaxCompute テーブルにデータを書き込むと、MaxCompute コンピュートエンジンのコンピューティングおよびストレージリソースの料金が請求される場合があります。 |
ネットワークサービス料金 | DataWorks と他の関連サービスの間にネットワーク接続を確立すると、ネットワークサービス料金が発生する場合があります。 たとえば、Express Connect、EIP(Elastic IP Address)、インターネット共有帯域幅などのサービスを使用して DataWorks と他の関連サービスの間にネットワーク接続を確立すると、ネットワークサービス料金が請求される場合があります。 |
環境の準備
1. リソースの準備
DataWorks は、さまざまな機能をサポートする Standard Edition、Professional Edition、および Enterprise Edition を提供します。 DataWorks は、テナント専用のサーバーレスリソースグループも提供します。 ビジネス要件に基づいて、DataWorks エディションとリソースグループを選択できます。
項目 | 説明 | 参照 |
DataWorks エディションの選択 | DataWorks Basic Edition を使用すると、MaxCompute データの開発中に次の基本操作を実行できます。データをクラウドに移行する、データを開発する、MaxCompute タスクをスケジュールする、データを管理する。 より高度なデータガバナンスおよびデータセキュリティソリューションを使用する場合は、DataWorks Standard Edition、DataWorks Professional Edition、DataWorks Enterprise Edition などの高度なエディションの DataWorks を購入できます。 | DataWorks Basic Edition と DataWorks Advanced Edition の比較とエディションアップグレードの説明 |
リソースグループの選択 |
|
2. 開発環境の準備
DataStudio で MaxCompute タスクを開発する前に、MaxCompute プロジェクトをデータソースとして DataWorks ワークスペースに追加し、MaxCompute プロジェクトを DataStudio に関連付ける必要があります。 ワークスペースにメンバーとしてユーザーを追加できます。 これにより、共同データ開発が容易になります。
項目 | 説明 | 参照 |
データ同期環境の準備 | DataWorks で MaxCompute データ同期タスクを開発する前に、MaxCompute プロジェクトをデータソースとして DataWorks ワークスペースに追加する必要があります。 データソースが追加された後にのみ、データソースの同期タスクを設定できます。 | |
データ開発および分析環境の準備 | DataWorks で MaxCompute タスクをスケジュールする前に、MaxCompute プロジェクトをデータソースとして DataWorks ワークスペースに追加し、データソースを DataStudio に関連付ける必要があります。 その後、データソースを使用して、データ開発、データ分析、定期的なタスクスケジュールなどの操作を実行できます。 | |
共同開発環境の準備 | RAM ユーザーがワークスペースで互いに協力してデータを開発できるようにするには、RAM ユーザーをメンバーとしてワークスペースに追加し、ワークスペースの RAM ユーザーに開発ロールを割り当てる必要があります。 |
権限管理
DataWorks は、製品レベルの権限とモジュールレベルの権限を管理するための包括的な権限管理システムを提供します。 DataWorks コンソールでは、MaxCompute データソースに対する権限をリクエストしたり、MaxCompute データソースへのアクセスリクエストを処理したりできます。 権限管理の詳細:
1. データアクセス権限の管理
ODPS SQL ノードまたはアドホッククエリノードを使用して、MaxCompute テーブルのデータをクエリできます。 基本モードの DataWorks ワークスペースを使用する場合、開発環境と本番環境間のデータのきめ細かい権限管理と分離はサポートされていません。 このトピックでは、標準モードの DataWorks ワークスペースを使用します。
組み込みのワークスペースレベルのロールの MaxCompute に対する権限の説明
次の表に、RAM ユーザーをメンバーとしてワークスペースに追加し、ワークスペースレベルのロールを割り当てた後、MaxCompute に対する RAM ユーザーの権限を示します。
権限タイプ
説明
開発環境の MaxCompute プロジェクトに対する権限
ワークスペースで RAM ユーザーに組み込みのワークスペースレベルのロールを割り当て、開発環境で MaxCompute プロジェクトをワークスペースに関連付けると、RAM ユーザーには、開発環境の MaxCompute プロジェクトのマッピングされたロールの権限が自動的に付与されます。 ただし、RAM ユーザーは、本番環境の MaxCompute プロジェクトに対する権限を持っていません。
本番環境の MaxCompute プロジェクトに対する権限
スケジューリングアクセス ID として使用される RAM ユーザーは、本番環境の MaxCompute プロジェクトに対する高い権限を持っています。 他の RAM ユーザーは、本番環境の MaxCompute プロジェクトに対する権限を持っていません。 本番環境の MaxCompute テーブルで操作を実行するには、セキュリティセンターに移動して、必要な権限をリクエストする必要があります。 DataWorks は、デフォルトのリクエスト処理手順を提供します。 DataWorks では、管理権限が付与されたユーザーがリクエスト処理手順をカスタマイズすることもできます。
DataWorks はデフォルトのリクエスト処理プロシージャを提供します。DataWorks では、管理権限が付与されたユーザーがリクエスト処理プロシージャをカスタマイズすることもできます。
MaxCompute の権限管理の詳細については、「MaxCompute コンピュートエンジンインスタンスのデータに対する権限を管理する」をご参照ください。
データアクセス動作の説明
MaxCompute では、プロジェクト間でテーブルをクエリできます。 DataStudio ページでプロジェクト名を指定することにより、本番環境でワークスペースに関連付けられている MaxCompute プロジェクトのデータをクエリできます。 次の表に、プロジェクト間でテーブルをクエリする方法と、さまざまな環境でテーブルにアクセスするために使用できるアカウントを示します。
説明[ワークスペース] ページの [コンピュートエンジンの情報] セクションで、開発環境と本番環境でワークスペースに関連付けられている MaxCompute プロジェクトと、MaxCompute プロジェクトの環境を設定するために使用されるアカウントを表示できます。 MaxCompute データソースを追加する方法の詳細については、「MaxCompute データソースの追加」をご参照ください。
標準モードのワークスペースの場合、タスクエグゼキュータの個人 ID は、デフォルトで開発環境で MaxCompute タスクを実行するために使用され、Alibaba Cloud アカウントは、本番環境で MaxCompute タスクを実行するためのスケジューリングアクセス ID として使用されます。 詳細については、「MaxCompute データソースの追加」をご参照ください。
サンプルコード
開発環境の実行アカウント(開発環境の DataStudio およびオペレーションセンター)
本番環境の実行アカウント(本番環境のオペレーションセンター)
開発環境の MaxCompute プロジェクトのテーブルにアクセスします。
select col1 from projectname_dev.tablename;タスクエグゼキュータの個人の Alibaba Cloud アカウントは、開発環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
RAM ユーザーがタスクを実行する場合、RAM ユーザーの個人の Alibaba Cloud アカウントは、開発環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
Alibaba Cloud アカウントを使用してタスクを実行する場合、Alibaba Cloud アカウントは、開発環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
スケジューリングアクセス ID は、開発環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
本番環境の MaxCompute プロジェクトのテーブルにアクセスします。
select col1 from projectname.tablename;タスクエグゼキュータの個人の Alibaba Cloud アカウントは、本番環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
説明本番環境のデータのセキュリティ制御のため、個人の Alibaba Cloud アカウントを使用して本番環境の MaxCompute プロジェクトのテーブルにアクセスすることはできません。 個人の Alibaba Cloud アカウントを使用して本番環境の MaxCompute プロジェクトのテーブルにアクセスするには、セキュリティセンターに移動して権限をリクエストしてください。 DataWorks は、デフォルトのリクエスト処理手順を提供します。 DataWorks では、管理権限が付与されたユーザーがリクエスト処理手順をカスタマイズすることもできます。
スケジューリングアクセス ID は、本番環境の MaxCompute プロジェクトのテーブルにアクセスするために使用されます。
開発環境などの目的の環境の MaxCompute プロジェクトで次のステートメントを実行して、MaxCompute プロジェクトのテーブルにアクセスします。
select col1 from tablename;タスクエグゼキュータの個人の Alibaba Cloud アカウントを使用して、開発環境の MaxCompute プロジェクトのテーブルにアクセスできます。
スケジューリングアクセス ID を使用して、本番環境の MaxCompute プロジェクトのテーブルにアクセスできます。
2. サービスと機能に対する権限の管理
RAM ユーザーとして DataWorks でデータを開発する前に、RAM ユーザーにワークスペースレベルのロールを割り当てて、RAM ユーザーに特定の権限を付与する必要があります。 詳細については、「RAM ユーザーの権限を管理するためのベストプラクティス」をご参照ください。
RAM ポリシーベースの承認を使用して、DataWorks ユーザーがデータマップにアクセスできないようにするなど、DataWorks サービсмодуляに対する権限を管理したり、DataWorks ユーザーがワークスペースを削除できるようにするなど、DataWorks コンソールでの操作の実行に対する権限を管理したりできます。
ロールベースアクセス制御(RBAC)を使用して、DataWorks ユーザーが DataStudio にアクセスして開発関連の操作を実行できるようにするなど、DataWorks ワークスペースレベルのサービсмодуляに対する権限を管理したり、DataWorks ユーザーがデータセキュリティガードにアクセスできないようにするなど、DataWorks グローバルレベルのサービсмодуляに対する権限を管理したりできます。

はじめに
DataWorks は複数のサービスを提供します。 DataStudio で実行がスケジュールされているタスクを開発できます。 タスクが開発された後、本番環境のオペレーションセンターに移動して、タスクを監視し、O&M 操作を実行できます。 DataWorks は、ノードの開発とデプロイのプロセスコントロールも提供して、データ開発操作を標準化し、データ開発のセキュリティを確保します。
1. データ統合
DataWorks Data Integration を使用すると、MaxCompute からデータを読み書きできます。 別の種類のデータソースから MaxCompute データソースにデータを同期したり、MaxCompute データソースから別の種類のデータソースにデータを同期したりできます。 さらに、DataWorks は、バッチ同期、リアルタイム同期、フル同期と増分同期など、さまざまなデータ同期シナリオを提供します。 ビジネス要件に基づいてシナリオを選択できます。 詳細については、「Data Integration の概要」をご参照ください。
2. データモデリングと開発
モジュール | 説明 | 参照 |
データモデリング | データモデリングは、エンドツーエンドのデータガバナンスの最初のステップです。データモデリングは、Alibaba データ中台のモデリング方法論を使用し、データウェアハウス計画、データ標準、ディメンションモデリング、およびデータメトリックモジュールを使用して、企業のビジネスデータをビジネスの観点から解釈し、企業内の担当者がデータウェアハウスの仕様に準拠したビジネスデータの測定および解釈の考え方をすばやく理解して共有できるようにします。 | |
DataStudio | DataWorks は、MaxCompute コンピュートエンジンの機能をカプセル化します。 これにより、MaxCompute コンピュートエンジンを使用して、MaxCompute データ同期タスクと開発タスクを実行できます。
| |
DataWorks では、一般的なノードと特定の種類のコンピューティングエンジンのノードを使用して、複雑なロジックを処理できます。 DataWorks の汎用ノードと特定タイプのコンピュートエンジンのノードを使用して、複雑なロジックを処理できます。 DataWorks は、次のタイプの汎用ノードをサポートしています。
| ||
ノードのタスクが開発された後、ビジネス要件に基づいて次の操作を実行できます。
| ||
オペレーションセンター | オペレーションセンターは、エンドツーエンドのビッグデータ O&M および監視プラットフォームです。オペレーションセンターでは、タスクのステータスを表示し、例外が発生したタスクに対して O&M 操作を実行できます。たとえば、オペレーションセンターでインテリジェント診断を実行したり、タスクを再実行したりできます。オペレーションセンターは、重要なタスクの出力時間の制御不能や、大量のタスクの監視の難しさなどの問題を解決するために使用できるインテリジェントベースライン機能を提供します。この機能は、タスク出力の適時性を確保するのに役立ちます。 | |
データクオリティ | データクオリティは、エンドツーエンドのデータ R&D プロセスでデータの可用性を確保し、ビジネスに信頼性の高いデータを効率的に提供します。データクオリティは、効果的な監視ルールベースのクオリティチェックと、監視ルールとタスクスケジューリングプロセスの組み合わせにより、データクオリティの問題を早期に特定し、問題の深刻化を防ぎます。 |
3. データガバナンス
MaxCompute データソースを DataWorks ワークスペースに関連付けると、DataWorks は MaxCompute データソースからメタデータを自動的に収集します。 データマップの概要 を参照して、メタデータを表示できます。 また、データガバナンスセンターの概要 を参照して、DataWorks によって検出された問題を表示し、関連するデータガバナンス操作を実行できます。
モジュール | 説明 | 参照 |
データマップ | データマップは、基盤となる統合メタデータサービスに基づいて、データオブジェクトの管理、ソート、クイック検索、詳細な理解機能を提供するエンタープライズグレードのデータ管理プラットフォームです。 | |
セキュリティセンター データセキュリティガード 承認センター | セキュリティセンターは、データ資産の分類、機密データの識別、データ関連の権限付与の管理、機密データのマスキング、機密データへのアクセスの監査、リスクの識別と対応を網羅するエンドツーエンドのデータセキュリティガバナンスプラットフォームです。 セキュリティセンターは、データセキュリティガバナンスの問題を特定するのに役立ちます。 | |
データガバナンスセンター | データガバナンスセンターは、データ関連分野の経験に基づくルールに基づいて、複数のガバナンス分野のガバナンス対象項目を自動的に識別し、イベント前の問題防止とイベント後の問題解決を網羅するガバナンスおよび最適化ソリューションを提供します。 データガバナンスセンターは、データガバナンスを積極的に体系的に完了するのに役立ちます。 |
4. データ分析とサービス
DataAnalysis と DataService Studio は、企業にデータ処理および分析機能を提供し、企業が統一的に管理されている API を使用してデータにアクセスし、共有できるように設計されています。
モジュール | 説明 | 参照 |
DataAnalysis | DataWorks の DataAnalysis モジュールは、SQL ベースの分析をオンラインで実行し、ビジネス要件を把握し、データを編集および共有するのに役立ちます。また、クエリ結果をチャートカードとして保存し、チャートカードに基づいて視覚化されたデータレポートを迅速に生成して、日次レポートを作成できます。 | 詳細については、「DataAnalysis の概要」をご参照ください。 |
DataService Studio | DataService Studio は、企業に包括的なデータサービスと共有機能を提供するように設計されており、企業が内部システムと外部システムの API サービスを一元的に管理するのに役立ちます。 | 詳細については、「DataService Studio の概要」をご参照ください。 |
5. オープン プラットフォーム
DataWorks は、アプリケーション システムを DataWorks と迅速に統合できるオープン性を備えています。 DataWorks を使用して、データ関連プロセスを管理し、データを管理し、データの O&M 操作を実行し、アプリケーション システムのビジネス ステータスの変更に迅速に対応できます。
項目 | 説明 | 参照 |
OpenAPI | OpenAPI モジュールを使用すると、DataWorks API 操作を呼び出して、アプリケーションを DataWorks と統合できます。 これにより、ビッグデータ処理の促進、手動操作と O&M 操作の削減、データ リスクの最小化、企業のコスト削減に役立ちます。 | |
OpenEvent | OpenEvent モジュールを使用すると、アプリケーションに関連する DataWorks 変更イベントをサブスクライブして、変更をできるだけ早く検出して対応できます。 | |
拡張機能 | OpenEvent モジュールを使用して、DataWorks ワークスペースで生成されたイベント メッセージをサブスクライブできます。 拡張機能モジュールを使用して、ローカル プログラムを拡張機能として登録し、拡張ポイント イベントとプロセスを管理できます。 |
付録: DataWorks と MaxCompute の関係
基本モードのワークスペースを使用する場合、本番環境のみが提供され、ワークスペースに関連付けることができる MaxCompute コンピュートエンジンは 1 つだけです。このトピックでは、標準モードのワークスペースを使用します。
DataWorks は、MaxCompute 関連の機能をいくつか提供します。たとえば、MaxCompute 関連のバッチ同期タスクのスケジュール、MaxCompute メタデータの管理、MaxCompute データの管理、MaxCompute データのセキュリティの管理などが可能です。タスクのデータコンピューティングとストレージは MaxCompute で実行されます。標準モードのワークスペースを使用する場合は、開発環境と本番環境のワークスペースに MaxCompute コンピュートエンジンを個別に関連付ける必要があります。これにより、開発環境と本番環境の間でデータストレージとリソースが分離されます。
DataWorks ワークスペースに MaxCompute データソースを追加する方法、MaxCompute データソースを DataStudio に関連付ける方法、および開発環境と本番環境で使用されている MaxCompute プロジェクトを表示する方法については、「MaxCompute データソースを追加する」をご参照ください。
DataWorks で実行するようにスケジュールされているタスクの発行ロジックについては、「DataWorks におけるスケジューリングノードの発行ロジック」をご参照ください。
