DataWorks で MaxCompute や Hologres などのインスタンスをデータ開発に利用するには、それらをコンピューティングリソースとして関連付ける必要があります。このトピックでは、タスク開発とスケジューリングの基盤となるコンピューティングリソースの作成方法と管理方法について説明します。
コンピューティングリソースとデータソースの関係
DataWorks は、さまざまなコンピューティングリソースの関連付けをサポートしています。リソースを関連付けると、DataWorks で複雑なデータ処理や定期的なスケジューリングタスクを開発できます。ほとんどのコンピューティングリソースを DataWorks に関連付けると、同じ名前のデータソースが自動的に作成されます。その後、データ統合モジュールを使用して、そのデータソースに基づいてデータ同期などの操作を実行できます。コンピュートエンジンとデータソースの違いは次のとおりです:
コンピューティングリソースは、データ処理および分析タスクを実行するコンピュートエンジンのインスタンスです。
データソースは、さまざまなデータストレージサービスに接続して、データを保存および管理します。
サポートされているコンピューティングリソース
DataWorks は、データ開発のために以下のコンピューティングリソースの関連付けをサポートしています。
カテゴリ | コンピューティングリソースタイプ | コンピューティングリソースの関連付け手順 | Data Studio (新バージョン) | DataStudio (旧バージョン) |
オフラインコンピューティング | ||||
リアルタイムクエリ | ||||
リアルタイムコンピューティング | ||||
マルチモーダル検索 | ||||
クラスター管理 | ||||
MaxCompute、AnalyticDB for MySQL、AnalyticDB for PostgreSQL、AnalyticDB for Spark、ClickHouse、Hologres、Lindorm、EMR Serverless StarRocks、または OpenSearch のコンピューティングリソースを関連付けると、現在のワークスペースに同じ名前のデータソースも作成されます。
権限
コンピューティングリソースを作成するには、O&M またはワークスペース管理者のロールを持つワークスペースメンバーであるか、AliyunDataWorksFullAccess または AdministratorAccess アクセスポリシーが必要です。詳細については、「ワークスペースレベルのモジュール権限制御」および「RAM ユーザーへの権限付与」をご参照ください。
前述の権限に加えて、特定のコンピューティングリソースを作成するには、他のアクセスの制御が必要です。インターフェイスのプロンプトに従って権限を付与してください。
コンピューティングリソースの関連付け
コンピューティングリソースを関連付ける手順は、ワークスペースで Data Studio (新バージョン) を使用しているかどうかによって異なります。
Data Studio (新バージョン) でのコンピューティングリソースの関連付け
DataWorks コンソールにログインします。ターゲットリージョンに切り替えます。左側のナビゲーションウィンドウで、 をクリックします。ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ] をクリックします。
左側のナビゲーションウィンドウで、[コンピューティングリソース] をクリックします。[コンピューティングリソース] ページで、関連付けるコンピューティングリソースタイプを見つけ、対応するドキュメントの手順に従います。
DataStudio (旧バージョン) でのコンピューティングリソースの関連付け
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして [コンピューティングリソース] ページに移動します。関連付けるコンピューティングリソースのタイプを見つけ、対応するドキュメントの手順に従います。コンピューティングリソース管理:右上隅の [コンピューティングリソースの作成] をクリックして、コンピューティングリソースを作成します。
クラスター管理:[コンピューティングリソース] ページの右上隅にある [クラスターの作成] をクリックして、クラスターを作成します。
クラスター管理
サポートされているクラスターのバージョン/タイプ
クラスター関連付けのリファレンス
CDH/CDP クラスターの関連付け
DataWorks は、CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、および CDP 7.1.7 を提供します。これらのバージョンは直接選択できます。これらのクラスターバージョンのコンポーネントバージョンは固定です。詳細については、「クラスター接続情報」をご参照ください。これらのクラスターバージョンがビジネスニーズを満たさない場合は、[カスタムバージョン] を選択します。
EMR クラスターの関連付け
サポートされている EMR クラスタータイプ:DataLake クラスター (新しいデータレイク):EMR on ECS、カスタムクラスター:EMR on ECS、Hadoop クラスター (古いデータレイク):EMR on ECS、Spark クラスター:EMR on ACK、および EMR Serverless Spark クラスター。
重要DataWorks は、Hadoop クラスター (古いデータレイク) の次の EMR バージョンをサポートしています:
EMR-3.38.2、EMR-3.38.3、EMR-4.9.0、EMR-5.6.0、EMR-3.26.3、EMR-3.27.2、EMR-3.29.0、EMR-3.32.0、EMR-3.35.0、EMR-4.3.0、EMR-4.4.1、EMR-4.5.0、EMR-4.5.1、EMR-4.6.0、EMR-4.8.0、EMR-5.2.1、および EMR-5.4.3
Hadoop クラスター (古いデータレイク) は推奨されなくなりました。できるだけ早く DataLake クラスターに移行してください。詳細については、「Hadoop クラスターから DataLake クラスターへの移行」をご参照ください。
コンピューティングリソースの関連付け解除
コンピューティングリソースの関連付け解除は慎重に行ってください。コンピューティングリソースの関連付けを解除すると、同じ名前の関連データソースも削除されます。この操作は、データ統合、オペレーションセンター、データ分析、DataService Studio API、Data Quality などのモジュールでコンピューティングリソースまたはデータソースを参照するタスクに影響を与える可能性があります。ビジネスが期待どおりに実行されるようにするには、リソースの関連付けを解除する前に、インターフェイスのプロンプトを注意深くお読みください。また、すべてのタスクをコンピューティングリソースから別のリソースに移行する必要があります。
[コンピューティングリソース] ページで、コンピューティングリソースを見つけます。右側の [関連付けの解除] をクリックして、このワークスペースからコンピューティングリソースの関連付けを解除します。
付録:タスク実行環境
標準モードのワークスペースでは、各コンピューティングリソースインスタンスに開発環境用と本番環境用の 2 つの構成セットがあります。各環境に異なるデータベースまたはインスタンスを指定できます。システムは、実行時環境に基づいて正しいコンピューティングリソースを自動的にマッピングしてアクセスします。この構成により、開発とテストが本番スケジューリングから分離されます。たとえば、開発環境でオフライン同期タスクを実行すると、タスクは事前に構成された開発データベースに自動的にアクセスします。タスクが本番スケジューリングのために実行されると、本番データベースにアクセスします。
基本モードのワークスペースには環境が 1 つしかなく、開発と本番は分離されていません。詳細については、「ワークスペースモードの違い」をご参照ください。
基本モードのワークスペースを標準モードにアップグレードすると、元のコンピューティングリソースは、本番環境用と開発環境用の 2 つの分離されたリソースに分割されます。Data Studio (新バージョン) を使用するワークスペースは、現在アップグレードをサポートしていません。詳細については、「ワークスペースモードのアップグレード」をご参照ください。