DataWorks の Data Studio で MaxCompute や Hologres などのインスタンスを使用するには、まずそれらを計算リソースとしてアタッチする必要があります。このトピックでは、タスクの開発とスケジューリングの基盤を確立するために、計算リソースを作成および管理する方法について説明します。
計算リソースとデータソースの関係
DataWorks はさまざまな計算リソースのアタッチと使用をサポートしています。計算リソースをアタッチすると、DataWorks Data Studio で直接、複雑なデータ処理を実行したり、スケジュールされたタスクを開発したりできます。ほとんどのタイプの計算リソースを DataWorks にアタッチすると、同じ名前の データソース が自動的に作成されます。このデータソースをデータ統合モジュールで使用して、データ同期などの操作を実行できます。コンピュートエンジンとデータソースの違いは次のとおりです:
計算リソースは、データ処理および分析タスクを実行するために使用されるコンピュートエンジンのインスタンスです。
データソースは、さまざまなデータストレージサービスに接続してデータを保存および管理するために使用されます。
サポートされている計算リソース
DataWorks では、Data Studio 用に次の計算リソースをアタッチできます。
カテゴリ | 計算リソースタイプ | 計算リソースのアタッチに関する説明 | Data Studio (新バージョン) | DataStudio (旧バージョン) |
オフラインコンピューティング | ||||
リアルタイムクエリ | ||||
リアルタイムコンピューティング | ||||
マルチモーダル検索 | ||||
クラスター管理 | ||||
MaxCompute、AnalyticDB for MySQL、AnalyticDB for PostgreSQL、AnalyticDB for Spark、ClickHouse、Hologres、Lindorm、EMR Serverless StarRocks、または OpenSearch 計算リソースをアタッチすると、現在のワークスペースに同じ名前の データソース が作成されます。
権限
O&M または管理者ロールを持つワークスペースメンバー、および AliyunDataWorksFullAccess または AdministratorAccess アクセスポリシーを持つメンバーのみが計算リソースを作成できます。詳細については、「ワークスペース内のモジュールに対する権限の制御」および「RAM ユーザーへの権限付与」をご参照ください。
上記の権限に加えて、特定の計算リソースを作成する際に他のアクセス制御が適用される場合があります。インターフェイスのプロンプトに従って権限を付与してください。
計算リソースのアタッチ
ワークスペースが Data Studio のパブリックプレビュー中かどうかに応じて、さまざまなエントリポイントから計算リソースをアタッチできます。
パブリックプレビュー中のワークスペースで計算リソースをアタッチする
DataWorks コンソールにログインします。ターゲットリージョンに切り替えます。左側のナビゲーションウィンドウで、 を選択します。ワークスペースを見つけて、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで、[計算リソース] をクリックして [計算リソース] ページに移動します。アタッチする計算リソースのタイプに基づいて、対応するドキュメントの指示に従ってください。
パブリックプレビュー中でないワークスペースで計算リソースをアタッチする
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ移動] をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして [計算リソース] ページに移動します。アattachする計算リソースのタイプに基づいて、対応するドキュメントの指示に従ってください。Resource Management: 右上隅にある [計算リソースの作成] をクリックして、計算リソースを作成します。
クラスター管理: [計算リソース] ページの右上隅にある [クラスターの作成] をクリックして、コンピュートエンジンクラスターを作成します。
クラスター管理
サポートされているクラスターのバージョン/タイプ
クラスターのアタッチに関するリファレンス
CDH/CDP クラスターのアタッチ
DataWorks は CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、および CDP 7.1.7 を提供します。これらのバージョンのいずれかを選択できます。これらのクラスターバージョンのコンポーネントバージョンは固定されています。詳細については、「クラスター接続情報」をご参照ください。これらのクラスターバージョンがビジネス要件を満たさない場合は、[カスタムバージョン] を選択できます。
EMR クラスターのアタッチ
サポートされている EMR クラスタータイプ: DataLake クラスター (新しいデータレイク): EMR on ECS、カスタムクラスター: EMR on ECS、Hadoop クラスター (古いデータレイク): EMR on ECS、Spark クラスター: EMR on ACK、および EMR Serverless Spark クラスター。
重要DataWorks では、Hadoop クラスター (古いデータレイク) の次の EMR バージョンを使用できます:
EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, and EMR-5.4.3
Hadoop クラスター (古いデータレイク) は推奨されなくなりました。できるだけ早く DataLake クラスターに移行してください。詳細については、「Hadoop クラスターを DataLake クラスターに移行する」をご参照ください。
計算リソースのデタッチ
計算リソースをデタッチする際は注意が必要です。この操作により、同じ名前の関連データソースも削除されます。これは、データ統合、オペレーションセンター、データ分析、DataService Studio API、Data Quality などの複数のモジュールでこの計算リソースまたはデータソースを参照するタスクに影響を与える可能性があります。ビジネスが期待どおりに実行されるようにするには、リソースをデタッチする前にインターフェイスのプロンプトを注意深くお読みください。また、すべてのタスクを計算リソースから別のリソースに移行してください。
必要に応じて計算リソースをデタッチできます。[計算リソース] ページで、デタッチする計算リソースを見つけ、[アクション] 列の [デタッチ] をクリックします。
付録: タスク実行環境
標準モードのワークスペースでは、計算リソースインスタンスには開発環境と本番環境の 2 つの環境構成があります。各環境に異なるデータベースまたはインスタンスを指定できます。システムは、ランタイム環境に基づいて適切な計算リソースを自動的にマッピングしてアクセスします。これにより、開発およびテストアクティビティが本番スケジューリングから分離されます。たとえば、オフライン同期タスクを実行すると、開発環境は事前構成された開発データベースに自動的にアクセスし、本番スケジュールは本番データベースにアクセスします。
基本モードのワークスペースには環境が 1 つしかなく、開発と本番を分離することはできません。詳細については、「基本モードと標準モードの比較」をご参照ください。
基本モードのワークスペースを標準モードにアップグレードすると、元の計算リソースは、開発環境用と本番環境用の 2 つの個別の計算リソースに分割されます。DataStudio のパブリックプレビュー中のワークスペースはアップグレードをサポートしていません。詳細については、「ワークスペースモードのアップグレード」をご参照ください。